Taleb on DỮ LIỆU

Tóm tắt từ bộ sách Incerto của Nassim Nicholas Taleb: tài liệu khoa học nghiêm túc, không phải bài viết tự suy luận, suy diễn. 
Toàn bộ luận điểm trong bộ sách là mạnh mẽ và chưa bị bác bỏ sau 20 năm kể từ khi xuất bản tập đầu tiên của bộ sách
Hy vọng bạn có thể ứng dụng chúng vào cuộc sống/công việc để tạo niềm vui + lợi nhuận cho bản thân và nhiều người xung quanh

SỨC KHỎEMAY MẮN & THÀNH CÔNG
HỌC HÀNHTRÍ NÃO
DỰ ĐOÁNMÊ TÍN
XÁC SUẤTANH HÙNG & TỘI ĐỒ
DỮ LIỆUTRÒ ĐÙA CỦA NGẪU NHIÊN
AUTODIDACTTHIÊN NGA ĐEN
R. Feynman, C. MungerKHẢ NĂNG CẢI THIỆN NGHỊCH CẢNH

Thông tin xấu (sai) còn tồi tệ hơn việc không có thông tin nào

Sai lầm không phải là thứ được xác định sau khi sự đã rồi, mà được xác định trong những thông tin có được cho đến thời điểm sự kiện diễn ra

Vấn đề của thông tin không nằm ở chỗ nó gây phân tâm và nhìn chung là vô dụng, mà là nó độc hại

Càng có nhiều thông tin, bạn càng tự tin về kết quả: Nhiều là bao nhiêu? –> Sự bất đối xứng về tri thức

Tôi không bao giờ nói rằng tất cả những người giàu có đều là kẻ ngu ngốc & tất cả những người thất bại đều k may mắn – tôi chỉ muốn nói rằng nếu k có thêm nhiều thông tin bổ sung, tốt nhất đừng đánh giá gì cả. Như thế an toàn hơn.

Lời nhận định sẽ tiết lộ về tác giả của nó hơn là về thông tin mà anh ta muốn truyền tải, trừ khi tác giả của lời nhận định là người có uy tín

Càng ít tin tưởng vào độ tin cậy của cây thước (trong xác suất điều này gọi là tiền định) thì bạn càng thu được nhiều thông tin về cây thước và ít thông tin về cái bàn

Bộ ba mờ đục
a) ảo tưởng về sự hiểu biết
b) sự bóp méo khi truy hồi về quá khứ
c) việc đánh giá quá cao thông tin của các dữ kiện cùng với thế bất lợi của những người có học thức & có thẩm quyền, nhất là khi tạo ra các phạm trù – khi họ “Plato hóa” (Platonify)

Các định lượng xã hội đều mang tính thông tin chứ không mang tính vật chất: bạn không thể chạm vào chúng. Tiền trong tài khoản ngân hàng là một thứ quan trọng nhưng dĩ nhiên nó không có tính vật chất. Vì vậy nó có thể nhận bất kỳ giá trị nào mà không tiêu tốn năng lượng. Nó chỉ là một con số!

Chúng ta phản ứng trước một thông tin k phải do tính logic của nó mà do bối cảnh xung quanh và mức độ ăn nhập của nó trong hệ thống cảm xúc – xã hội của chúng ta

Chúng tôi là những người đưa ra quyết định dựa theo thực nghiệm, là người hiểu được rằng tính bất định chính là ngành nghiên cứu dành cho mình, và rằng hiểu được cách hành động trong những điều kiện thông tin không đầy đủ chính là mục tiêu cao nhất & cấp thiết nhất của loài người

Tuy nhiên bao giờ bạn cũng tự tin hơn khi kết luận điều gì là sai so với khi kết luận điều gì là đúng. Không phải thông tin nào cũng quan trọng như nhau

Trí nhớ có tính động – chứ không phải tĩnh – giống như một tờ giấy mà trên đó những đoạn văn mới (hay phiên bản mới của đoạn văn đó) liên tục được lưu lại nhờ sức mạnh của thông tin đến sau

Những gì có ý nghĩa phù hợp với thông tin nhận được sau đó sẽ được ghi nhớ sâu hơn

Chính cường độ tiếp cận thông tin quá lớn đã hủy hoại cuộc sống của Nero. Báo cáo về tình hình đầu tư 1 tuần/lần vs 1 phút/lần

Thông tin là thứ không tốt cho kiến thức

Có lẽ chẳng có sự ăn cắp ý tưởng nào cả: Bản thân thông tin đã có giải pháp tồn tại chính là một phần lớn trong giải pháp đó

Một lần nữa, thông tin không đầy đủ/Sự mờ đục

Học cách đọc lịch sử, có được tất cả những thông tin mà bạn có thể đạt được, đừng cau mày với những chuyện vặt, cũng đừng rút ra bất kỳ mối liên kết nào, đừng cơ cấu ngược quá nhiều – nhưng nếu làm được như thế thì cũng đừng đưa ra những tuyên bố khoa học to tát. Hãy nhớ rằng những người theo chủ nghĩa thực nghiệm hoài nghi là những người tôn trọng truyền thống. Họ dùng nó như một điều mặc định, một điểm xuất phát để hành động & không gì ngoài mục đích đó

Nghệ thuật thiên về hiệu ứng lợi thế – tích lũy vì nó phụ thuộc vào thông tin truyền miệng

Sự mờ đục, sự không hoàn chỉnh của thông tin, sự vô hình của những gì tạo ra thế giới. Lịch sử không cho chúng ta nhìn thấy suy nghĩ của nó – chúng ta cần đoán xem bên trong nó có gì

Khả năng cải thiện nghịch cảnh của thông tin
ngọn lữa được nuôi dưỡng bằng những chướng ngại vật
cường độ chỉ trích/nỗ lực gièm pha ai đó

truyền đạt thông tin giữa các hệ phức hợp bằng các yếu tố căng thẳng
sai lầm & hệ quả đều là thông tin
Đối với các em bé, cảm giác đau là thông tin quản lý rủi ro duy nhất

Ta suy nghĩ một cách tuyến tính, nhưng phản ứng của cơ thể theo liều lượng có tính chất phi tuyến tính. Tư duy tuyến tính của ta không thích biến thể & rút gọn thông tin thành khái niệm nhị nguyên “có hại” hay “có lợi”

Sử dụng sai lầm như một nguồn thông tin
Giống chi phí hơn là sai lầm
Và lẽ dĩ nhiên bạn sẽ khám phá nhiều hơn trong quá trình đó

Cả thành công & thất bại của bạn đều mang lại thông tin cho bạn

Các yếu tố căng thẳng là thông tin; sự nghiệp của họ đứng trước một nguồn cung liên tục các yếu tố căng thẳng làm cho họ phải thích nghi một cách cơ hội. Thêm vào đó, họ mở ngỏ với của hời & những bất ngờ tích cực, những quyền chọn tự do – con dấu chất lượng của khả năng cải thiện nghịch cảnh

Thật ra con người chúng ta rất kém trong việc chọn lọc thông tin, nhất là những thông tin ngắn hạn & sự trì hoãn là một phương thức để ta chọn lọc tốt hơn, để ta chống lại hậu quả của việc nhảy ngay vào thông tin

Người điềm tĩnh, có khả năng giữ bình tĩnh trong cảnh nước sôi lữa bỏng được xem là đức tính cần thiết để trở thành một nhà lãnh đạo, chỉ huy quân sự hay bố già mafia. Thường trầm tĩnh & miễn nhiễm trước những thông tin nho nhỏ, sự tự chủ trong những tình huống khó khăn

Loạn thần kinh chức năng trong khuôn khổ công nghiệp –>”phản ứng quá đáng”
Người phản ứng trước thông tin thực tế vs Người phản ứng trước độ nhiễu thông tin

Khả năng chữa bệnh của việc tuyệt thực, thông qua tránh các hoocmon sinh ra cùng với việc đưa thức ăn vào cơ thể. Các hoocmon truyền đạt thông tin đến các phần khác nhau trong cơ thể & quá nhiều hoocmon gây ra rối loạn sinh học

  • yếu tố tâm lý -> phản ứng quá đáng về mặt cảm xúc trước nhiễu

Loạn thần kinh chức năng do phương tiện truyền thông. Cách tốt nhất để giảm thiểu can thiệp là định mức giới hạn nguồn thông tin, càng tự nhiên càng tốt. Điều này thật khó chấp nhận trong thời đại internet. Với tôi, thật vô cùng khó khăn để giải thích rằng càng có nhiều số liệu, bạn càng biết ít hơn về những gì đang diễn ra & bạn càng gây ra hiện tượng lợn lành chữa thành lợn què nhiều hơn. Người ta vẫn ảo tưởng rằng “khoa học” có nghĩa là nhiều dữ liệu hơn

Thuần hóa các cảm xúc
Chủ nghĩa khắc kỷ là về việc thuần hóa cảm xúc, chứ không nhất thiết là triệt tiêu cảm xúc, không phải là về việc biến con người thành thực vật. Ý tưởng của tôi về nhà hiền triết khắc kỷ thời hiện đại là người biến lo sợ thành thận trọng, biến nỗi đau thành thông tin, biến sai lầm thành khởi động, & biến ước mơ thành nhiệm vụ

Người đi phượt duy lý là người ra quyết định từng bước một để sửa đổi lịch trình của họ, để họ có thể hấp thu sự việc dựa vào những thông tin mới
Người đi phượt không bị giam cầm trong các kế hoạch. Các phượt thủ liên tục thay đổi mục tiêu khi hấp thu thông tin mới

Biến động của cuộc đời giúp mang lại cho ta thông tin về những người khác đồng thời cũng mang lại thông tin về chính ta

Và người ta cần duy lý để không thử nghiệm & sửa sai một cách hoàn toàn ngẫu nhiên

Mọi thất bại đều mang thêm thông tin, mỗi thông tin lại có giá trị hơn thông tin trước đó
Sau mỗi phép thử người ta càng đến gần hơn với kết quả (biết mình muốn gì)
ta có thể biết mình nên tiếp tục đi đâu

Hiệu ứng mắc lừa bởi ngẫu nhiên: Thông tin có một thuộc tính khó chịu: nó che giấu thất bại

thực phẩm không chỉ là nguồn năng lượng mà còn truyền tải thông tin về môi trường

Biến thiên ngẫu nhiên thường bị nhầm lẫn là thông tin, vì thế dẫn đến sự can thiệp

Việc đi khám bác sĩ thường xuyên ~ truy cập thông tin quá thường xuyên

trẻ em hay sách đều mang theo thông tin lưu lại qua nhiều thế kỷ

Tôi không muốn sống mãi như một con vật ốm yếu
Tôi tồn tại để nhận lấy một cái chết hào hùng vì tập thể, để sinh ra con cháu ( chuẩn bị & lo liệu cho chúng) hay để viết những cuốn sách; thông tin của tôi, gene di truyền của tôi, khả năng cải thiện nghịch cảnh trong tôi, sẽ là những thứ tìm kiếm sự bất tử, chứ không phải tôi
Nhường chỗ cho người khác

Nhưng giờ là thời đại thông tin. Ảnh hưởng của sự chuyển giao tính mỏng manh chắc cũng từng có trong lịch sử, nhưng giờ đây nó sâu sắc hơn, trong sự kết nối của thời hiện đại & tính vô hình gần đây của chuỗi nhân quả

Dữ liệu có một thuộc tính chắc chắn: trong những tập hợp dữ liệu lớn, những biến thiên lớn có thể quy cho độ nhiễu (hay phương sai) chứ không phải là thông tin (hay tín hiệu) 80% giả mạo

chỉ ra những “điểm bình thường” & “bất thường” trong dữ liệu thuần túy ngẫu nhiên

Ông lĩnh hội kiến thức về thế giới từ các dữ liệu quá khứ đã được lọc sạch các định kiến, bình luận & những câu chuyện

Tôi có thể sử dụng dữ liệu để chứng minh một định đề là sai, nhưng không thể chứng minh nó là đúng. Tôi có thể sử dụng lịch sử để bác bỏ một phỏng đoán, chứ không thể xác nhận là nó đúng

chỉ có thể sử dụng dữ liệu để bác bỏ thay vì để xác nhận các giả thiết

Họ đảm bảo rằng cái giá phải trả khi mắc sai lầm đã được giới hạn ( & họ không tính xác suất từ dữ liệu quá khứ)
Con khỉ & máy đánh chữ

Bộ kiểm chứng ngược (backtest): tìm nguyên tắc khớp với dữ liệu –> nạo vét dữ liệu –> xàm chó
Thiên kiến khai phá dữ liệu

Sự ngẫu nhiên trông không có vẽ ngẫu nhiên đâu!
Cụm ung thư, nguồn tạo dữ liệu ngẫu nhiên nhân tạo

đo đạc xác suất vs đo đạc nhiệt độ/cân nặng
Điều đó có nghĩa rằng khi chúng ta tính toán xác suất từ dữ liệu quá khứ, chúng ta đang chấp nhận những giả định về độ nghiêng lệch của bộ kiến tạo của các chuỗi ngẫu nhiên – tất cả dữ liệu đều phụ thuộc vào bộ kiến tạo. Tóm lại, với những gói dữ liệu bị nghiêng lệch, sự ngụy trang của những đặc điểm tham gia vào cuộc chơi và chúng ta có xu hướng tin vào những gì chúng ta thấy

Trong thế giới này, lúc nào bạn cũng nên hoài nghi kiến thức đúc kết từ dữ liệu

Cùng 1 dữ liệu: người A Rập & người Israel, Đảng Dân Chủ & Đảng Công Hòa

Sự tường thuật của một người điên
Hai người có thể theo đuổi hai niềm tin trái ngược nhau vốn cùng bắt nguồn từ một dữ liệu

Một người có thể có hàng triệu cách giải thích, nhưng lời giải thích đúng thì chỉ có một mà thôi, dù điều đó có nằm trong phạm vi hiểu biết của chúng ta hay không

không sử dụng đường cong hình chuông mà chỉ sử dụng các phương pháp thực nghiệm để quan sát dữ liệu

Cùng 1 dữ liệu có thể khẳng định 1 lý thuyết & cũng có thể khẳng định điều trái ngược lý thuyết đó. Nếu sống sót đến sáng mai a)bạn có nhiều khả năng bất tử b)bạn càng đến gần cái chết hơn

Chúng tôi biết rằng các dữ liệu đó đã tiết lộ một định luật lũy thừa phân dạng, những hiểu rằng không ai có thể đưa ra một con số chính xác. Nhưng việc biết rõ rằng sự phân phối đó có tính thang bậc & phân dạng – cũng đủ để cho chúng tôi vận hành & đưa ra các quyết định

Vấn đề ngụy trang ( the masquerade problem)
Một quy trình có số mũ là 1.7 -> tính toán ra 2.4 dù có cả triệu điểm dữ liệu (mất thời gian dài)
Đôi khi, một phân dạng có thể khiến bạn tin rằng nó là đường cong Gauss, đặc biệt khi điểm cắt bắt đầu ở một con số lớn hơn. Với phân phối phân dạng, các độ lệch cực đại kiểu đó sẽ đủ hiếm để “hun khói” bạn: Bạn nhận ra được sự phân phối đó là phân dạng

Làm việc với nguồn dữ liệu dồi dào như thế khiến chúng ta thấy mình trở nên xoàng xỉnh, nó mang đến khả năng hiểu biết bằng trực giác về sai sót sau: Việc lựa chọn để đi trên con đường nằm giữa mô tả & thực tế là một hướng đi sai lầm

Khi ra quyết định kinh tế & kinh doanh, việc dựa vào dữ liệu gây ra những tác dụng phụ nghiêm trọng. Dữ liệu rất độc hại ứng với những số lượng lớn

Xem xét dữ liệu tỷ lệ tính hiệu trên độ nhiễu 1:1
tần suất hàng năm 1:1
hàng ngày 95:5
hàng giờ 99.5: 0.5 tín hiệu (200 lần) -> lý do khiến những người ngồi nghe tin tức -> tiến thêm dến thất bại

Giải pháp tốt nhất là chỉ nhìn vào sự thay đổi rất lớn của dữ liệu hay tình hình, đừng bao giờ để ý đến những thay đổi nhỏ

Chọn lựa dữ liệu thuận lợi: hay ngụy biện chứng thực
Chọn lựa dữ liệu có lợi loại bỏ dữ liệu bất lợi (cherry picking)
Người kể chuyện – quyền chọn câu chuyện

đối tượng antifragile, tin tốt có xu hướng không xuất hiện trong dữ liệu quá khứ
đối tượng fragile, chính tin xấu mới không dễ dàng bộc lộ