2019年7月28日 星期日

因果革命


前言:
這本書超越我的知識層很多,已是統計學的探索未知領域。理論很簡單,但實作卻很複雜。看過公式,但還是理解不出為何如此。

隨記:
前言
人類大腦是有史以來最先進的因果處理工具,我們大腦儲存大量的因果知識
.我們從來沒有見過因果的數學語言
相關不是因果(Correlation is not causation),雞啼跟日出很有關聯,但不是日出的原因
.資料本身一點也不智慧→從資料可以分析,統計出機率,但不知為什麼,而科學的目的是精確,相互背悖。
.因果圖(causal diagram)→再搭配數學,就能從統計晉升成因果統計,作者稱為因果微積分。
資料根本不了解因果關係,估計量只負責告訴我們統計結果。→意思是統計表達是一種相關,而非因果。
人類直覺是以因果為基礎,而不是統計和邏輯
.我們可把原因定義為一個客體,此客體受另一客體依循。類似前者所有客體,都受類似後者的所有客體依循。換句話說,如果前者不存在,後者也不會存在。因果實梯的頂端、反事證。
.休謨提出的定義其實不止一個而是兩個。第一是規律性(regularity)。即使結果規律地依循原因。第二是反事證(如果前面的客體不存在的話…)
反事證定義比較接近人類直覺。我們把原因視為造成改變的事物,而它造成的改變一定是此事物不存在時的差別
.我們比資料聰明,資料不了解原因和結果,但人類了解。

一、因果階梯
.試圖解決不熟悉的科學問題時,畫出清楚的圖畫會非常有用
.因果階梯:step1.關聯(觀看、觀察)、step2.介入(實行、介入)、step3.反事證(想像、回想、理解)。
優異的預測不需要很好的解釋,貓頭鷹不需要了解老鼠為什麼總是會從A點跑到B點,同樣很會抓老鼠。→並非所有解答需要了解成因,目的為何決定選用的工具。算四方形面積並不需要用到微積分,就能解決。
人類大腦一定具有某種密集資訊呈現法和高效率程序,來正確解譯每個問題。→似乎研究人類大腦會比瞎猜開發人工智慧演算法有效益。大腦逆向還原工程,目前最可能做到這事大概只有沒人權的北韓了。換種說法北韓可能是人工智慧的希望。(諷刺)
因果(路徑)圖→讓統計從一元推論變成多維並線。也就是作者想表達的因果統計原理。現行的統計不管其他因子,只從一個因子作推論。像人類平均只有一顆蛋的問題,因果統計會把性別獨立成一個原點,形成結構式的路徑圖。路徑圖突破了數學無法表達的結構。數學公式再怎麼複雜都只有一行(一維),導致數學公式永遠無法呈現結構(二維以上)的東西。如果再推論,數學中任何「常數」都不是常數。只是更高次數學的降階。這意味常數只適用三次元或更低次元的數學而已。如同小學背九九乘法表,72是9*8的常數,是X*Y時X=9,Y=8的結果。X,Y是可變性,具有因果性(待想出更好的比喻)


代數方程式沒有方向性(也就是X=Y與Y=X相同),所以經濟學家無法以標記來分辨因果方程式與回歸方程式。→突破盲點,代數無法處理不可逆問題
.客觀一直是統計學家的最高目標
資料是客觀的,意見是主觀的。→因果分析是主觀的,而貝氏統計是帶有主觀概念成分的統計。像喝酒的好處作分析,就已假設酒是有好處的基礎下作研究,就已失去客觀。

三、從證據到原因
歸納的運作方向和演繹相反,是從證據產生假設
.條件機率→盲點,條件成為「已知我知道」,但條件其實是假設而不是肯定。所以今日的商業廣告全在玩弄貝氏統計的盲點。最近看到電動車每公里成本只要一元的廣告,真是笑翻了。隱藏條件是鋰電池沒有充電次數問題。但這是不成立的假設,科技還沒突破鋰電池老化現象。反正鄉民數學差,沒知識,好欺負。其實鄉民只要聽到「環保(又便宜)」就興奮不已,其他都是廢話。另外只要冠上「民主」兩個字就無敵,而不管對方高喊的民主是什麼。這就是今日台灣平均智力水準,跟二千年前雅典市民沒有差別多少。除了手上有iPhone覺得比較先進的錯覺罷了。如果覺得你很聰明,那有一個很有趣的悖離現象。假如你很聰明那你會有錢,因為你做的決定都大多正確,所以長期下來會累積出財富。但事實大多數覺得自己是正確的人都很窮,越覺得自己是正確的越是窮到快脫褲子。這其實是反證你其實做了太多錯誤的判斷導致你的貧窮,為何會做出這麼多錯誤呢?因為你沒知識或是滿腦子的錯誤知識而不自知。我沒說窮人都是笨蛋,但因運氣極差而貧窮的機率很低。意思是大多數窮人都是笨蛋。這也就是在麥當勞打工的人,不可能找到像愛因斯坦高智慧人物的道理所在。
六、破解悖論
悖論的形成原因是:我們誤把在某個領域學到的法則,套用在另一個領域
.我們大腦不善長處理機率問題,但善長處理因果問題。這個因果能力往往造成幻象,這種系統性機率錯誤→蒙提霍爾問題(三門選車)。
.大腦缺陷:我們一看到固定型態,就想找因果解釋,想找出位於資料外的穩定機制,而最令人滿意的是,X造成Y這類直接因果關係。如果找不到,找出X和Y的共同原因也可以滿足我們。
七、超越調整:
.以do計算規則推導前門調整公式→雖然不懂,但這圖卻給了一種新的概念。分解、組合、模組化,就能公式化。

科學家選擇線性模型時,通常只為了方便,沒有好理由


心得感想:
人類運算速度是被嚴重低估,才導致推論電腦運算很優異的錯覺。像圖形理解,人腦的運算力會讓電腦吃鱉。所以綜合來看人腦的運算力還是在家用電腦之上很多檔次。意味著電腦運算力不如預期的高,也就意味著其實離人工智慧所需的運算力最低標還很遠。再看看耗電量,家用電腦已用到500瓦的電源了,才勉強夠用來打電玩。意味電腦目前對人腦,如同恐龍體形對細菌體形,耗能不成比例。錯覺來自比對問題,新舊電腦比較其實會產生錯覺,覺得進步很快,但電腦跟人腦比才能知道電腦還是嚴重落後。不管是運算力、耗能率等基礎不足問題,更別說是在此之上的應用層建構匱乏,知識元件只有貝氏機率建構出的類神經網路在撐著用、感應元件也未成熟。你的電腦最多能偵測到CPU溫度,即使你開麥克風他也不知道,因為這個元件並沒做。
時空條件的改變,造就方法的演進。以往認為複雜的理論,在今日電腦的強度下顯得容易可行。統計學以前無法處理多來源因子,是因為運算力不足,而當有電腦後,運算力(含記憶力)不再是問題時,統計學就能突破舊理論(單一條件分析),而進入複合式。而這複合式以前視為困難,今日視為簡單。簡單就意味著可行。因果統計在昨日是很難實現的分析法,但今日卻變成可行的分析法。簡單說,條件隨著時間而改變,最佳方法也跟著改變昨日的複雜,今日的簡單。當我們把所有因果數學化後,做成模組,那預知未來將是可行。統計學最終會成為預知學。如果世界只有一個先知,他將能成為世界首富和統治人類。統計學遠遠超出你的想像。它打破了能量論的限制(你要預測必須模擬出一樣的狀態),只需20%的資源就能預測80%的未來,這準度足夠讓你成為世界第一了。
本書知識密度高,但不知是作者表達有問題還是翻譯水準不足。導致閱讀起來很不流暢,很難馬上會意。也就是說這本書有點難閱讀。但這個論點是有點自疑,因為最近重心在寫程式(和玩遊戲),讀書次數下降導致閱讀能力下降的可能。如同久久沒練寫字,寫起字來像三歲塗鴨。真是弔詭的現象,明明已習成了技巧,卻久久沒用而生疏又要重新複習才能回到最佳水準。這落差跟電影表現的落差真大,看雷神索爾頂著大肚腩,一樣能一斧劈死薩諾斯,完全沒有生疏問題。

本書的因果推論類似從賽局樹進化成淘汰賽晉級圖,從單一起點變成多個起點。從魔球(自知)進化到全局(知己知彼)。

《賽局樹》


《淘汰賽晉級圖》


本書概念性的論點很有價值,像衝突性、干擾性因子會導致悖離現象出現。但具體化的數學模組卻超出一般人能解理的的程度,已進入複雜領域,而這裡必須靠電腦才能處理。意味著本書90%對一般人(我)是無用的,導致這本書很難啃。這本書的層級屬進階的機率學,是專業的統計學者的讀物。

結論:覺得非常可惜,如入金山卻空手而回。對這本書的理解大概不到40%。


[2019年7月29日 電子書心得]
這次購買的是博客來電子書,因為最便宜。定價680,售價419。博客來野心真大,想獨吞電子書市場。Readmoo售價476、Google售價490。Google很明顯沒在照顧台灣市場,完全沒用心,就萬年價。對google圖書前景是堪憂,可能最後又收攤不玩。這是google的文化(CEO的短視,只看今年年終獎金),像google+,我當年把facebook刪了轉入google+。結果google直接刪掉G+。連鐵粉不信任google時,前景是很糟的。誰要作你的白老鼠。

<優點>
.價格:猜想紙和庫存成本永遠是書商的痛,電子化後只需一本書的儲存空間量和無限索引(複製)。所以419元其實還是暴利,原價680其實是黑店價,為了反制79折成為基準價的漫天開價。所以當今用原價買書不要覺得是高尚,而是被坑了。
.方便:不用跑書店
<缺點>
.頁數消失:因為文字變成可調整大小,所以頁數完全消失了。筆記上變得無法定位,這點是有點困擾。我無法從隨記立即回查我截錄的話在那裡,長久後自己回看不知所云時,回查變得很困難。改良方法大概是百分比應加2位小數點。

.無法轉移:通常非上選作品(ex這本),我讀完會丟給圖書館(毒害其他人)。
.百分比錯誤:85%是倒數第二頁,然後跳到100%
.人機介面:待改善,應採用與瀏覽器一致的快速鍵,像空白是下一頁。
.背景色:黑就是純黑才是真正的閱讀模式,灰階讓人覺得很科技感但不實用。
.作者介紹和譯者介紹不見了:以前能在封頁背面找到資訊,電子書就沒載記了。
.字型問題:字型應該能修改,像《Verdana》、《微軟正黑體》
.字體大小:應該更細分,以下才縮小一格就差距很大,找不到適中的大小。


.不普及:並不是每一本書都有出電子版。這算缺點嗎?或許可以作參考,因為沒出電子書代表不會是大作。算是種找好書的濾網。如下圖,沒出電子書,連看都不用看,一定冷門作品。不然書商一定會花錢製作成電子書,以期望獲得大最報酬。



<心得>
.改良:文字可調整大小、可全畫面(F11)、可改背景黑色(Dark Theme),已達到需求低標。再搭配有paper mode電腦螢幕後,這意味著電子書取代紙本已成真的時代已到來了。在電腦上運作雖然有些不順手(ex空白鍵無法自動換頁),但整體上在電腦螢幕上表現已進入可接受的程度。但還是不適合用一般手機等螢幕來觀看,因為螢幕設計是給多媒體(ex:電影)播放用,色彩豔麗並不適合拿來作文字閱讀。所以無法解決移動時的閱讀問題。還是得買電子書閱讀器才可行,但電子閱讀器最大問題是「被綁架」,這問題不解決我實在不想浪費錢去買。而解決方法真的很簡單,手機未來一定會有閱讀模式的功能加入。只要電子書普及化後,平板電腦就會先採用,接著是手機。可預見的是電子閱讀器是個過渡產品,長久之後還是會消失。刺眼問題怎麼解決?如果世界上90%都不覺,剩下10%敏感型的人(我!?)只能自己想辦法了。多喝枸杞、菊花、決明子茶試試吧,這世界只能你習慣它,它不會來遷就你(像iPhone 凸鏡頭)。
後記:
讀螢幕文字老毛病,字會飄的感覺比紙本強烈很多。專注力要比平常來的高才能閱讀,代表精力耗損在強加專注力上。長期下來還是負面效果,當一本很艱澀的書時,這問題更是顯著(這本書後半部,詳解公式)。光源,直射光(螢幕)和反射光(紙)差異是存在,造成顯著的閱讀阻力




書籍資料:
書名:因果革命:人工智慧的大未來
原名:The Book of Why: The New Science of Cause and Effect
作者:朱迪亞・珀爾, 達納・麥肯錫
原文作者: Judea Pearl, Dana Mackenzie
譯者:甘錫安
出版社:行路
出版日期:2019/07/11
閱讀價值:中,艱澀的解說。帶入許多非必要的生活往事,讓原本很吃力的理解還要額外消化作者的回憶錄。

4 則留言:

  1. 雖然沒有頁數,但是理論上電子書閱讀器內建的書籤功能應該更精細,能定位到字為單位的範圍?

    回覆刪除
    回覆
    1. 好主意,這方法蠻靈活的運用書籤。
      但如果是寫論文的人該怎麼標示呢?
      所以目前電子書欠缺,精確的定標功能。

      刪除
  2. "因為沒出電子書代表不會是大作"
    可是很多書在 Readmoo 和 Kobo 有電子書 在博客來沒有耶
    博客來的電子書起步比較晚 書可能會比較不齊全的感覺

    回覆刪除
    回覆
    1. 這問題有兩個變數
      1.大作:指世界級的作品,不是指小說、小品等東西。
      2.時間點:在我說那句話之後的出版品,不是指舊作。
      我想要表達的是,在無法去書店翻實體書情況下,一種篩選電子書的技巧。電子書有提供試閱,但通常讀不到幾頁,其實不足以確認值不值得購買。但書商知道這本書值不值投資金錢開發電子版本。我利用對方的已知來解除我的未知,一種資訊非對稱式的破解技巧。

      刪除