2016年8月15日 星期一

大演算



前言:
這本書我並不打算以瞭解電腦學習原理而讀,我是為了尋找智慧交易的原理。換種說法,讀書為何?增廣知識?我並不認同。知識是快樂的原理?我也不認同,我反而覺得知識是痛苦的根源(註一)。那知識用來做什麼?對我而言知識的價值在於轉換成金錢。又是錢!!有錢才能去享受人生,所以知識只是個過程(方法、手段),不是目的(快樂)。呃…又天馬行空飛太遠了,來品書吧。

隨記:
P.41 機器人學習是解決人工智慧的關鍵。
P.41 每一種演算法(algorithm)不管多麼複雜,都可以簡化成僅僅是這三種:「且」(and)閘、「或」(or)閘、以及「非」(not)閘。
P.50 如果你不能用演算法表達一件事理,就表示你可能還不明白這事。→物理學或工程師稱為方程式(equations),牛頓第二定律可稱得上是方程式代表(F=ma;F淨外力,是所有施加於物體的力的向量和,m 是質量,a 是加速度。)。
P.51 如果一個演算法需要比電腦所提供的記憶體空間更大,那麼演算法是沒用的。
P.51 時間複雜性問題→沒有解不開的密碼,只是超出期望的時間,代表著無效用。
P.56 從技術面來說,機器人學習是人工智慧的一個支領域,但由於機器人學習擴展得如此廣大與成功,以至於如今已讓它引以為榮的父母-人工智慧黯然失色。
P.66 有了大數據和機器學習,你可以比以前理解更複雜的現象。在大多數領域中,傳統上,科學家只使用非常有限種類的模型,像是線性迴歸(linear regression),這種模型就是當你的資料所對應畫成的曲線,總是呈現一條直線。→暗!!這實在是一語驚醒夢中人,我的系統模型的極限就是線性回歸,這是人類(嚴格來說是我)的極限。再複雜一點我的判斷力就會崩解。目前看來是無解,這已不是個人問題,只有二條路,導入程式交易,或早點賺夠錢,快點退出市場因為我的優勢越來越弱。
P.81 大多數的學習機器人只有機百行程式碼。→相較目前系統都是萬行起跳。現行的系統叫暴力條件式,把所有狀況都透過人工寫出的判斷式而成。而非原理+邏輯判斷(演算法)。
P.90 簡單的函數往往會產生令人驚訝的複雜解決方案。→股市就是這概念的證明,原理很簡單:用五毛價格買進一元價值的商品。一個方程式就能自我判斷無限多變的狀況。這裡就超出作者所說的,給予電腦當今所知的原理,在此基礎上,電腦的自我學習速度會呈幾何式的爆發性成長。機器不需要從零開始的隨機嘗試,而是在當今科學知識的基礎下向上跳升,也就是說智慧型自動交易會比我預估的時程還要要提早10倍(指數概念)。看來智慧交易在10年內會成為主流,應是無法避免的事,只要把索羅斯、巴菲特、西蒙抓進系統開發團隊,世界金融交易會出現超級跳躍式的發展。我只能希望這事別太快發生,至少在我賺夠錢之前。再給我十年就行了。賺夠我就退出股市。
P.106 賽亞.伯林(Isaiah Berlin)令人印象深刻的指出,有些思想家就是所謂的狐狸,他們知道很多小的事情;而另一些思想家則是所謂的刺猬,他們知道一件大事。→終於知道狐狸與刺猬是指什麼了,這蠻鳥的比喻。
P.111 最重要的是,我們必須擔心大演算,可能落入壞人之手。第一道防線,首先確保只有好人可以取得大演算,否則的話,如果無法清楚確認誰是好人,那麼就讓大演算成為一種開放原始碼(open-sourced)。第二是意識到,無論機器學習演算法有多好,它只能與它所取得的數據資料一樣好。所以誰控制了數據資料,就等於控制了學習器。
P.114 理論的力量在於它簡化多少我們對世界的描述
P.114 在現實生活中,我們從來沒有足夠的數據資料,可以用來澈底判定這個世界
P.115 即使我們在某個時間點上,擁有世界上完整的知識,物理學定律仍然不能允許我們判定它的過去和未來。這是因為純粹的地做出這些預測所需要的計算量,將超出任何可以想像的電腦運算能力。實際上,為了完美的模擬宇宙,我們需要另一個同樣的宇宙。
P.120 機器學習的五大學派
符號理論派(Symbolists):將學習視為是逆向演繹法,從哲學、心理學和邏輯思路方面取得概念。
類神經網路學派(Connectionists):導傳遞演算法可以模擬人腦思考行為,是受到神經科學和物理學的啟發。
演化論學派(Evolutionaries):遺傳程式規劃會在電腦上模擬演化,澈底運用遺傳基因和演化生物理論。
貝氏定理學派(Bayesians):相信學習的機率推理的形式,是根據統計學的理論。
類比推理學派(Analogizers):支持向量機從相似度判斷進行推論學習,並受到心理學和數學的影響。
→結果精華就在本書的背面。
P.125 機器學習五大學派概念整合圖示→其實我有看沒有懂。感覺這種整合違背簡單原則。大概最終是死路一條。如同愛因斯坦在用三次元解大一統,而大一統可能要用更高一階的次元(空間)觀點才容易解出來。在更高一階解低一層很容易,但低層解高一階層就很複雜。人類永遠無法理解四次元空間是什麼樣子。這就陷入無盡困境。看來大演算只能靠電腦去自我突破。到時只有電腦才知道更高一階是什麼,人類永遠無法接觸到的階層。

P.130 理性主義者認為感官會欺騙,認定邏輯推理才是通往知識的唯一可靠路徑;經驗主義者則認為所有推理都容易犯錯的。知識必須從觀察和實驗得來
P.130 理性主義者喜歡在邁出第一步之前,就提前計畫一切;而經驗主義者更喜歡嘗試新事物,並且看看它們是如何發生的。
P.141 牛頓原理(Newton's Principle):無論我們所觀看到的事物為何,這一切必然都是真實的。這就是宇宙一切事物的各種真實現象。→簡單說你發明的新理論必須合理解釋現實中發生的事件,不然論點是有問題的。
P.143 所有幸福的家庭都是一樣的,而每個不幸的家庭,則各有各的不幸。→完美只有一種型態,不完美可以萬種變化。
P.160 如無必要,勿增實體。→用極簡化對極複雜。這比用複雜對極複雜還有效,因複雜的系統在現實世界中還是太過簡陋,但因為複雜系統反而先搞死自己的身心。不如簡單的邏輯,在關鍵點起槓桿作用。例:複雜的天氣預報,還不如看到天空一片烏雲,趕緊躲進屋內有用。降雨機率68%,這在說什麼…。我知道在相同條件下有68%會下雨,但實際上非常難運用,照著帶傘都讓人沮喪不已的氣象預測。我可以假設氣象預測是偽科學嗎?

P.160 即使我們最詳盡複雜的模型,往往也對現實的過度簡化
P.162 歸納是逆向演繹法則。
P.166 逆向演繹一個運算式往往困難的,因為反向運算並不會只有一唯一的解。→例:22=(-22)=4。水的由來可以是溶冰也可以是凝結水也可以合成氫+氧,眼前有杯水,你怎麼確定它的由來?
P.184 大腦可以用數十億個神經元,同時進行大量的平行計算,但每個神經元的計算速度很慢,因為人腦神經元充其量每秒只能激發1000次。→電晶體每秒可接通或斷開數十億次。所以人在圖形辨視能遠大於電腦主要是目前人類的多工能力遠超出電腦多工運算。這算是人類目前的優勢,應該多加善用。操作時盡可能把所有圖表展開來看。
P.265 一個過於簡化的模型,但你擁有足夠數據資料去估算,比一個完美的模型,但你沒有足夠的資料還要好。→大多完美的模型資料都不足。你怎麼可能連一隻蝴蝶正在拍動翅膀都有資料呢?即使有也存不下這麼多資料。地球的資料總和等於地球本身。
P.272 一切都是相關聯的,但不是直接的。→氣溫高,並非只因太陽,日照長只是其中之一的關聯因子,但不是直接因子,。不能因太陽太大所以熱,如果你身在北極就會立即體悟之間的差異了。氣溫高是複合性的結果。太陽占比很高,但不是全部。油價和股價的關係,嘿嘿。
P.286 「馬可夫鏈」的部分是它涉及採取一系列的步驟,其中每個步驟只會取決於前面一個步驟。馬可夫鏈蒙地卡邏演算法的理念,是進行一種隨機漫步(random walk),就像眾所周知的酒鬼一樣,以這樣的方式,在網路中從一個狀態跳轉到另一個狀態;就長遠來看,每一種狀態被造訪的次數會與它的有機率成正比。→PageRank網頁排名的計算原理,由別處網頁連結數推算這網頁的重要性,也就是被引用的次數決定網頁的排名。而我想到的是臨界值的概念壞運極端值爆發的時間點,所有好運的機率加總,意思是說,每發生對股市的好消息就是對大壞事發生機率的累加,直到累加到超越歷史數值時,就是瀕臨極限點,也就是隨時會出現災難來平衡這種連續的美好的運氣。但這要怎麼量化,就是我目前最大的問題所在。好事怎麼變成數字!?美國不升息=好事所以+1?還是+10?呃…先記起來馬可夫鏈蒙地卡邏演算法的核心概念,把各子項的機率加總可推導幾乎必定的結果。空氣+陽光+水=生命體必然出現的臨界閥值。
P.289 貝氏方法:P(假設 | 數據資料)=P(假設)✖P(數據資料 | 假說)/P(數據資料)。
P.356 維度化簡(dimensionality reduction)。→例當你在整理書架上的書時,你會按某種排序(主題),而讓你找書時一目瞭然,或調整某個邏輯。讓計算大幅減少。降維度是一種效率化的方法。線性迴歸也是這一個方法的代表。但想想又不是一體適用,航空線在二維圖上是曲線 但三維是直線。

P.399 機器學習五大學派的架構圖

P.453 不要失去工作的最好辦法是你要將工作自動作,如此一來,你才會有時間從事你之前無法做到的各部分工作,而這些工作也是電腦在短期間內不可能去做的事情。
P.453 電腦已經學會了如何做你的工作,請不要試圖與它競爭,要善加利用電腦。→看來我要強化excel的技能。excel真是出色的工具,輕鬆打掉一批不會用電腦的經驗老手。
P.467 如果我們能夠設計出比人們更聰明的機器,那麼反過來說,這些機器應該也可以設計出比它們還要聰明的機器。→我們無法阻止機器獲得思考能力,我們該做的正確決策是,盡可能讓機器站在人類這一方,而不是中立,雖然有些機器的邏輯會發現中立也不壞,但只要不要過半,人類是可以永存於這個次元。而不會被機器看作是可有可無的東西,而不會用純邏輯判斷而消滅或拋棄。總結來說,不是禁止機器,而是與之共存。禁止代表著,只要有一個人成功製造人工智慧,那世界就是他獨享,然而機器因永生而一統世界,不如開放。到時讓機器人之間的不同邏輯交叉對峙,人類反而安然於世。舉例來說,我很討厭狗,如果世界只有我這邏輯的人類,狗一定會被消滅。狗該感謝有與我不同思考邏輯的人存在。

心得感想:
電腦+大數據=GIGO,產出廢物而已,理由是目前電腦運算速度、容量和電力不是無限,也就是假設前題錯誤。這種隨機式的學習如同暴力破解法是不適當的,必須導入原理。目前只有人腦可以有效解出原理,像牛頓解出F=ma,愛因斯坦解出E = mc2。所以當今的問題不是讓電腦憑一股傻勁在那瞎子摸象,而是給予該領域的原理,在原理下嘗試無限可能。換種說法,找十萬隻猴子無法止盡的打字也是能打出莎士比亞全集,而因為某隻猴子打出莎士比亞全集就把他當文學大師,結果必然失敗。但如果莎士比亞能把原理列出來和給一本字典,這十萬隻猴子在此基礎架構下,打出高段文學的機率就爆增,讓整個成功率幾何式上升。結論:電腦+大數據之外還要導入原理。
本書最大價值應該是在P.479 延伸閱讀,列出大量的書單,反而作者截取的內容變的很空虛。知其然,而不知其所然。只是大多書籍都不會有中譯本。我該基於私心把這段話刪除,避免英文優勢的人,得到此資訊,哈!

註一:知識是痛苦的根源
這原理我怎麼解說都覺得沒切到我的那感覺。第一次解釋是知識越多你離人群越遠的孤離感,但這不是什麼壞事,寫到後面感覺自己很孤單似的,但這並不是痛苦,其實還蠻爽的感覺。我覺得真正的關鍵是,知識帶來是知道更多,也發現自己是如此的渺小和無力,也知道更多發現自己處在極度不平等的狀態與人競爭(基因、資源)。也因知道更多欲望變得更大更廣。這一切主要是突顯無知是快樂的主因,因為知道的就是手上有的,而不知你該擁有但沒有的。呃…,先這樣吧。怎麼解釋都覺得不順。





書籍資料:
書名:大演算:機器學習的終極演算法將如何改變我們的未來,創造新紀元的文明?
原名:The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World
作者:佩德羅.多明戈斯
原文作者:Pedro Domingos
譯者:張正苓,胡玉城
出版社:三采
出版日期:2016/08/05
閱讀價值:中,不予置評。(突然想用這種官話帶過…)
目錄:
第1章 機器學習的革命
進入機器學習的世界/企業為何擁抱機器學習?
增加科學方法的馬力/十億個比爾.柯林頓
一則透過傳統攻防,二則透過網路之戰
我們將走向何方?

第2章 大演算
從神經科學方面獲得的論證/從演化方面獲得的論證
從物理方面獲得的論證/從統計學方面獲得的論證
從電腦科學方面獲得的論證/機器學習專家與知識工程師
天鵝咬了機器人/大演算是隻狐狸還是刺猬?
什麼是危機所在?/一個不同的萬有理論
候選者還不夠格/機器學習的五大學派

第3章 人類的歸納問題
約會,還是不約會?/「沒有免費的午餐」定理
啟動知識學習機/如何讓世界規則化
在暗黑和幻覺之間/你可以相信的準確性
歸納法是逆向演繹法則/學習治療癌症
二十個問題的遊戲/符號理論學派

第4章 你的大腦是如何學習?
感知器的潮起潮落/物理學家用玻璃製造大腦
世界上最重要的曲線/在多維空間的爬山演算法
感知器的復仇/細胞的完整模型/更深入大腦

第5章 演化:自然學習演算法
達爾文的演算法/探索與利用的困境
適者生存的程式/性交配行為是為了什麼?
培育天性/學習最快的人勝出

第6章 貝葉斯牧師的教堂
運行世界的定理/所有模型都是錯的,但有些還是有用
從《尤金.奧涅金》到Siri手機語音行動祕書
一切都是相關聯的,但不是直接的/推理問題
學習貝氏的方法/馬爾可夫權衡事證
邏輯與機率:命運多舛的一對

第7章 你就是相似的你
如果你能與我相匹配/維度的詛咒
平面上的蛇形分割線/攀登階梯
旭日東升,光彩奪目

第8章 學習無師自通
物以類聚/發掘數據資料的形狀
享樂主義的機器人/孰能生巧
學習建立關聯

第9章 每一塊拼圖各得其所
跳脫許多模型,整合成一體/大演算
馬爾可夫邏輯網路/從休謨到你的家事機器人
行星尺度的機器學習/醫生如今會診斷你了

第10章 這是機器學習的世界
性、謊言和機器學習/數位鏡/一種模型的社會
分享或不分享,如何分享與在何處分享
類神經網路偷了我的工作/不是用人類來作戰
Google+大演算=天網(Skynet)?
演化,第二部分

【結語】 搭上機器學習的船,航向未來

誌謝
延伸閱讀

沒有留言:

張貼留言