品書隨記: 統計學，最強的商業武器

前言：
讀這本書的狀態是沒咖啡沒吃營養補充品，來測試大腦是否能維持在可思考的層級。

隨記：
P.34 所有學問都必須用到統計學的時代已經來臨。→目前電腦時代來臨，統計學以前最麻煩的就是計算，現在只要輸入資料，電腦強大的運算力把統計學發揮到一種壓倒性的優勢。純計算是電腦絕對強項，而當今就是看誰會用電腦來取代人腦運算力。這如同工業革命一樣，機械力取代勞動力。誰會用誰就有優勢。
P.65 標準誤差到底是什麼呢?就是真正比例位於從抽樣算得的比例(例如失業率)，減去二倍標準誤差到加上二倍標準誤差的範圍之間，其可信度約為95%的值。例如，若抽樣調查所算出來的失業率為25%，其標準誤差為0.5%的話，那麼，普查所得的真正失業率幾乎可肯定會落在24%~26%之間，而這是統計學家早在80幾年以前就已證明的。→落在24%~26%之間有95%的機率，看來之前我的理解是沒什麼問題的。
P.67 圖表8 不同樣本數所造成的標準誤差變化→這圖妙，說明隨機抽樣的價值。也從圖中看出來，普查是蠻蠢的行為，為那精準度不到2%的幅度而浪費近乎無限的資源。

P.68 先從要做出正確判斷所需之最小資料量開始→想想自己在作計量系統，我只用了約2百筆資料作統計分析，而且還是不精準的資料(一根k棒可能在這時間內來回多次)，嗯，僥倖…。
P.79 這世界到處充斥著，沒有考慮因果關係的統計分析→點到我的盲點了。計量操作一直被這問題困擾著，回測資料中太多大事件的影響而沒有分析出因果關係，導致系統波動性極大。我也一直在想怎麼處理這問題，有些情況下用預測方法是比較好處理的，像經驗來說有些日子就是會休息，例如7、8、9這三個月常常出現裝死。主力跑去度假所衍生的結果。但最近也開始失效了，世界一直在變。
P.84 只要具備統計的因果推論知識，亦即能以「充足的資料」進行「適當的比較」。→作者舉的例子很有趣，殺人犯95%都吃米，所以米是高危險食物。說明了在分析資料時需要有該行業專業背景(或經驗)，不然統計並不存在意義。
P.92 現代統計學之父羅納德．費雪等人的時代和過去的統計學之間最大的差異，便是在於誤差的處理。
P.97 是否為「合理的偏差」，或者說算有誤差仍會產生這種程度的差距，這就稱為「卡方檢定」。→沒看懂。
P.98 這種「實際上沒有差異，卻因誤差或偶發而產生資料差距(嚴格來說，更極端的差距也包在含在內)的機率)為p值。
P.115 隨機對照實驗到底有多大能耐，最主要原因就在於「對於人類可控制的任何東西，它都能分析其因果關係」。→作者舉奶茶要先倒牛奶還是茶那個好喝，這是由羅納德．費雪發現的實驗方式。這方法我要研究一下了，我完全沒概念。這概念很特別，不用對照組，只是把樣本作隨機排序，然後作實驗。如果有差別，就會反應在答對率上，本題如果10杯都答對，就是2的10次方=1/1024(約0.1)的機率，這麼簡單就把因果性調查出來了。
P.132 只要隨機化，就能讓參與比較的兩個群組之各項條件，達到近乎一致的狀態。於是乎，最後剩下的不一致條件，便只有該實驗要控制的肥料而已，若在此狀態下，兩個群組的收穫量產生了「不太可能是誤差的差距」，便幾乎可以證實「因肥料而造成收穫量有差異」的因果關係。→費雪真的太強了，一般人只覺得太多變動因子會造成結果的影響而打退堂鼓，但費雪反而利用變動因子之間的隨機性，來相消變動因子的變數，最後只得到想作實驗的部份。就像隨機找100人，分兩組，一組喝咖啡另一組不喝咖啡，然後作數學運算測試。如果咖啡能提高智力，那喝咖啡的那組成績會出現偏高，且超出可能誤差的值。這就能證明咖啡具有提高智力的功效。(大約是這概念，隨機對照可證明因果性)
P.134 隨機對照實驗能以較低的成本與風險來排除犯錯的可能性。不知各位能否理解，倒過來想就等於是說，由於成本與風險較低，所以「反而可以犯錯」。→我喜歡這種概念，在比對手低的成本下，可作更多次的嘗試。
P.137 在沒有統計數據支撐的情況下就判定某事絕對錯誤，也同樣是笨到底的行為。→公司開會就知道，大家都麻比口才，統計還來不及算出來，討論議題早飛去天馬行空了，有夢最美。
P.139 只要下定決心將之隨機化並持續收集資料，之後就能夠有所依據地判斷出「哪個作法較好」、「能帶來多大利益」等結論，且至少是能夠更接近「正確的」決定。→這句有個很關鍵的地方，持續收集資料。股市一直都在變，沒有固定方法，只有不斷改進。
P.139 隨機其實不容易。所謂的隨機，有時也被解釋為「隨便」或「隨意」等，但其實意義不盡相同。隨機帶有「無意識」的意思，簡言之，就是不要加入特定意圖，或者亦可設是「具不確定性的」。→的確，要營造隨機抽樣真的不容易。
P.140 只要在Excel 裡輸入「=rand()」，就能輕鬆獲得隨機數值。→這功能不錯，先記起來，覺得之後會很有用，尤其在抽樣上使用。
P.143 在面對「只有唯一一次」，或者只能有少數幾次機會的事情，別說是隨機化了，連統計學都派不上用場。→如果我進睹場，我會第一次就all in，不管輸贏都要離開賭場。這時比的是運氣，莊家的長期60%勝率對1萬回合有意義，但對我並不存在意義，因為只玩1次。
P.174 對於具變動性之現象，理論性的預測並沒有那麼準確→這是在說球員在單一場次表現並不符合理論值，因受情緒、健康等狀態的變動所干擾。魔球之所以準是他們追求的是長期且所有隊員的綜合效果，而不在乎單一場次、單一球員的的表現。
P.175 但千萬別只滿足於透過回歸分析而得出之「最有可能的預測公鄉」，雖然該預測公式是以最小化資料誤差的方式所求得，但存在著誤差這點依舊不變。忽視誤差的分析都是不切實際的。→誤差，永遠是統計學的痛處。
P.195 所謂的回歸直線就是「通過資料中心的線」。
P.199 多元回歸分析，可說是針對有多個「解釋變數」(亦即會影響預測之結果的因素)的情況擴充而成的回歸分析。
P.287 一般而言，科學上的推論形式可大致分為歸納和演繹兩種。
P.287 簡單來說，歸納就是收集眾多個案然後推導出通用規則的作法，演繹則是以某個事實或假設為基礎，再透過邏輯推理來得出結論的方式。

心得感想：
在第17章說隨機的三項限制-現實、情感、道德，我覺得只有第一項比較有影響性，如果統計還要受情感與道德的干擾那跟宗教搞的那套沒什麼差別，也就不具有統計特有的價值。現實問題舉的例子就蠻棒的，只有一次機會時這已不統計能解決的，通常我會挑個即使失敗也不會後悔的決定來處理這一次性狀態。人生道路上就是常常遇到這種問題，每個都只有一次性(或少數機會)，像大學選系、婚姻、事業、生小孩，對於重大一次性事件，我很少用統計，比較喜歡用不悔來做決策方針。尤其生小孩出來了就不能退件。
統計學存在不確定風險(樣本永遠無法取代母體)，但優點是只用少量的資源就能找到比感覺判斷還要公允的數據。但統計也分成兩派，一個是隨機對照實驗法，另一個是病例對照研究法(P.154)。兩個是不同的方法，而做出的實驗結果通常都是一致。我猜關鍵因子就是當樣本數大到一定程度後，這兩個方法做取出來的樣本都趨向母體所致。看來統計學的關鍵還是樣本數是否夠多，而不在於執著樣本是否完全的隨機性。
達爾文進化論，在人類進化上出現打臉現象，智商高的生出的小孩趨向平均值，這非常無法理解的事。身高是有合理性，因為身邊的設備通常以平均值來建立，過高的人並不存在優勢，過矮的人會被淘汰。雖然作者說會回歸平均值，我覺得其中還是怪怪的。過高或過矮的人根本沒機會結婚，也就不存在統計上的樣子機會。智力回歸平均我還是無法認，因為不合理，難道是因為附近人都很笨所以智力高的無用武之地，所以發展到一定程度後就停止了?那…如果這推論合理，生小孩要注意了，智力的高低與同學智商呈正比。炸~，覺得任何事深入想，可能都會出現恐怖的結論。孟母三遷真的是種智慧表現。
當進入迴歸分析時，我就明顯感受到我無法理解了。看來我目前的學習卡在這裡。迴歸分析會用到信賴區間、標準誤差(SE)、p值，這三個有一個熟就無法理解。看來要找比較專業的書來看，把這三個東西弄清楚才行。作者說只要懂得利用回歸分析你的統計就會大躍進(參P.187)。
迴歸分析一直讓我非常的注意，但現實中的博奕又似乎有其執行上的困境。就一直出現正面情況下，我已連續賺了很多錢，且超過平均年報酬率的兩倍，這時我該繼續押正面，還是押反面呢?就迴歸理論來看我要壓反面才對，因為已超出預期非常多了。就實務來看做對的事為什麼要改?啊啊~，煩惱。我內心深處倒有另一個想法，兩個都不對，從虛無(中立)的角度來看呢?!維持原本的計劃(紀律維持一致性)，不作調整!結果可能兩個論點都沒採用(迴歸理論和賭徒的謬誤)。如果就經驗來說，兩個決策都不會造成天堂與地獄的極端差異。真正會造成差異的是-下決定執行與舉棋不定。
本書原本來為很簡單，但到了後半部我看很吃力，最後變成瞄過去，算是已讀過吧。或許我最近身心狀況真的不適合讀書，我還是先來調整我的健康問題好了，這樣讀書像在看天書，進不了我大腦。

書籍資料：
書名：統計學，最強的商業武器：從買樂透到大數據，全都離不開統計學；不懂統計學，你就等著被騙吧！
原名：Statistics, literacy for the next generation
作者：西內啟
原文作者：西內啟
譯者：陳亦苓
出版社：悅知文化
出版日期：2014/04/17
閱讀價值：
ISBN：9789865740337
目錄：
第1章｜統計學是最強的武器，憑什麼？
01不懂統計學的人容易被騙
02 唯有統計學能最快導出最佳解
03 所有學問都以統計學為基礎
04 大數據時代來臨，讓統計學備受矚目

第2章｜能大幅降低資訊成本的抽樣調查
05 統計學家眼中的大數據狂想曲
06 準確度足以嚇死人的抽樣調查
07 應該為了1%的精確度而花費數千萬日圓嗎？

第3章｜誤差與因果關係是統計學的重點
08 拋棄傳統的統計方法吧
09 這世界到處充斥著，沒有考慮因果關係的統計分析
10 改變投遞DM的方式，就能多賺六十億
11 營業額是真的提高了？還是只是誤差？
12 到底該分析什麼樣的數據？
13「因果關係」是個大問題

第4章｜統計學的終極必殺技叫做「隨機對照實驗」
14 奶茶是先倒牛奶還是先倒紅茶
15 隨機對照實驗是商場競爭的神器
16「買兩台就打九折」的銷售策略，真能提高營業額？
17 隨機對照實驗的三項限制──現實、情感、道德

第5章｜好吧，無法做「隨機對照實驗」，又該怎麼辦？
18 流行病學的進步，證明了抽菸的風險
19 分析「回歸平凡」的回歸分析
20 統計學之父的另一項成就
21 讓統計學變得更易理解的一張表
22 多元回歸分析與邏輯回歸
23 統計學家的極致因果推論

第6章｜統計學之間的殘酷戰爭
24 社會調查法 vs 流行病學及生物統計學
25 創造「IQ」一詞的心理統計學
26 做為商業用途的資料採礦
27 用於分析語言的文字探勘
28 著重演繹的計量經濟學與著重歸納的統計學
29 貝葉斯派與頻率論派在機率觀念上的對立

第7章｜統計學，讓你得以站在巨人的肩膀上
30 用統計學找出「最佳解」
31 讓我們來尋找實證

品書隨記

2015年12月2日星期三

統計學，最強的商業武器

沒有留言:

張貼留言

2015年12月2日 星期三

統計學，最強的商業武器

沒有留言:

張貼留言

2015年12月2日星期三