2015年12月2日 星期三

統計學,最強的商業武器



前言:
讀這本書的狀態是沒咖啡沒吃營養補充品,來測試大腦是否能維持在可思考的層級。

隨記:
P.34 所有學問都必須用到統計學的時代已經來臨。→目前電腦時代來臨,統計學以前最麻煩的就是計算,現在只要輸入資料,電腦強大的運算力把統計學發揮到一種壓倒性的優勢。純計算是電腦絕對強項,而當今就是看誰會用電腦來取代人腦運算力。這如同工業革命一樣,機械力取代勞動力。誰會用誰就有優勢。
P.65 標準誤差到底是什麼呢?就是真正比例位於從抽樣算得的比例(例如失業率),減去二倍標準誤差到加上二倍標準誤差的範圍之間,其可信度約為95%的值。例如,若抽樣調查所算出來的失業率為25%,其標準誤差為0.5%的話,那麼,普查所得的真正失業率幾乎可肯定會落在24%~26%之間,而這是統計學家早在80幾年以前就已證明的。→落在24%~26%之間有95%的機率,看來之前我的理解是沒什麼問題的。
P.67 圖表8 不同樣本數所造成的標準誤差變化→這圖妙,說明隨機抽樣的價值。也從圖中看出來,普查是蠻蠢的行為,為那精準度不到2%的幅度而浪費近乎無限的資源。
P.68 先從要做出正確判斷所需之最小資料量開始→想想自己在作計量系統,我只用了約2百筆資料作統計分析,而且還是不精準的資料(一根k棒可能在這時間內來回多次),嗯,僥倖…。
P.79 這世界到處充斥著,沒有考慮因果關係的統計分析→點到我的盲點了。計量操作一直被這問題困擾著,回測資料中太多大事件的影響而沒有分析出因果關係,導致系統波動性極大。我也一直在想怎麼處理這問題,有些情況下用預測方法是比較好處理的,像經驗來說有些日子就是會休息,例如7、8、9這三個月常常出現裝死。主力跑去度假所衍生的結果。但最近也開始失效了,世界一直在變。
P.84 只要具備統計的因果推論知識,亦即能以「充足的資料」進行「適當的比較」。→作者舉的例子很有趣,殺人犯95%都吃米,所以米是高危險食物。說明了在分析資料時需要有該行業專業背景(或經驗),不然統計並不存在意義。
P.92 現代統計學之父羅納德.費雪等人的時代和過去的統計學之間最大的差異,便是在於誤差的處理。
P.97 是否為「合理的偏差」,或者說算有誤差仍會產生這種程度的差距,這就稱為「卡方檢定」。→沒看懂。
P.98 這種「實際上沒有差異,卻因誤差或偶發而產生資料差距(嚴格來說,更極端的差距也包在含在內)的機率)為p值。
P.115 隨機對照實驗到底有多大能耐,最主要原因就在於「對於人類可控制的任何東西,它都能分析其因果關係」。→作者舉奶茶要先倒牛奶還是茶那個好喝,這是由羅納德.費雪發現的實驗方式。這方法我要研究一下了,我完全沒概念。這概念很特別,不用對照組,只是把樣本作隨機排序,然後作實驗。如果有差別,就會反應在答對率上,本題如果10杯都答對,就是2的10次方=1/1024(約0.1)的機率,這麼簡單就把因果性調查出來了。
P.132 只要隨機化,就能讓參與比較的兩個群組之各項條件,達到近乎一致的狀態。於是乎,最後剩下的不一致條件,便只有該實驗要控制的肥料而已,若在此狀態下,兩個群組的收穫量產生了「不太可能是誤差的差距」,便幾乎可以證實「因肥料而造成收穫量有差異」的因果關係。→費雪真的太強了,一般人只覺得太多變動因子會造成結果的影響而打退堂鼓,但費雪反而利用變動因子之間的隨機性,來相消變動因子的變數,最後只得到想作實驗的部份。就像隨機找100人,分兩組,一組喝咖啡另一組不喝咖啡,然後作數學運算測試。如果咖啡能提高智力,那喝咖啡的那組成績會出現偏高,且超出可能誤差的值。這就能證明咖啡具有提高智力的功效。(大約是這概念,隨機對照可證明因果性)
P.134 隨機對照實驗能以較低的成本與風險來排除犯錯的可能性。不知各位能否理解,倒過來想就等於是說,由於成本與風險較低,所以「反而可以犯錯」。→我喜歡這種概念,在比對手低的成本下,可作更多次的嘗試。
P.137 在沒有統計數據支撐的情況下就判定某事絕對錯誤,也同樣是笨到底的行為。→公司開會就知道,大家都麻比口才,統計還來不及算出來,討論議題早飛去天馬行空了,有夢最美。
P.139 只要下定決心將之隨機化並持續收集資料,之後就能夠有所依據地判斷出「哪個作法較好」、「能帶來多大利益」等結論,且至少是能夠更接近「正確的」決定。→這句有個很關鍵的地方,持續收集資料。股市一直都在變,沒有固定方法,只有不斷改進。
P.139 隨機其實不容易。所謂的隨機,有時也被解釋為「隨便」 或「隨意」等,但其實意義不盡相同。隨機帶有「無意識」的意思,簡言之,就是不要加入特定意圖,或者亦可設是「具不確定性的」。→的確,要營造隨機抽樣真的不容易。
P.140 只要在Excel 裡輸入「=rand()」,就能輕鬆獲得隨機數值。→這功能不錯,先記起來,覺得之後會很有用,尤其在抽樣上使用。
P.143 在面對「只有唯一一次」,或者只能有少數幾次機會的事情,別說是隨機化了,連統計學都派不上用場。→如果我進睹場,我會第一次就all in,不管輸贏都要離開賭場。這時比的是運氣,莊家的長期60%勝率對1萬回合有意義,但對我並不存在意義,因為只玩1次。
P.174 對於具變動性之現象,理論性的預測並沒有那麼準確→這是在說球員在單一場次表現並不符合理論值,因受情緒、健康等狀態的變動所干擾。魔球之所以準是他們追求的是長期且所有隊員的綜合效果,而不在乎單一場次、單一球員的的表現。
P.175 但千萬別只滿足於透過回歸分析而得出之「最有可能的預測公鄉」,雖然該預測公式是以最小化資料誤差的方式所求得,但存在著誤差這點依舊不變。忽視誤差的分析都是不切實際的。→誤差,永遠是統計學的痛處。
P.195 所謂的回歸直線就是「通過資料中心的線」。
P.199 多元回歸分析,可說是針對有多個「解釋變數」(亦即會影響預測之結果的因素)的情況擴充而成的回歸分析。
P.287 一般而言,科學上的推論形式可大致分為歸納和演繹兩種。
P.287 簡單來說,歸納就是收集眾多個案然後推導出通用規則的作法,演繹則是以某個事實或假設為基礎,再透過邏輯推理來得出結論的方式。

心得感想:
在第17章說隨機的三項限制-現實、情感、道德,我覺得只有第一項比較有影響性,如果統計還要受情感與道德的干擾那跟宗教搞的那套沒什麼差別,也就不具有統計特有的價值。現實問題舉的例子就蠻棒的,只有一次機會時這已不統計能解決的,通常我會挑個即使失敗也不會後悔的決定來處理這一次性狀態。人生道路上就是常常遇到這種問題,每個都只有一次性(或少數機會),像大學選系、婚姻、事業、生小孩,對於重大一次性事件,我很少用統計,比較喜歡用不悔來做決策方針。尤其生小孩出來了就不能退件。
統計學存在不確定風險(樣本永遠無法取代母體),但優點是只用少量的資源就能找到比感覺判斷還要公允的數據。但統計也分成兩派,一個是隨機對照實驗法,另一個是病例對照研究法(P.154)。兩個是不同的方法,而做出的實驗結果通常都是一致。我猜關鍵因子就是當樣本數大到一定程度後,這兩個方法做取出來的樣本都趨向母體所致。看來統計學的關鍵還是樣本數是否夠多,而不在於執著樣本是否完全的隨機性。
達爾文進化論,在人類進化上出現打臉現象,智商高的生出的小孩趨向平均值,這非常無法理解的事。身高是有合理性,因為身邊的設備通常以平均值來建立,過高的人並不存在優勢,過矮的人會被淘汰。雖然作者說會回歸平均值,我覺得其中還是怪怪的。過高或過矮的人根本沒機會結婚,也就不存在統計上的樣子機會。智力回歸平均我還是無法認,因為不合理,難道是因為附近人都很笨所以智力高的無用武之地,所以發展到一定程度後就停止了?那…如果這推論合理,生小孩要注意了,智力的高低與同學智商呈正比。炸~,覺得任何事深入想,可能都會出現恐怖的結論。孟母三遷真的是種智慧表現。
當進入迴歸分析時,我就明顯感受到我無法理解了。看來我目前的學習卡在這裡。迴歸分析會用到信賴區間、標準誤差(SE)、p值,這三個有一個熟就無法理解。看來要找比較專業的書來看,把這三個東西弄清楚才行。作者說只要懂得利用回歸分析你的統計就會大躍進(參P.187)。
迴歸分析一直讓我非常的注意,但現實中的博奕又似乎有其執行上的困境。就一直出現正面情況下,我已連續賺了很多錢,且超過平均年報酬率的兩倍,這時我該繼續押正面,還是押反面呢?就迴歸理論來看我要壓反面才對,因為已超出預期非常多了。就實務來看做對的事為什麼要改?啊啊~,煩惱。我內心深處倒有另一個想法,兩個都不對,從虛無(中立)的角度來看呢?!維持原本的計劃(紀律維持一致性),不作調整!結果可能兩個論點都沒採用(迴歸理論和賭徒的謬誤)。如果就經驗來說,兩個決策都不會造成天堂與地獄的極端差異。真正會造成差異的是-下決定執行與舉棋不定。
本書原本來為很簡單,但到了後半部我看很吃力,最後變成瞄過去,算是已讀過吧。或許我最近身心狀況真的不適合讀書,我還是先來調整我的健康問題好了,這樣讀書像在看天書,進不了我大腦。




書籍資料:
書名:統計學,最強的商業武器:從買樂透到大數據,全都離不開統計學;不懂統計學,你就等著被騙吧!
原名:Statistics, literacy for the next generation
作者:西內啟
原文作者:西內啟
譯者:陳亦苓
出版社:悅知文化
出版日期:2014/04/17
閱讀價值:
ISBN:9789865740337
目錄:
第1章|統計學是最強的武器,憑什麼?
01不懂統計學的人容易被騙
02 唯有統計學能最快導出最佳解
03 所有學問都以統計學為基礎
04 大數據時代來臨,讓統計學備受矚目

第2章|能大幅降低資訊成本的抽樣調查
05 統計學家眼中的大數據狂想曲
06 準確度足以嚇死人的抽樣調查
07 應該為了1%的精確度而花費數千萬日圓嗎?

第3章|誤差與因果關係是統計學的重點
08 拋棄傳統的統計方法吧
09 這世界到處充斥著,沒有考慮因果關係的統計分析
10 改變投遞DM的方式,就能多賺六十億
11 營業額是真的提高了?還是只是誤差?
12 到底該分析什麼樣的數據?
13「因果關係」是個大問題

第4章|統計學的終極必殺技叫做「隨機對照實驗」
14 奶茶是先倒牛奶還是先倒紅茶
15 隨機對照實驗是商場競爭的神器
16「買兩台就打九折」的銷售策略,真能提高營業額?
17 隨機對照實驗的三項限制──現實、情感、道德

第5章|好吧,無法做「隨機對照實驗」,又該怎麼辦?
18 流行病學的進步,證明了抽菸的風險
19 分析「回歸平凡」的回歸分析
20 統計學之父的另一項成就
21 讓統計學變得更易理解的一張表
22 多元回歸分析與邏輯回歸
23 統計學家的極致因果推論

第6章|統計學之間的殘酷戰爭
24 社會調查法 vs 流行病學及生物統計學
25 創造「IQ」一詞的心理統計學
26 做為商業用途的資料採礦
27 用於分析語言的文字探勘
28 著重演繹的計量經濟學與著重歸納的統計學
29 貝葉斯派與頻率論派在機率觀念上的對立

第7章|統計學,讓你得以站在巨人的肩膀上
30 用統計學找出「最佳解」
31 讓我們來尋找實證

沒有留言: