2015年2月22日 星期日

聰明學統計的13又½堂課



前言:
無言...

隨記:
P.162 樣本平均數的頻率分配→原來95%信賴區間是指二個標準差…,大學所學全還給統計教授了…

P.168 統計無法百分之百確定任何事。相反的,統計推論的力量來自觀察到某一個模式或結果,然後運用機率來決定那結果最可能的原因。
P.170 統計推論最普遍的工具之一「假設檢定」。→我好像有用過這概念在做統計,假設一個邏輯概念,然後找資料作測試,看結果是符合預期還是否定。應該是這樣吧,對不起統計學教授我忘的差不多了…。話說大學都是原文書,我好像在練英文更勝學統計!@#$^&
P.243 做研究運用到迴歸分析時,最重要的一件事是:試著不要殺人。(不要拿你的研究殺人)。→我很常用統計,但也常提醒自己別過度優化,尤其是策略優化再優化,因股市走勢本身是隨機漫步,但你統計優化再優化後,變成一種可預測性。而這是種災難的開始,讓你從計量學變成神學,最後死在超精準操盤系統,如同2008年之前的VaR系統,在2008年金融風暴時變成超完美破產公式。這系統的概念就是用最少的錢做最大的投資。以大台為例,如果你系統99%最大週期虧損是10萬,那操作一口理論只要10萬+維持保證金6萬4千=16萬4千。這已是神技了,年報酬100%輕鬆不是夢。泰勞敢,我不敢…。
P.245 當你分析的變數間沒有線性關連時,請勿使用(迴歸分析)。
P.247 相關性並不等於因果關係。
P.289 統計軟體:①Microsoft Excel②Stata:是全世界專業研究人員使用的統計套裝軟體。③SAS:因為具備廣泛的分析能力,不只對專業研究員,對商業分析師和工程師也都很有吸引力。④R:是一個廣為使用的免費或「開放源碼」統計套裝軟體。⑤IBM SPSS。→開放源碼?這翻的真怪,有點程式背景的應該會說開放原始碼。看來這本書問題真的是翻譯專業度不足。

心得感想:
本書比較特別的是作者對統計的詮釋,統計數字是一種精準,但不一定正確的表述。以廣告詞實例來說,這裡離捷運站只要三分鐘路程,但實際上走人能走的路線,而非航空直線,可能要半小時,而且時速要60公里,這就是數字的精準,但不一定正確的案例。我遍半天找不到原文處。(註一)
對於本書能得亞馬遜讀者5顆星好評,我實在無法理解,就以P.216內容解說迴歸分析:讓我們可以在「控制其他因素」的情況下,將一個特殊變數與我們關注的結果之間的關係量化。換句話說,我們可以分離出一個變數作用。→這段話對我來說,有說跟沒說一樣,到底是作者這樣寫還是翻譯沒抓到意涵?

註一:
這次恍神的意外讓我發現單吃牛磺酸是無效的,因為我頭腦茫然了一早上。導致上午品書都不知在讀什麼。以前都是自泡茶加牛磺酸,但剛好當天圖書館沒提供熱水,所以沒泡茶喝,才因此發現這個問題。另外要提醒的是別搭配咖啡,會心悸。啊~我把「給你一對翅膀」的密祕說出來了,但我相信沒什麼人會想嘗試這未知,如同我家人我都說服不了這嘗試,他們反而覺得能大腦變清晰一定是毒品什麼的。凡人總是不願嘗試未知。



書籍資料:
書名:聰明學統計的13又½堂課:每個數據背後都有戲,搞懂才能做出正確判斷
Naked Statistics: Stripping the Dread from the Data
作者: 查爾斯.惠倫
出版社:先覺
出版日期:2013/11/28
閱讀價值:低,讀起來不順暢感很重。
ISBN:9789861342221
目錄:
第1章     為什麼要學統計?
第2章     誰是史上最佳球員?—描述性統計
第3章    「他的個性還不錯」及其他非謊言但嚴重誤導的敘述—誤導式統計
第4章    線上租片公司怎麼會知道我喜歡什麼電影?—相關性
第5章     不要為99美元的印表機加買延長保固—機率入門
第5又½章 門後會是一隻羊,還是你企盼的獎品?—蒙提霍爾問題
第6章     看看過度自信的數學怪咖如何差點摧毀全球金融系統—機率的問題
第7章    「垃圾進,垃圾出」—數據的重要性
第8章     統計學的詹姆斯大帝—中央極限定理
第9章     為什麼統計學教授懷疑我作弊?—推論
第10章    我們如何得知64%的美國人支持死刑(樣本誤差為正負3%)—民調
第11章    奇蹟仙丹—迴歸分析
第12章    強制警告標示—常見的迴歸錯誤
第13章    就讀哈佛會改變你的一生嗎?—方案評估

2 則留言:

Tropical 提到...

不確定是譯文本身還是翻譯的關係..就我對文中描述理解如下:

迴歸模型中有幾個要素條件設定(ex.自變數的值不為常數..etc),而「控制其他因素」,表示這些要素符合迴歸的條件設定(亦即我們掌握了應變數與自變數之間的系統性部份)

"將一個特殊變數與我們關注的結果之間的關係量化"
簡單講,就是將應變數和自變數量化,舉個比較容易理解的例子,比如就像是廠商衡量廣告支出(自變數)與銷售額(應變數)之間的關係,"關注的結果"指的是應變數,也就是銷售額

"換句話說,我們可以分離出一個變數作用"
意思是利用迴歸估計式,將我們所需的特定變數估算出來

羽澈 提到...

這好像是第一本找到回歸概念的書,所以我當時也不清楚,到後面幾本時才理解統計學上迴歸分析怎麼定義,應該如同你說的。估算一變數的變化情況。(其實得回去翻書才知正確的定義,但我覺得目前沒需要,原因後面會說)
比較有趣的是我到後來把迴歸概念改良成我的迴歸邏輯,以方便使用在操作上,迴歸變成觀察一硬幣(股市),一直擲出正面,在累積到一定量後會出現回歸50%現象。
其實我想說的是知識是死的,人是活的。別讓定義限制到你的思考空間。可能解說的有點模糊,那就換個簡說法吧~
你是對的。