2015年12月21日 星期一

3小時讀通統計



前言:
這本很久前買的,但最近想讀的書已清光,庫存見底。盤中無聊在床上滾動也睡不著,就在這空窗期把這本讀完作個了結吧。

隨記:
P.50 離差的絕對值平均,我們稱為「平均絕對離差」。雖然這樣好像解決了問題,但還是有它不方便之處。其實絕對值在數學上意外地難以應用(比如說它不能作微分等等),因此平均絕對離差實際上幾乎不會用到。那麼真正常用的是什麼數值呢?那就是離差平方的平均數,我們稱之為「變異數」→我真的對這「變異數」非常反感,反感到總是記不住是什麼。只要一再筆記了…
P.166 檢定首先要做的,就是建立我們希望確立的主張,以及與此相反的假設。這樣的假設由於有「預計會回歸到虛無」的意義,因此也稱為「虛無假設(null hypothesis)。這樣的稱乎比較容易建立直覺印象。但這並不代表每次假設都會「回歸到虛無」,因此對於「虛無假設」的名稱要留意。接下來我們要根據實際發生的現象來驗證它。我們將假設當作正確的,來計算實際發生的現象的機率。如果這個機率非常小的話,就表示發生了一些在假設中不該發生的事。因此我們不得不判斷一開始的假設是錯誤的。這時我們可以說假設「被拒絕」,也就回歸到虛無了。

P.168 檢定結果會根據「顯著水準」而改變。→顯著水準似乎現在的共識就是5%作分界點。當測試結果出現的是低於5%才會出現的結果,就符合一般認定的顯著水準,例:連續擲出5次的正面,這機率只有3%,符合顯著水準。這硬幣造假的機會非常大,大到很明顯的程度。而這句話最引我注意的就是「改變」,代表人為判定可以改變統計結果。大概統計之所以能騙人,就是存在人為可控因子。同個硬幣問題有人覺得3%機率也是合理說的過去,所以硬幣沒有造假,合理呀。同一件事有不同的解釋。如果只信統計「結果」報告,常常就容易被誤導。魔鬼總是藏在細節中…

心得感想:
這本書原本以為要花三小時,結果只花了不到三十分鐘。這應該當作統計第一本書,但我放太久了,這其間讀了很多統計學的書《統計學,最強的商業武器》,深度早已超過本書了。另一個比較特別的感覺是,同一門學科,一開始都感到很陌生,但同一類的書讀了三本性質很近的書後,會發現原來就這麼簡單。因為通透了。看來只要再找一本比較專業的統計書來看,我應該就有足夠的統計技能來設計明年度的操作系統了。目前的盲點就是p值檢定,然後進入我最想要的統計技能,回歸分析。



書籍資料:
書名:3小時讀通統計【漫畫版】
作者:今野紀雄
原文作者:Norio Konno
譯者:謝仲其
出版社:世茂
出版日期:2010/10/28
閱讀價值:中
目錄:
第1章 統計究竟是什麼?
1-1 「平均起來的日本人」究竟是怎麼樣的日本人?
1-2 發生事故後《神奇寶貝》的收視率真的有下滑嗎?
1-3 「統計」是建立在「機率」的基礎上
1-4 「相關」是表示一組以上資料之間的因果關係
1-5 大家在日常生活中都很自然會應用到「統計」的概念!
章末練習題1
Column 01 選舉前的民調會影響投票結果嗎?

第2章 資料的特徵
2-1 被問到「一個星期喝幾次酒?」時會不會覺得很困擾?
2-2 月薪平均雖然一樣……但好像哪裡怪怪的?
2-3 平均數相同也不一定表示資料內容相同
2-4 用「直方圖」讓資料更一目瞭然!
2-5 組距對資料來說是否恰當是重點!
2-6 從直方圖形狀判斷是否適合用「平均數」代表資料
2-7 來認識平均數以外的各種代表值
2-8 正中央很重要!什麼是中位數(median)?
2-9 求出正中央所在!中位數(median)的計算法
2-10 找出最多的數值!什麼是眾數(mode)?
2-11 什麼是表示資料分散程度的「全距」(range)?
2-12 如何衡量資料的分散程度?不能將離差平均起來
2-13 要表示資料的分散程度,用離差的平方「變異數」最方便!
2-14 運用變異數計算資料分散程度的方法
章末練習題2
Column 02 人類預測錯誤的奇妙之處

第3章 機率的基礎
3-1 了解「樣本點」、「樣本空間」與「事件」
3-2 事件有許多種!「和事件」、「積事件」、「餘事件」
3-3 清楚定義!機率究竟是什麼玩意?
3-4 「事件機率」更廣義來說是什麼?
3-5 從「丟硬幣的機率」來對機率作簡單的計算
3-6 賭單雙的「雙數機率」與「單數機率」是多少?
3-7 什麼是絕不同時發生的「互斥事件」?
3-8  互斥事件的「事件」相互關係是?
3-9 「餘事件(不屬於 ~ 的事件)」的發生機率有多少?
3-10 「條件機率」是什麼?
3-11 來了解方便的「乘法定理」!
3-12 不受其他事件影響的「獨立事件」
章末練習題3
Column 03 計算十分麻煩的背包問題

第4章 隨機變數
4-1 「隨機變數」的值是由偶然的結果所決定
4-2 利用機率的性質來做個簡單的機率計算
4-3 隨機變數對應到其機率則為「機率分配」
4-4 機率的總合為「1」
4-5 計算隨機變數X的平均數
4-6 機率不均等也可以求出平均數E(X)
4-7 「標準差」就是變異數的正平方根
4-8 最常出現的數值是「從平均數到標準差之間」的值
章末練習題4
Column 04 大學排行的利弊

第5章 分配
5-1 考慮順序時的「情況個數」
5-2 不考慮順序時的「情況個數」
5-3 為二項分配做準備,先來求丟骰子的機率
5-4 從丟骰子的機率分配來看二項分配
5-5 當丟的次數增多時,二項分配的形狀也會改變!
5-6 身高、降雨量、作業誤差……在各種資料都可以看到常態分配
5-7 徹底掌握常態分配的性質!
5-8 常態分配中絕大多數事件都會落在「3sigma範圍」中
5-9 將常態分配標準化的「標準常態分配」是什麼?
5-10 看圖了解標準常態分配的性質
5-11 運用標準常態分配來計算機率吧!
章末練習題5
Column 05 利用分配的性質作反運算

第6章 估計
6-1 根據部分來估計全體
6-2 用估計的概念選取適當的樣本數
6-3 電視的收視率是怎麼調查的?
6-4 運用統計概念來估計收視率
6-5 估計成一個點的「點估計」
6-6 求取估計範圍的「區間估計」 ~ 之1
6-7 求取估計範圍的「區間估計」 ~ 之2
6-8 信賴水準的高低與信賴區間的關係是什麼?
6-9 《神奇寶貝》的收視率變化有意義嗎?
6-10 信賴水準提高時,信賴區間也會增廣
6-11 要如何估計鈴木一朗選手將來的打擊率?
章末練習題6
Column 06 打擊率的差距很難即時感受到

第7章 檢定
7-1 連續丟出5次正面的硬幣,能夠判它造假嗎?
7-2 要如何檢定「硬幣無造假」這個假設?
7-3 了解檢定的獨特思考流程很重要!
7-4 檢定結果會根據「顯著水準」而改變
7-5 「5次中出現4次正面」的話,能夠判它造假嗎?
7-6 「5次中出現4次正面」也不能斷言造假的情況
7-7 顯著水準5%的話「10次中出現9次正面」就可判它造假!
章末練習題7
Column 07 葡萄酒的品質可以用方程式來計算!?

第8章 相關
8-1 探討某種資料與另一種資料的關係
8-2 資料之間的關係用「散布圖」圖表化
8-3 相關是「強的」、「弱的」還是「無關」?
8-4 用數值表示資料間相關程度的「相關係數」
8-5 了解表示「相關係數」的式子
8-6 相關係數的計算方法 ~ 之1
8-7 相關係數的計算方法 ~ 之2
8-8 相關係數的計算方法 ~ 之3
8-9 關係的整理 ~ 相關係數的總結 ~
Column 08 隨機圖也會用得到的二項分配

沒有留言: