- 利用敘述性指標與圖表來觀察:
- 資料的正確性
- 資料的脈絡
- 可能的因果關係
- 可能的進階分析方向
- 進階分析技術的假設是否正確
- 可能的分析工具
- 未來的數據收集方向




| 鄉鎮市區 | 村里 | 納稅單位 | 綜合所得總額 | 平均數 | 中位數 | 第一分位數 | 第三分位數 | 標準差 | 變異係數 |
|---|---|---|---|---|---|---|---|---|---|
| 文山區 | 興光里 | 1142 | 1314969 | 1151 | 729 | 409 | 1400 | 1461.17 | 126.9 |
單位:金額(千元)

| 鄉鎮市區 | 村里 | 納稅單位 | 綜合所得總額 | 平均數 | 中位數 | 第一分位數 | 第三分位數 | 標準差 | 變異係數 |
|---|---|---|---|---|---|---|---|---|---|
| 文山區 | 興光里 | 1142 | 1314969 | 1151 | 729 | 409 | 1400 | 1461.17 | 126.9 |
單位:金額(千元)







swirl::install_course_github("wush978", "StatMLDM", "course")

這個假設不會因為看見一隻黑色的烏鴉而獲得證明,
不管看到多少隻黑色的烏鴉,都無法證明這個假設。


引進機率的概念,以「絕大部份」取代「所有」。
假設黑烏鴉跟其他顏色的烏鴉比例是 99 : 1,
你已經觀察到1000隻黑色烏鴉了, 在99:1的假設下,連續看到1000隻黑色烏鴉的機率是\(0.99^{1000} < 0.0001\),這個機率稱 p值。
https://goo.gl/yMe9jO
5%5%result <-
sapply(1:1000, function(i) {
x <- rnorm(100)
y <- rnorm(100)
t.test(x, y)$p.value < 0.05
})
table(result)
result
FALSE TRUE
962 38
result <-
sapply(1:1000, function(i) {
x <- rnorm(100)
y <- rnorm(100)
for(j in 20:100) {
if (t.test(head(x, j), head(y, j))$p.value < 0.05) return(TRUE)
}
FALSE
})
table(result)
result
FALSE TRUE
736 264
5%是常用的門檻,但是合理嗎?
