速記AI課程-統計與資料分析(一)

敘述性統計與機率分布

電力燃氣薪資也太好…

今天是由北大統計吳漢銘教授(很年輕很潮之感)授課,頗幽默風趣,而且還考量大家對於統計的熟悉程度,把課程內容濃縮再濃縮,簡化再簡化,真的辛苦了。雖然偶爾還是會堅持要講重要公式推導,但都會即時拉回並自嘲 「再講下去會進入迷航空間」(雖然我覺得是彌留)。授課資料幾乎都上網公開,還包含完整R程式碼,完全不怕被偷學,強者風範。

一開始先介紹為什麼推薦R,原因是R的強項在資料分析(Python是資料處理),目前已有約1萬多種套件,TIOBE排名也大幅躍升。一般進行R開發專案,還會另外搭配IDE RStudio。吳提到其實工具不是優先考量的重點,因為不管事學術或產業,很少只用一個工具。(這點完全贊同)

而統計是什麼這個大哉問,吳也給了很簡潔有力的回答:摘要(敘述性統計)與推論(推論統計)。摘要是指在描述一群資料時,為了避免全部資料都列出,故採用幾個重要的特徵值來描述,如平均數、中位數等;而推論則是試圖利用樣本的特徵值,來推論母體之狀況,如各種民調。

Data Science Venn Diagram

我個人很喜歡以上這張圖,表示資料科學是綜合專業領域知識(紫色)、數學統計理論(綠色)與資訊分析技術能力(紅色)。實務上,很多專家都有豐富的領域知識,但若沒有了解數統背後理論,知其然而不知其所以然,直接拿工具或數據來硬做(Taiwan Style),就會落入所謂的Danger Zone內。另外,統計大師趙民德博士認為,現在不同學科領域的界線開始慢慢模糊,統計並不會消逝,只是也許以後會以其他方式或學科繼續存在。

要進行統計之前,須先了解資料有哪些型態( levels of measurement)。主要分為類別型(如性別、國籍)、順序型(如滿意度,距離沒有意義)、區間(如溫度,距離有意義)及比例(又稱為連續型,一般最常見)。

而對於資料的描述,可以透過資料的集中(資料中心趨勢)與分散(資料分散程度)兩大方向來表達。中心趨勢常見的有平均、眾數與中位數,分散程度則有四分位數、全距、百分位數、標準差、變異數等。

除了上述兩大方向外,還可以描述變數之間的關係。比如說,我們想知道是不是天氣越冷(溫度),火鍋店生意會越好(營業額),則可以用相關係數來表示。其中最簡單的一種,是皮爾遜積矩相關係數( Pearson product-moment correlation coefficient,通常簡寫為r)。名字雖然複雜,但其實也就是大家最常用的相關係數,簡言之是看兩個變數(XY)相乘的結果,若X與Y一起變大,相乘起來就會大,代表其有線性關係。(實際公式會更複雜)

除了r以外,還有其他版本的相關係數,用以應付不同的資料相關狀況。如斯皮爾曼等級相關係數(Spearman’s rank correlation coefficient),它不看變數與平均之距離,而是看排名(Rank),基本上公式與r相同。另外,肯德爾係數( Kendall’s tau coefficient)則是看C與D之差距,C表示一致性配對(Concordant pair)之數量,代表有多少組兩兩觀察值是遞增,D表示不一致性(Discordant pair)之數量,表示有多少組兩兩觀察值是遞減。下圖範例說明什麼是C什麼是D。(因為看公式真的很不好懂…)

範例:十二位評審對兩個面試者給的評等

由下圖可以看出,r有其侷限性,僅在線性相關比較準確,對特殊(性)關係會失效,因此需要其他版本之相關係數協助。

可以看出其他版本的相關係數更能應付各種資料狀況(From 吳漢銘

針對類別資料,一樣有統計量可以描述其相關性,不過時間緊湊就跳過了。(或是怕再講下去同學會靈魂出竅…)

接著介紹高維度資料。所謂高維度資料,即為樣本量(n)遠小於變數(p)之資料,如進行問卷調查,只問1個人100個問題,其n為1,p為100;又如處理10張相片,每張100像素(10x10,每個像素都是一個變數),會產生10x100的矩陣。這種高維度資料,其共變異數估計容易有問題,因此需要透過Shrinkage方式來調整,才會比較正確。(這段有點複雜…)

再來是統計名詞定義,隨機實驗(萬年不變的丟銅板跟骰子)、結果(正面或反面)、樣本空間(所有可能結果,正或反)、事件、試驗(單次實驗)。(依稀有印象,都還給老師了)

最重要(我個人覺得)是隨機變數(通常用X表示)。它是一個函數,可以把樣本空間內的事件投射為實數(火星語)。以丟銅板為例,我們可以用X(H)=1、X(T)=0來表示硬幣投出正面為1,反面為0的事件。這樣的好處是,可以用P(X(H)=1)表示投出正面的機率。(這樣比較帥)

而P(X=x)在連續型資料中又稱為機率密度函數( Probability density function,簡稱PDF),在離散型資料中又稱為機率質量函數(Probability Mass Function,簡稱PMF)。P(X<= x)則稱為累積分布函數(Cumulative Distribution Function,簡稱CDF),分位數(簡稱q)則是分布的反推,給定機率,找出對應之x。

提到機率函數與分布的目的,是希望從樣本的機率分布,來推測觀察現象的本質(重要參數)。最有名/常見/常用的是常態分布(Normal),另外還有二項式(Binomial)、對數常態(Log Normal)、卡方(Chi-squared)、F等。

今天看到N次的常態分配

最後介紹兩大重點原理。一是大數法則(The Law of Large Numbers),簡言之,在進行多次重複的隨機實驗下,當樣本數量越多,則其平均就越趨近期望值(母體之平均)。 比如說,我們擲了一萬次硬幣(吃飽太閒),正面出現了5001次同時反面出現了4999次,非常接近母體之二分之一。黃文璋教授說得好,大數法則讓我們可以在不確定性中,仍能掌握一些確定性;混亂中,仍有其秩序。

二是號稱統計界最重要概念之一的中央極限定理(Central Limit Theorem,簡稱CLT)。簡言之, 不論母體是否為常態分配,只要抽樣的樣本數夠大(傳統建議30),則樣本平均數之分配(不是樣本的分配)會趨近於常態分配。上面這句火星話,只要搭配下圖,就可以比較理解了。

看過最清楚的CLT解釋(From WENDELL.HUANG

「隨機性、大數法則與中央極限定理」一文中,WENDELL.HUANG講得很清楚,樣本的次數分布,無論樣本大小,還是會反映出母體的分布,跟常態無關。但是當計算「線性組合統計量」時(如平均),每一個平均數就成為新的樣本點,而被抽出的機會隨著樣本數越大漸趨近常態機率。

商管 * 科技 | 顧問 + 稽核 | AI X Fraud | baubimedi@gmail.com

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store