速記AI課程-機器學習與演算法概論(三)

從公共議題談資料科學專案的執行挑戰

資料分析的力量!

另一位理論實務兼具的專家是智庫驅動的知識長謝宗震博士。智庫驅動自詡是社會企業,主要希望媒合政府、非營利組織與資料志工,透過資料分析的技術來改變社會,讓社會變得更好。

謝以台北市家暴問題為例,分享他們是如何利用資料分析技術,來協助社工與受暴者。首先,為了知道家暴產生的原因與環境,他們做了一些研究,找到三大家暴風險因子:個人(如年齡、精神疾病、經濟壓力等)、關係(如婚姻狀態、威脅、跟蹤等)與社區(如集中弱勢、文化規範等)。以上即為所謂的領域專家知識。接著,他們把問題定義為:如何預測家暴回頭客(家暴再犯者)。所謂回頭客定義是一年內三次以上者。

有了這些專家知識與分析目標,接下來就是開始檢視有什麼資料可供分析。他們發現實際的家暴通報資料中,社區類型的資料十分稀少,僅有家暴事件發生地址可以參考,因此社區資料是未來可以改善的方向。

因已將分析問題定義為「預測某個案是否會再次受暴」,故即為所謂分類問題(Classification)。把一年三次以上受暴者定義為1,以下者定義為0,利用隨機森林(Random Forest,一種分類演算法)建立了「再次受暴預測模型」,為社工預警個案受暴可能性,調整資源投入的優先序,效果還算不錯。

導入初期,社工認為每個個案都是獨一無二,怎麼可以將每個個案都視為同樣的「資料」,這樣分析不可能有任何幫助。直到他們找到了家暴回頭客這個應用,因為對於受暴者來說這是個嚴重的問題,社工資源有限需要準確投入到對的地方,更重要的是主管有亮點(還記得某陣子政府單位的新聞稿一定都要扯到大數據),社工們才開始相信資料分析的力量。

除了前面所提到的,還有其他資料專案可能面臨的挑戰。像是資料的品質,謝舉了火災件數的例子。相較中國、日本與韓國,台灣火災的數量少得不可思議。原因並不是台灣防災較強,而是因某次雜誌的市長排名指標,其中之一是火災數量,因此從那時開始,全台灣火災數開始顯著下降。(KPI的力量?)而政府單位跨部門資料的整合也是一大考驗,謝舉了高雄市建照資料與稅捐資料的合併,許多地址根本對不起來…

另外還有資料極限的問題。如果統計柏克萊大學所有科系的錄取率,男性錄取率會高於女性(女性主義者會說歧視!)。但若分科系來看,其實某些科系女性超級吃香,錄取率超過八成,可惜因人數偏低,故整體來看好像男性錄取率高於女性,這就是著名的辛普森悖論(Simpson’s paradox)。

協助川普勝選的公司劍橋分析( Cambridge Analytica),把人的性格分為五大面向,開放度、嚴謹度、外向度、親合度與敏感度,針對不同組合的選民,投放不同政見。

「cambridge analytica trump」的圖片搜尋結果
劍橋分析的人格模型

還有所謂模型建置挑戰,即所謂非平衡資料,如親密關係暴力中,一年三次以上者畢竟屬於少數,因此再進行分析前須進行前處理,把少的資料變多或多的資料變少(統計那門課有教!)。最後是怎麼樣評價模型好不好,指標必須看分析的目的。以再次預測受暴模型來看,現階段社工可以忍受假警報(非再次受暴但被預測為受暴),但不能忍受真的被再次受暴,但分析模型沒有發現。不過,一旦人力資源不足時,假警報的比例又會變成重要的議題。

我個人十分欣賞謝的雄心壯志,把資料分析應用到如何讓社會可以更好,真的很酷!

商管 * 科技 | 顧問 + 稽核 | AI X Fraud | baubimedi@gmail.com

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store