速記AI課程-深度學習入門(三)

Practical AI

這場業界實務講師是由趨勢科技資料科學家張佳彥,張帶領PC-Cillin的XGen團隊( 人工智慧多層次防毒技術),自謙是Model Educator(蠻新穎的稱呼),分享業界實務上是怎麼應用AI,機器學習的專案該怎麼進行比較好。

XGen技術(加入機器學習)

進入正式分享前,張先提到所謂創新(Research)和創新的擴散(Engineering),創新是真正原創的概念,從0到1,像是類神經網路即屬此類;而創新的擴散是指前述創新的持續強化跟應用,是從1到100,如AlphaGo、自駕車是類神經網路的持續延伸。因此,AI是一個工具,且AI應該如員工一樣,在應用前必須被訓練。

Agenda WHY need model 2. What is model 3. Make good model 4. How to run ML project

接著介紹為什麼需要模型(Model)?原因很多講者提過的機器學習概念相同,張以防堵垃圾郵件這麼問題來看,傳統的方式是針對郵件內文出現特定關鍵字(如buy)時,判定為垃圾郵件。不過,郵件文字是人所撰寫,即使用幾百條規則來描述垃圾郵件用到的關鍵字,也無法周全,且後續難以維護(想像你是要接手的工程師…),因此需要(機器學習)Model自動學習如何判定垃圾郵件。

那麼Model到底是什麼?簡言之為資料(Data)、特徵(Feature)與演算法(Algorithm)的綜合體。Data是用來訓練Model的原料,但因為過於原始,跟全生牛排一樣,不好入口(給演算法用),因此需要做一些修整,這就是找出合適的Feature,來讓演算法可以做出正確的決定,而合適的Feature是需要領域專家協助的。舉例來說,現在出發地與目的地的經、緯度各四個欄位(Data),而我們想建立的模型是預測兩地是否可以走路到達,經過「走路可否到達專家」的專業知識判斷,只要「兩地間的距離」不超過三公里,就可以走路到達。那麼,與其把經緯度丟入模型去預測,不如先計算好「兩地間的距離」這新的Feature,再把這Feature丟入模型去預測,效果會更好。

問世間Model為何物…

我個人非常喜歡(也第一次聽到)張對於Model的擬人方式。他說Model就是亞斯伯格天才,它興趣專一且執著,具有特殊天賦,如同AlphaGo只會下圍棋,但下得十分嚇人。這樣的Model跟人才一樣,必須用對地方才能發揮所長,AlphaGo再強厲害,也不會開自駕車…(這樣李世乭有開心一點嗎)

而在決定要使用哪種模型時,還是要先回到想要解決什麼問題。問題有所謂簡單(變數少)或複雜(變數多),有偏較容易解釋(Explanation)跟較精準(Accuracy)的,也有較固定(Invariant,像是手寫辨識數字)跟較不固定(Variant,如病毒預測)的,除了適合所需要解決的問題外,實務上最重要的還是要考慮成本函數(Cost Function)。這邊所提到的Cost Function並非告訴我們模型好或不好的評量標準(MSE),而是設計哪一種誤判會對企業造成多少的損失。 以預測病毒來說,一個假警報(不是病毒但卻誤判為病毒)和漏掉一個勒索病毒或廣告軟體,對公司造成的成本(或損失)都是不同的,如果可以有效的設計Cost function,即使Model不變,對於企業來說價值也會有明顯的提升,不過如何設計Cost Function是各領域的專業知識,因此也很少人討論。(感謝張的補充~)

而測試模型時,盡量採用各種多方面的不同資料,方能測出Model是否在訓練過程中學得夠好。某些Model可能在某個地方(如特定時間之銷售預測)表現得非常好,但其他地方非常差,與其補強其差的地方,不如強化它的天賦。(聽到現在越覺得機器學習好多道理跟人類學習幾乎一樣呀)

張舉了個實際上的例子。近期流行的跨國商業電郵詐騙(Business email compromise,簡稱BEC),趨勢科技利用ML來判定寄件者之書寫風格是否與平常不同。這個Model在信件內文字數過少時,準確度並不高,而經分析發現BEC信件多半介於40至70字,於是重新針對鎖定範圍訓練後,準確率即大幅提高。

而要訓練出一個好的Model,Data非常重要,它可以把Model變得更好,就像天資並非絕頂之同學做了很多參考書之感,勤能補拙(後天)。畢竟,天才沒幾個,與其祈禱找到很棒的Feature跟極佳的Algorithm(天賦),不如腳踏實地想辦法蒐集資料吧!(再度跟人類學習一樣!)

常有人說「Data is King」,藉此說明重要的資料性,而張說「Data is Queen」,因為「Label才是King」,沒有Label的資料是無法訓練的,也無法知道Model的表現。

最後,實務上應該要如何執行ML 專案?首先是知道要解決什麼問題以及準備手邊的資料,再來,快速的套用已知的演算法,確認符合業務需求後,再開始進行優化跟調整。畢竟,套用張的最後一句重點:「Accuracy doesn’t matter. Only business value does.」

感同身受…

商管 * 科技 | 顧問 + 稽核 | AI X Fraud | baubimedi@gmail.com

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store