編輯台引言:
不斷精進新的演算法,並減少誤差,是AI科技領域的重要課題,許多國家更在AI科技企圖成為領頭羊。在此,日本理研中心提出的新方法,避免難取得的負數據,但AI演算仍能保有高正確率,新的二元分類法在產業製造、供應鏈管理或銷售上可以如何被應用?讓我們來看看研究成果與專家怎麼說!

正信度?日本提出的新演算法

日本理研中心的領先智慧計畫(RIKEN Center for Advanced Intelligence Project, AIP)開發了一種新方法,能讓機器學習只從正數據(positive data),而不仰賴任何負數據(negative data)或未標註的資料來學習二元分類。以往的二元分類演算法必須建立出正/負數據的決策邊界。這樣的問題是,它需要得到兩方的大量數據,且大多時候的負數據都少於正的很多,因而不容易辨識。此研究顯示,只要電腦有高度信心水準的正數據,就可以成功學習為二元分類器,我們稱之為「正信度」(positive-confidence, Pconf)的分類。該研究之目的不在於「區分」正/負數據,而是透過已知的訓練樣本來計算所得誤差逐漸逼近與理想風險之最小值,即經驗風險最小化(empirical risk minimization , ERM)的簡單框架,建立一個僅需利用正數據與信心值的二元分類器,且其超參數(hyper-parameters)可以被客觀選定。作者在理論上建立了資料的一致性,以及誤差估計的邊界,並用實驗說明了該方法訓練深度神經網絡的有效性。

研究原文:

〈正信度數據的二元分類法〉
Ishida, T., Niu, G., & Sugiyama, M., “Binary Classification from Positive-Confidence Data,” Thirty-second Conference on Neural Information Processing Systems (2018).

專家們怎麼看?

SMC邀請到交通大學資工系的胡毓志教授與中正大學資工系的江振國助理教授,分別就各產業的差異性與本文假設、正信度數據的二元分類演算法是否能夠普及兩個面向來加以討論。

2019年3月2日
交通大學資訊工程學系 胡毓志教授

本篇論文提出一個新的計算方法,用以解決如何在僅有正面案例與附隨信心指數的情境下,完成有效且準確的二元分類預測,稱之為 Positive-Confidence Classification。雖然作者群提供了兩個真實世界的例子(皆與顧客購買行為的預測有關),藉以佐證此新的 Positive-Confidence Classification 預測之實用性,然而,誠如其實驗結果顯示,其預測方法的準確度尚深受所能取得之正面案例的附隨信心指數影響,因為錯誤的信心指數將產生錯誤的學習案例。目前在機器學習研究領域中,二元或多元分類預測的演算法不勝枚舉,雖然它們的效能與其設計理念及適用的環境之差異息息相關,但是在真實世界裡各個行業的應用上,真正的挑戰其實是業者(使用者)是否能整備出「有用」的資料,本研究所提的 Positive-Confidence Classification,意圖透過參考信心指數的方式,在無法提供確切(100% confident)的正(反)面案例的困境下提出解套。倘若對於業者而言,假設提供正面案例與其合理的信心指數遠較於整理出確切(100% confident)的正面及反面案例來得容易,那麼有別於一般二元分類法,Positive-Confidence Classification 的確有其實用性,然而,鑑於各產業的差異性,上述的假設未必成立,或許就某特定產業而言,即便僅是提供正面案例與其合理的信心指數,其困難度仍然很高。從機器學習及資料探勘的應用層面來看,在欠缺「有用」資料的情境之下,很遺憾的是,縱使是有再好的演算法與計算模型,恐怕也是巧婦難為無米之炊。

 

2019年3月6日
中正大學資訊工程學系 江振國助理教授

在資料不平衡的問題上,如果有眾多的正樣本與極少的負樣本,這類的問題通常會以「異常偵測」的作法來解決。一般針對異常偵測的問題,會建立正樣本分布的參數化生成模型,藉此了解正樣本的分布狀況。因為一旦確認正樣本的分布模型,正樣本資料在該模型能得到較高的機率值,所以如果將未知樣本帶入模型得到低的機率值,便可推知未知樣本為負樣本。上述做法雖然在二元分類的問題中,能夠建立正樣本的分布,進而得知不符合正樣本分布的負樣本結果,但是對於負樣本的資料分布卻仍一無所知。

本論文結合正樣本與正樣本的信心指數(Confidence),在沒有負樣本的情況下,依然能夠建構出沒有偏差的二元分類器,突破了以往機器學習的限制,二元分類問題必須有正樣本與負樣本才能訓練分類器的假設,這不啻是智慧化產業製造的重大福音,因為產線資料通常良率都很高,所以能拿到的瑕疵品數據非常少,在二元分類上是極不平衡的資料訓練問題,甚至無法達成分類器的正確訓練。但如果能單單利用正樣本,就達到二元分類的目的,同時效果接近同時利用正/負樣本訓練的分類器,將可以解決很多目前智慧製造、產線製程、瑕疵檢測的問題。這個方法發表在機器學習、人工智慧領域的頂級會議(即神經資訊處理系統大會NeurIPS),其方法推導與實驗佐證相當值得信賴,唯有在實際應用時,本方法需要同時備有樣本的信心指數配合使用,才能達到正確的分類結果,但這樣引發了下一個問題:目前智慧製造、產線製程、瑕疵檢測等機台影像或數據,除了知道正/負樣本的標籤,如何得到資料正確的信心指數?將是這個方法能普及應用的關鍵。

(專家回應持續更新中)

版權聲明

本文歡迎媒體轉載使用,惟需附上資料來源,請註明新興科技媒體中心。
若有採訪需求或其他合作事宜,請聯絡媒體公關:

曾雨涵

haharain331@rsprc.ntu.edu.tw
02-3366-3366#55925