此篇報導為與工商時報合作,並刊載於<科學家新視野專欄-AI協助海關查驗非法交易>

國立成功大學數據科學研究所副教授 李政德
國立臺灣大學資訊工程學系碩士生 蔡育哲

海關是一個國家進出口貿易最重要的機構,而關稅也是政府稅收的重要來源,海關最重要的任務之一是查緝非法走私貨物,有效查緝非法走私可減少犯罪並提高政府稅收。現行查緝非法進口交易的做法仰賴執法人員人工查核,然而面對每天成千上萬的進口貨物,有限的人力難以進行全面查緝,而透過抽樣的方式進行部分查核,將可能有漏網之魚。

我們的研究團隊與世界海關組織(World Customs Organization, WCO)合作,開發了一套能夠自動偵測違法交易的人工智慧演算法,簡稱為DATE模型[註1],此模型能針對海關進口交易的大數據進行非法走私偵測,透過比對每一筆申報進口交易的紀錄,包含商品類型、數量、重量與價值等資訊[註2],產生偵測為非法交易的機率值,海關查緝人員僅須專注於檢測機率值較高的交易貨品,機率值較低的交易貨品則可以隨機抽樣或直接放行,減少人力成本。DATE模型除了偵測非法交易,更可以對偵測結果產生對應的可解釋性文字,來輔助說明為何該交易貨品是違法交易。相較於傳統的機器學習方法,DATE模型針對海關資料的特性,做了三個有效的特殊設計:

  1. 基於梯度提升樹模型[註3],從交易貨品的特徵中,找出能最有效辨識非法交易的特徵組合,例如讓AI判斷「貨品類型為3C家電、價值為1~2萬、重量為1000~2000克」此組合可能隱含非法交易的線索。
  2. 雙重注意力機制[註4],讓AI同時學習兩件事:(1)特徵組合的重要性與特徵之間的關聯性,如「價值1~2萬且重量1000~2000克的3C家電」與「價值5000~1萬且重量500~1000克的電腦周邊」具有強烈關聯。(2)學習商品、進口商和特徵組合間的關聯性,如「價值5000~1萬且重量500~1000克的電腦周邊」與商品「電腦螢幕」有直接關聯。
  3. 雙重任務學習,透過同時預測交易是否違法、交易能帶來的額外關稅收益,來訓練人工智慧模型。

目前DATE模型已在奈及利亞與馬拉威的海關測試,比對進口交易大數據後,可讓海關查緝人員只檢測10%的進口交易,就能從一百多萬筆進口交易中找到90%的違法交易,並找回比傳統機器學習方法還要多兩倍的逃漏關稅收益。DATE模型正在奈及利亞與馬拉威的海關系統中進行線上測試,通過測試後,未來將會應用在這些國家的海關系統上。若要將DATE模型運用在台灣的海關資料,仍有幾項限制必須考量。首先,必須先確認台灣海關的進出口資料與WCO所提供之海關資料欄位是否契合,若欄位調整至相同,即能運用目前已經訓練好的模型來偵測非法交易;若欄位難以調整,則重新進行資料前處理、訓練專屬台灣海關的AI模型。另一方面,不肖廠商可能根據不同國家的海關法規,鑽不同的漏洞,所以不同國家的違法交易可能存在不同的行為樣式。為使AI適應台灣的行為樣式,我們可使用已經訓練好的DATE模型,再加上台灣海關現有的違法資料並微調模型的參數,使DATE模型學習到台灣之非法交易的行為,才能更好的轉移到台灣海關的非法交易偵測系統上。

由於每日的交易數量相當龐大,目前多數先進國家不像奈及利亞等國海關,會檢測每一筆進口交易,因此對於非法交易的標記數據是非常稀少的。針對此問題,我們團隊正著手開發基於半監督式學習(Semi-Supervised Learning)[註5]和主動學習(Active Learning)[註6]的AI演算法,讓不同國家的海關能利用現有的未標記數據,加上非常少量的標記數據,便能得到與目前DATE模型接近的準確性。於是,每個國家便不需仰賴以其他國家資料訓練出來的模型,可以針對自己國內海關進出口的資料訓練出模型,這麼做除了能夠保密資料,更能讓AI學到適合自己國家的模型。

註釋及參考資料:

[註1] DATE模型程式碼與完整論文請參考:〈DATE: Dual Attentive Tree-aware Embedding for Customs Fraud Detection.〉。

[註2] 申報進口交易的紀錄,包含商品類型、數量、重量與價值等資料,每個都是AI要學習的資料「特徵」。

[註3] 梯度提升樹模型(Gradient Boost Decision Tree):以「決策樹」的演算法為基礎,修正前一個決策樹來產生下一個決策樹,所以多個決策樹之間是彼此緊密關聯的。優點是處理各種類型的數據時,可以在較少時間獲得較高準確率。

[註4] 注意力機制(Attention Mechanism):AI找到資料中的特徵後,不只學習小範圍鄰近特徵的關聯性,也學習大範圍內相似特徵的關聯性。

[註5] 半監督式學習(Semi-Supervised Learning):先由人類來分類並標註少部分的資料,再讓AI學習這些標註去分類其他的資料。因為已經有辨識的依據,比起讓AI在沒有標註的資料中尋找特徵及分類的非監督式學習,半監督式學習的預測能更準確。

[註6] 主動學習(Active Learning):這個技術使用比較少標記且較有代表性的資料來訓練AI,就可以達到用大量標註資料來訓練AI的同等效果。

版權聲明

本文歡迎媒體轉載使用,惟需附上資料來源,請註明新興科技媒體中心。
若有採訪需求或其他合作事宜,請聯絡媒體公關:

曾雨涵

haharain331@rsprc.ntu.edu.tw
02-3366-3366#55925