此篇報導為與工商時報合作,並刊載於<科學家新視野專欄-AI如何從大數據中學習預測疫情>

文/國立成功大學數據科學研究所副教授 李政德

因應武漢肺炎疫情,AI分析大數據的能力更加受到重視,世界各地的AI相關學者正積極運用AI分析疫情大數據,藉此了解並預測武漢肺炎在人事時地物等各面向的影響。然而,究竟運用AI可做到哪些疫情的預測?應收集的資料有哪些種類?訓練模型有哪些值得注意的關鍵?

首先,目前運用AI深度學習協助預測疫情,有三個面向:

一、地理空間的擴散:藉由讓AI學習散佈在世界各國的人潮、交通流動趨勢,再加上用各地即時確診或傷亡資訊訓練AI模型,將可能事先預測未來即將爆發疫情的地區,供各國參考旅遊警示,大眾亦能提前防範。

二、時間維度的演進:從已知疫情爆發的城市確診或死亡人數的時間序列,以及人口普查、交通運輸、旅遊警示、醫療資源等資訊,搭配當地政府的因應措施,可讓AI學習預測各地未來的確診或死亡人數,輔助各國政府調整不同程度的超前部署措施。

三、防疫策略的制定:各國因種族文化或宗教差異,採取了不同的防疫措施,差異化的防疫作為會如何影響確診人數?搭配人口資訊與醫療資源狀況,可訓練AI推薦適合不同國情的防疫措施,讓各地得以採用最有效降低感染人數的防疫方式。

然而訓練AI預測這三個任務,都十分仰賴訓練時的輸入資料,從不同面向蒐集到的數據,是訓練出準確AI預測模型的基礎。資料的數量規模、多樣性、完整度、即時性、以及粗糙細緻程度等,皆會影響AI模型的設計,進而決定預測準確性。以武漢肺炎的疫情預測為例,蒐集疫情數據的來源與類型可包含以下:

(一) 交通數據:包含往返的航班時間與起訖城市、乘客國籍分佈、購買機票的價格、購買時間點、搭機前的身體狀況、各國大城間主要幹道的交通流量、公共運輸系統的流量。病毒在全球擴散主要透過航空與陸地交通,這些數據能反映病毒在世界各大城市之間的流動資訊,讓AI學到病毒傳播的時間與空間擴散趨勢。

(二) 新聞資訊:大眾傳播媒體的新聞文字資料,記錄防疫單位發佈的官方確診者足跡、所在地、身體狀況等資訊,並記載各地的防疫措施政策,也描述防疫事件的始末。包含執行的超前部署以及多角度的專家意見,這些資訊反映政府相關單位的最新作為,可讓AI學習疫情進展到了哪一個階段、政府對應的作為與大眾的反應。

(三) 社群媒體:全球主流社群媒體如Facebook、Twitter、Instagram與PTT含有許多最即時的資訊,包含哪些地區出現排隊購買口罩、囤積糧食人潮、假訊息散播與澄清歷程等。社群媒體的意見能反映政府防疫作為的即時輿情,AI將從中學習反饋病毒的擴散狀況,學習即時預測社群中贊同執行政策與反對的聲量;此外社群網路是連結全球的人際網路,我們可讓AI從中發現防疫資訊的觸及率,與設計有效廣播即時資訊的機制。

(四) 醫療數據:基本數據包含各地醫院分佈、醫院規模、病床數、負壓隔離病房與呼吸器的數量、醫生專業背景。診療相關數據則包含病患接觸史與旅遊史,案例感染、發病、篩檢、確診、接受醫療處置、痊癒或死亡的完整過程,還有涉及的胸腔X光影像、用藥紀錄與藥物化學成分、出現症狀的時間序列、病毒基因定序數據、出院後的追蹤紀錄等,這些數據可讓AI學習到病毒在人體的病程演變、病毒演化、以及採用醫療行為彼此間的關聯。藉此可預測疫情爆發的地區,與確診人數隨時間的累積,也能輔助AI學習更有效率地尋找治療武漢肺炎的新藥。

上述數據涵蓋的資料類型極為廣泛,包含性質較單純的結構化資料,以及更多複雜的非結構化資料。要訓練AI同時學習結構化與非結構化資料,須設計客製化的深度學習神經網路架構。若為結構化資料如交通資料,可利用隨機森林演算法[註1]預測未來一段時間各地區的人潮流量。若為非結構化資料,如醫學影像,可利用卷積神經網路[註2]從影像中學習判斷是否罹患某疾病;又如新聞文字,可利用遞迴神經網路[註3]從文字序列中學習預測輿情;又如社群網路的資料,則可利用圖神經網路[註4]從人與人實體接觸網絡中學習預測可能被病毒感染的對象。

理想上應收集到上述異質性的數據,但因為數據分散各國,各國醫療體系、開放資料庫的欄位格式、資料公開的程度與缺失比例,以及數據一致性與多樣性皆不相同,很難完整收集到上述資料。即使收集到足夠資料,因疫情瞬息萬變,訓練AI模型之前須對資料進行各種前處理,包含統一欄位、校正時間軸、填補缺失值、萃取並定義資料特徵,這些都相當耗時。因此若使用單一AI機器學習或深度學習同時融合這些異質資料,較為不實際。應就這些異質性的數據設計專門的深度神經網路架構,方能有效從不同來源數據中,自動學習出能幫助預測的關鍵線索,產生較精準的預測結果。此外,如何驗證訓練出AI模型的準確性也是挑戰,一種可能的作法是分階段訓練及驗證AI深度學習的模型,例如使用特定地區在2020年1月的數據訓練模型,預測2月疫情爆發或趨緩的城市以及確診人數,並校調與修正模型,接著再使用2020年2月的數據訓練新模型,預測3月的疫情並校調與修正,同時加入3月的數據訓練下一回合的模型,來預測4月的疫情,據此動態訓練並驗證。

須特別注意的是,由於疫情擴散與演進會隨著不同國情、地理或氣候狀況而有所差異,因此也須設法將人文、地理條件與氣候資訊作為訓練模型的特徵,讓AI學習到這些環境訊息對預測的影響;此外,也可以建構病毒基因結構的演化網路,加入訓練資料,藉此讓AI模型學習到病毒演化與預測的關聯。最後,更可能發生的狀況是無法全面收集到資料供AI訓練模型,此時可用不同城市蒐集到的最大交集資料,但在解讀AI預測的結果時,便不能納入未使用的數據來解釋疫情之預測結果。

註釋

[註1]隨機森林演算法(Random Forest):包含多個「決策樹」的演算法,所算出變數的特徵適合用來解釋分類的結果。

[註2]卷積神經網路(Convolution Neural Network,CNN):卷積計算從原始影像的像素資訊中學習物件的特徵,多用於對影像進行分類與物件辨識,例如讓AI學習到照片中與眼、眉、嘴相關的像素是人臉的特徵。參考《深度學習卷積神經網路用於醫療診斷──專家QA

[註3]遞迴神經網路(Recurrent Neural Networks,RNN):從有前後順序的資料中學習特徵的神經網路,會連結前一筆輸出資料和下一筆輸入資料,可分析短期與長期訊息的關聯。常應用於自然語言處理和聊天機器人。

[註4]圖神經網路(Graph Neural Networks,GNN):可從由節點和邊組成的圖結構中學習每一個節點的特徵,再分類節點或預測節點之間的連結。例如讓AI從人際網絡圖學習每個人的資訊,預測人與人的連結。常應用於社群網站或電商平台上的推薦系統,以及藥物開發。

版權聲明

本文歡迎媒體轉載使用,惟需附上資料來源,請註明新興科技媒體中心。
若有採訪需求或其他合作事宜,請聯絡媒體公關:

陳貝裘

haharain331@rsprc.ntu.edu.tw
02-3366-3366#55925