此篇報導為與工商時報合作,並刊載於〈科學家新視野專欄-醫療問題摘要的AI技術與潛力

文/中央大學電機工程學系助理教授 李龍豪

民眾在網路論壇或官方留言板上的醫療問題,可能包含與問題本身無關的內容,有礙於自動問答系統的開發。目前的研究發現,運用「人工智慧摘要生成技術」,有助於機器理解民眾問題內涵,裨益於智慧問答系統的發展。

從以下真實問題,不難看出提問人的擔心:「我晚上經常盜汗睡不著,有時後因為工作壓力大更是容易失眠,這個狀況已經困擾我半年之久,嘗試過調整作息但是沒有用,我應該吃安眠藥讓自己好睡點嗎?還是有哪些方法讓失眠症狀減緩些呢?希望可以好好睡一覺。」但對一個醫生或智慧問答系統而言,這個問題應該是「我經常失眠該如何改善?」。醫療問題自動摘要的目標就是將原本的問題重點節錄,生成出語意相同的摘要問句。這不僅能夠提升醫師釐清民眾需求的效率,也有助於發展更精確的智慧問答系統。

國際計算語言學學會生醫小組也很重視開發摘要技術以改善英文的醫療智慧問答系統,今年舉辦了MEDIQA 2021國際競賽。我們與徐國鎧教授和李柏磊教授研究團隊合作參賽獲第三名。我們用於競賽的人工智慧摘要生成技術,主要架構是PEGASUS深度學習模型(以下簡稱PEGASUS模型)。PEGASUS模型是針對於龐大的語料,預先訓練出一個對於自然語言有一定理解的通用模型,再微調該模型讓它適合做語句摘要的任務。目前現有的摘要語料來源和結果大都是直述句,用來陳述事實,並以句號結尾,例如一篇完整的新聞報導,重點摘要成標題一兩句話。但在醫療問答領域,摘要語料來源和結果通常都是疑問句型態,以問號結尾,目前問句摘要的研究相對少見,公開可用的訓練資料非常少,也是這次國際競賽的困難之處。我們藉由實驗找到最適合預先訓練好的PEGASUS模型,除了競賽提供的少數訓練資料和既定的摘要形式,可以用來微調模型之外,我們另外找到相關的醫療領域問句資料,如果兩問句彼此語意上相互重疊,則將句子字數較多者視為原始問句,相對少者則當作摘要。增加了這些合適的訓練資料加強訓練後,我們成功的讓模型更適合從醫療問題中摘要出重點。

然而台灣民眾在網路上的問答,主要是中文,中文語言處理相對於英文難度高出許多,我們的研究團隊目前已完成健康照護領域的關鍵技術,讓電腦讀取中文常見的網路文章,擷取成有順序的詞組形式。例如「牛奶,含有,色胺酸」以及「色胺酸,有助於,睡眠」的形式,加上常識可知牛奶屬於一種食物,所以當民眾提問「經常失眠該如何改善?」時,醫療智慧問答系統可以回答「吃對食物例如喝牛奶,有益於改善睡眠狀況」。

網路資訊發達的今日,民眾日常生活遇各種健康照護相關問題,到醫療院所尋求診斷與治療之前,通常都會先上網找答案,但如何有效歸納龐雜的網路資訊,有賴於自動醫療問答系統的輔助。我們的研究團隊未來將發展中文摘要生成技術,將民眾的醫療問題,摘要成易於理解的問句,進而增強自動問答系統的效能,期許在國家發展人工智慧的政策推動下,能夠成功開發中文醫療問答系統,造福國人增進民眾福祉。

版權聲明

本文歡迎媒體轉載使用,惟需附上資料來源,請註明新興科技媒體中心。
若有採訪需求或其他合作事宜,請聯絡媒體公關:

曾雨涵

haharain331@rsprc.ntu.edu.tw
02-3366-3366#55925