SMC 資料庫
此篇報導與工商時報合作,並刊載於〈科學家新視野專欄-AI偵測矛盾內容 讓維基百科更可被信任〉
文/成功大學數據科學研究所副教授 李政德
社群媒體為人們帶來便利的聯繫和互動與交流,但也同時成為惡意人士散播假訊息的溫床,面對社群網路充斥的未經查核言論,維基百科經常成為民眾主動尋求事實真相的管道。但維基條目的編輯群可能受到不同立場、不同消息來源的影響、甚至難以第一時間掌握事實全貌與細節,使得文字內容出現自我矛盾的現象(兩個或以上的句子語意相互牴觸)。例如,同一廠牌疫苗,獲得授權的日期卻在兩個句子中不一致。我們的團隊開發的AI演算法可以自動偵測矛盾之處,幫助解決此問題。
自動偵測自我矛盾的維基條目非常有挑戰性,現有AI機器學習的技術僅能判斷二個句子是否相互矛盾,難以準確偵測由多個句子所構成的一整篇文章中的矛盾。而且把所有句子兩兩比對,相當耗時,需要讓AI從句子的上下文理解語意,才能偵測句子在語意層次上的矛盾,不能單純看字面上的不一致。此外,AI演算法不僅要能準確判斷一條目是否自我矛盾,還必須標示矛盾的是哪些句子的哪幾個字詞。
我們的研究團隊與維基百科進行領先全球的跨國合作,首度偵測維基條目的自我矛盾,開發了能夠準確辨識並且指出自我矛盾句子的AI演算法,「配對矛盾神經網路」。此演算法是運用自然語言處理的技術,稱為「文字蘊含識別」,推論兩個句子間的邏輯是否有正向、反向、雙向、矛盾、獨立等的關聯。我們採用文字蘊含的資料集預先訓練AI模型,讓AI先學習理解兩個文句的語意關聯,並過濾文章中沒有矛盾的句子,使得AI能夠專注在可能有矛盾的句子上,學習較深層的推理。實驗評估結果顯示我們開發的AI演算法,與典型的文本分類方法相比,準確性提升15%,可以成功識別出60%的自我矛盾條目。
目前此技術正在「維基百科條目編輯與品質查核平台」上開發,可讓維基百科的編輯者快速獲知,正在編修的文字是否與內文自我矛盾,提高發布後的維基條目品質,使得維基百科提供更可靠的資訊以利大眾查詢。此技術還可協助偵測標題與內容不一致的資訊,例如偵測「點擊誘餌」與「圖文不符」的內容,讓當前社群媒體能掃除這些賺取流量、剝奪使用者注意力、甚至影響決策的訊息,有望提高眾多資訊來源的可信度。
版權聲明
本文歡迎媒體轉載使用,惟需附上資料來源,請註明台灣科技媒體中心。
若有採訪需求或其他合作事宜,請聯絡我們:
台灣科技媒體中心
02-7709-5375