SMC 資料庫
議題背景:
大家熟知的ChatGPT,即使已經能夠回答使用者的問題、可以生成書信,但仍然會編造錯誤、虛假的資訊,就是AI幻覺。使用大型語言資料庫時,AI幻覺是很令人困擾的問題,當AI 的應用越來越多和複雜,使用者或第三方也越來越難審查或監督,使用者越多,被錯誤資訊影響的風險也越高。目前,除了使用者主動確認資訊、謹慎的解讀AI給的答案之外,怎麼知道AI有沒有給出錯誤的回答呢?
國際期刊《自然》(Nature)於台灣時間2024年6月19日晚間23:00發表一篇研究,提出一種偵測AI幻覺的方法,發現三個大型語言模型有AI幻覺是因為缺乏知識,且即使模型的能力不斷增強,會產生AI幻覺的問題也會繼續存在。研究用統計學為基礎,提出一種方法評估語言模型有沒有AI幻覺、給出錯的回答。這篇由英國牛津大學與澳洲皇家墨爾本理工大學合作的研究,
作者寫道,如果沒有完善的的設定訓練大型語言模型的目標,造成它們自信滿滿的推理錯誤,或誤導使用者,是很危險的。AI幻覺有不同的種類,而這篇研究中主要看的AI幻覺是「Confabulation」虛談,也就是看似合理易懂,但不符合真實資料,作者認為,儘管許多AI幻覺的症狀相似,但在不同的語言模型中,產生AI幻覺的機制不同,需要分別處理。
研究原文:
- Kossen, Jannik, et al. "Detecting hallucinations in large language models using semantic entropy." Nature. (2024). DOI: 10.1038/s41586-024-07421-0
專家怎麼說?
2024年06月18日
國立高雄科技大學電機工程系教授 戴鴻傑
Q1:這份研究為什麼重要?一般使用者可以應用這篇研究的偵測方法,來避免或減少AI捏造錯誤的資訊嗎?
要回答這個問題,要先精確定義這篇研究中所提到的「Hallucination」,AI幻覺為何。在大語言模型尚未風行之前,自然語言生成領域的開拓研究者就以Hallucination一詞,泛指現今的人工智慧技術可能會對人類的查詢,生成出各類荒謬而不可靠的回覆。AI 幻覺有很多種形式,這份研究所聚焦探討的幻覺類型是「Confabulation」錯構,或是虛談。
如同腦部受損的虛談症(Confabulation)患者,會變得明明說的每句話都可以讓人聽懂,但就是不符合實際情況,或是要說一件事,講到最後卻離題了。再不然,就是一個簡單事件,拐彎抹角的說了半天還沒說到重點。這種虛談症的行為正符合現今大型語言模型(LLM)在某些情況下的幻覺表現。
如同虛談症的病患,大型語言模型其實自己也分不清楚,它生成出的東西哪些是真的、哪些是自己虛構的。很多情況下,它真的相信自己生成的那些語句是正確的,因為研究人員在預先訓練模型的時候,模型只會根據看過的資料去盡可能回答。所以目前AI模型的限制是,它很擅長接自己講的話,就算發現自己講錯了,但是因為話已經說出口了,只能繼續圓下去。
為此,本研究作者提出一個量化指標,衡量三種大型語言模型,是否陷入了虛談的狀況,搭配抽樣方法,可用於檢測開源或閉源的其他大型語言模型。然而這個方法背後的演算法需要透過反覆抽樣,用同一個問題,問模型很多次,得到很多不同回答,輔以第三方的模型來根據不同的回答,分出不同類群,這個過程很複雜,一般使用者較難直接應用。
Q2:根據這篇研究結果,造成AI幻覺的原因是缺乏大型語言模型的知識,但這是什麼意思?這代表開發ChatGPT、研發大型語言模型需要注意哪些事項嗎?可以如何應用這篇研究的偵測方法?
如同前文所述,大型語言模型的虛談症狀,其實非常類似虛談症患者的狀況,也就是不具備瞭解自己知道什麼的能力。所以我認為「造成 AI 幻覺的原因是缺乏大型語言模型的知識」,其實是代表大型語言模型缺乏自我覺察的智慧,少了一個可以幫助關注自我言行的第三隻眼,所以就陷入了自以為是的情況。
如前述,本研究作者提出一個語意的量化指標,來衡量大型語言模型生成的回覆是否可靠,作者認為他們的方法顯示,大型語言模型其實比科學家以為的更清楚它們「有不知道的事」,只是它們運作時,沒瞭解到自己「其實知道自己不知道哪些事」。
透過作者提出的偵測方法,大型語言模型可以發現自身的不確定性,進而讓我們可以提醒使用者,大型語言模型的回覆可能不可靠,或者引導大型語言模型不要回覆這一類可能會造成虛談症幻覺的提問,甚至是讓大型語言模型透過使用外部的查詢或知識庫來回覆提問,降低虛談的症狀。
當大型語言模型被要求給出一個它們自己不知道的事實時,或許實際的狀況是,它們沒辦法說自己不知道,因為在訓練中一定有一個根據事實的答案。所以大型語言模型才會編造出一個合理的答案,產生出所謂的 AI 幻覺。如同在臨床上針對虛談症病患的治療方式是增加現實感,透過告訴他們正確的訊息,來引導病患做出正確的判斷一樣,透過額外導入的資訊,提升大型語言模型對自己虛談傾向的瞭解,增加線索來協助判斷,或許就可減少虛談情形的發生。
Q3:這篇研究有哪些限制,是我們應該謹慎解讀的?
本文所提出的方法,很大部分仰賴演算法過程中,語意的分群是否正確,若是使用的分群方法效果不彰,會嚴重影響量化的結果。例如,大型語言模型對同個問題產生多個回覆,而這些回覆語意上是同樣意思,但卻分類錯誤時,會誤判為有AI幻覺。這可以從研究中的表 1 觀察得知。另外,通常研究者使用大型語言模型時,希望語言模型做最有把握的回答,不要生成有創意的回答,但是這樣就不能用這篇研究的方法去偵測AI幻覺。
另外,研究的作者僅使用一種方式(不確定性估計方法)來量化大型語言模型輸出的效果,忽略了另外一種方法(模型的信心度量化指標),有部分新的研究指出,在評估模型回答的正確性時,結合至少兩種不同的評估方法,會更實用和可靠。
2024年06月18日
臺灣師範大學圖書資訊所特聘教授 曾元顯
Q1:這份研究為什麼重要?一般使用者可以應用這篇研究的偵測方法,來避免或減少AI捏造錯誤的資訊嗎?
能夠偵測AI產生幻覺或是捏造虛構資訊的方法,是非常重要的。因為目前的生成式AI多有此種現象,難以避免。其原因之一在於我們期待訓練AI系統能夠「創造」,但「創造」與「捏造」幾乎是一體兩面。同樣的東西從某一面向看是創造,但從另一面向看可能就是捏造。
此研究提出的方法,是一個AI系統對一個問題,生成回答之後,請同一個AI系統或是另一個AI系統,用這個回答,生成多組問法不同的問題,例如Q1、Q2。
接著再請AI系統回答這些問題。若有多組問題,而這多組的答案之間語意皆相似,彼此間可以互相推論出來而有蘊含的關係,則表示可以判斷最初AI系統的回答,是真實的答案,反之則表示答案為虛構、捏造的。這篇研究用的是一個無監督式(unsupervised)的方法,不需事先準備標註好答案的訓練資料讓機器學習,以便自動判斷AI的回答是否虛假。
總之,此研究提出的方法,就是不依賴AI僅此一次的回答,而是多方詢問的確認。一般使用者可以運用此方法,但頗為繁瑣。較簡單的方式,可以使用搜尋引擎確認回應的真實性,可用不同的問法,多方詢問,或是使用不同來源,交叉驗證答案。
Q2:根據這篇研究結果,造成AI幻覺的原因是缺乏大型語言模型的知識,但這是什麼意思?這代表開發ChatGPT、研發大型語言模型需要注意哪些事項嗎?可以如何應用這篇研究的偵測方法?
如前述,我們訓練AI系統,希望AI能具備創新、創意,而有創造的能力,例如創造新的解讀、新的文章,甚至創作小說。以目前看到市面上的生成式AI系統,都能完全符合語法規則,甚至可被指示按照某一種風格產生回應文字,但目前AI系統仍然沒有完整的世界知識或是關於我們世界的常識。
因為知識與常識列舉不完,以致於難以完全納入訓練資料中來訓練AI系統。例如:「臺灣最古老的水井在哪裡?」,GPT 3.5 Turbo、MythoMax 13B、Mistral 7B Instruct這三個AI系統的回答都不一樣,分別回答:新北市淡水、桃園市龜山、臺北市中正區,而且回答得都很有自信的樣子,讓使用者以為這就是答案,這就是現況。
不管是研究者或是使用者,都很難避免生成式AI產生幻覺、捏造,對AI生成的結果都需要進一步驗證。例如應用上述建議的方式:多方詢問、交叉驗證。
Q3:這篇研究有哪些限制,是我們應該謹慎解讀的?
這篇研究的方法,需要計算AI回覆的語意之間相似的程度,求出一個數值(語意熵),依照此數值判斷AI生成的回應是否可信。在實務應用時,需要決定這個數值的門檻,這需要一些標註好的問答語言資料,才能找出最佳門檻值,門檻太嚴格會誤以為AI都是編造資訊,門檻太低會偵測不出AI幻覺。而標註好的語言資料跟我們實際的問題,若在主題、範圍上相差很遠,則此門檻值將變得不夠可靠。需要注意的是,大型語言模給的答案都很一致時,然比較可信,但這些答案不一定是事實。我認為AI幻覺的問題很難根絕,但這篇研究結果再度證明,從多個來源、多方求證是應對AI幻覺的重要方法。
版權聲明
本文歡迎媒體轉載使用,惟需附上資料來源,請註明台灣科技媒體中心。
若有採訪需求或其他合作事宜,請聯絡我們:
曾雨涵
02-3366-3366#55925