「如何看待最新AI生成文本技術：GPT-4」專家意見

議題背景：

OpenAI在今（2023）年3月14日正式推出GPT-4，比起先前的GPT-3.5回答問題更精準，還可以請GPT-4解讀圖片。OpenAI共同創辦人Greg Brockman也用youtube影片示範GPT-4的特點與限制。

英國的衛報也報導，OpenAI表示GPT-4接受了互聯網上大量資料的訓練，因此改進了很多原本GPT-3的問題並且更有創造力，但用戶在使用語言模型輸出的答案時仍應格外小心，建議再人工檢查過內容。

相關資訊：

OpenAI GPT-4公開資訊：GPT-4
OpenAI GPT-4預印本平台的技術報告：GPT-4 Technical Report
英國衛報：OpenAI says new model GPT-4 is more creative and less likely to invent facts
CNN新聞：The technology behind ChatGPT is about to get even more powerful

專家怎麼說？

【蔡宗翰】【李怡志】【蔡炎龍】【曾元顯】

2023年03月16日
國立中央大學資訊電機學院資訊工程學系教授蔡宗翰

1. GPT-4的優勢和限制分別是什麼？

GPT-4是目前為止最強大的語言模型之一，它的優勢在於，GPT-4現在使用更多的訓練資料和計算資源，能夠更準確地回答問題和生成文字，並減少語言偏見的影響。

此外，GPT-4透過學習大量的文字和圖像資料，獲得更高的創造力和想像力，能生成更有趣和獨特的文字和圖像描述。而且，它也具備解讀圖片的能力，可以從圖像中發掘關鍵資訊並生成相關的文字描述。

值得注意的是，GPT-4必須要有大量的計算資源才能運行和訓練，因此在某些設備上可能會難以實現，且會消耗大量的能源。此外，即使GPT-4的準確性比之前的版本更高，仍有可能出現一些錯誤，因此在使用時需格外小心，並進行進一步的確認。

2. 根據您的研究經驗，GPT-4解讀圖片且生成文字的能力，還可以從哪些方面精進呢？是否需要開發新的演算法，或是給予更多高品質的訓練資料？

目前來看，GPT-4在解讀圖片和生成相關文字方面已經取得了很大的進展。但是，這種技術還存在一些限制和挑戰。例如：

圖像和文字之間的關聯是一個複雜的問題，目前的語言模型在這方面仍存在一定的局限性。為了進一步提高模型的準確性和精確度，需要開發更先進的演算法和技術。

GPT-4在生成文字時可能會編造非事實性的回答，這可能會對使用者造成誤導和負面影響。為了解決這個問題，可以考慮引入更多的事實驗證機制和檢查機制，同時需要給予模型更加高品質的訓練資料。

另外，語言模型的訓練資料可能存在一定的模型偏見，例如性別、種族、文化背景等方面的偏見。為了解決這個問題，需要更加細緻的調整和訓練模型，同時更加嚴格的審查和檢查模型的輸出結果。

總之，為了進一步提高GPT-4的解讀圖片和生成文字的能力，需要進一步探索和研究相關的演算法和技術，同時也需要給予更多高品質的訓練資料和更加細緻的調整和訓練。台灣必須要有資源投入、深耕，以及研究訓練大型語言模型的技術，絕不能只是使用者，才不會在國際AI軍備競賽中落後。遇到有心者利用GPT-4製造假訊息攻擊時，才有能力判別與解讀假訊息。

3. GPT-4讓大眾對人工智慧的期待更高，但也出現許多擔憂，例如人工智慧可能降低造假門檻與成本。您建議我們如何看待最新的AI生成文字技術，以及在使用上有哪些小撇步和注意哪些事項，以降低從GPT-4得到錯誤資訊的機會？

最新的AI生成文字技術，如GPT-4，具有極高的創造力和生成能力，可以幫助我們更快速、更有效地生成各種類型的文字資料。同時，它也存在一些風險和潛在的問題，例如可能會編造非事實性的回答，產生偏見和不當影響，因此在使用上需要特別注意。

以下是我一些建議的小撇步和注意事項，以降低從GPT-4得到錯誤資訊的機會。

檢查輸出結果：使用者在使用GPT-4生成的文字時，應該始終檢查輸出結果，確保其符合事實和正確性。如果有任何不確定或不正確的地方，應該進一步查證和驗證。

確認來源可靠性：如果從網路上獲取資訊，應該確認其來源的可靠性和真實性，避免受到不可靠的資訊和資料的影響。

使用多種來源：為了避免偏見和局限性，使用者應該使用多種來源的資訊，從不同的角度和視角獲取資料，進行綜合分析和判斷。

注意隱私和安全：在使用GPT-4等技術時，需要注意隱私和安全問題，避免個人資料和機密資訊的外洩和損失。

學習和實踐批判思考：最重要的是，使用者應該學習和實踐批判思考，不盲目相信任何一個模型或技術，並且從不同的角度和角色出發進行思考和判斷，確保獲取到的資料和資訊符合事實和真相。

總之，最新的AI生成文字技術，如GPT-4，為我們帶來了許多便利和效率，但也存在一些風險和挑戰。在使用上，我們應該特別注意其限制和潛在問題，並且採取相應的措施和注意事項，確保獲取到的資料和資訊的正確性和可靠性。

2023年03月19日

國立政治大學傳播學院助理教授李怡志

1. GPT-4讓大眾對人工智慧的期待更高，但也出現許多擔憂，例如人工智慧可能降低造假門檻與成本。您建議我們應如何看待AI生成的文章，以及如何辨別內容的正確性呢？

一般人因為先會使用Google 才會使用ChatGPT，所以常會以 Google 的概念來看 ChatGPT。Google是一個資料索引目錄，你輸入了關鍵字，索引目錄協助你找到資料。ChatGPT則是學習資料後建立模型，你輸入了提示，他會解讀你的提示之後，給你GPT學會的東西。如果我們將這兩個角色擬人化之後，Google是一個圖書館員，它不會告訴你任何東西，只會幫你找東西。ChatGPT是一個會超級多語言的口譯員，它不會幫你找東西，但是很愛幫你「翻譯」或「轉譯」，也很樂於自己補充。簡單來說，前者是用「查」，後者用「翻譯」。

因為ChatGPT / GPT 是根據自己的學習來生成「翻譯」，如果它越像人（工智慧），記憶就可能越不齊全，因為人的記憶不是查資料庫那樣完整，所以我們要假設 ChatGPT 在事實上是可能出錯的，不能完全依賴它完成封閉型（答案只有對錯的，例如「蔡英文的地址」）的事實寫作。

如果我們看到一篇文章，已經註明利用ChatGPT 或人工智慧工具完成或協作，我們就要假設裡面的事實可能有錯、會腦補。但假如沒有註明，那就跟平常看到任何文章一樣，隨時保持注意，保持懷疑，如果對於內容有任何疑慮，就回頭求助圖書館員。

2. 依據您使用ChatGPT的經驗，如何正確運用它，以及使用上有哪些小撇步和注意事項，可以以降低從GPT-4得到錯誤資訊的機會？

ChatGPT是一個口譯員，不是圖書館員，所以一定會出錯，所以我們盡量不讓它獨立產生封閉知識型的內容（例如李白的字、號與祖籍）。使用 ChatGPT 比較好的方式是讓它好好地「翻譯」，讓它提供開放型的內容。也就是說，如果內容有明確的「是非對錯」，最好不要完全依賴它，但如果答案只有「好壞高下」，那麼我們可以開始練習如何使用它。

ChatGPT是一個人工智慧工具，意思是可以理解人話、說人話。但我們也知道，與人溝通向來不簡單，特別是ChatGPT 看不到你的表情，也不知道你提問的脈絡，所以你得講更清楚，特別是規範ChatGPT的產出。

有一個簡單的模型可以讓我們更清楚地協助ChatGPT如何溝通，學者 David Berlo 曾提出 SMCR 模式，將溝通拆解成：傳播者（ Source）、訊息（Message）、媒體（Channel）及接受者（Receiver）四塊。[1]

例如我想請 ChatGPT 寫一篇文章「介紹如何使用ChatGPT寫一篇文章」（本文不是這樣寫出來的），如果真的這樣問，「轉譯」出的結果可能很普通。但我們重新限制後，可以說：

請以傳播學者的身分（Source），

針對人文社會科學的大學生（Receiver），

寫一篇文章介紹如何使用ChatGPT寫文章，不要太技術性，語氣親切（Message），

刊登台灣科技媒體中心的Facebook上面（Channel）。

這樣清楚的說明，就可以讓 ChatGPT「轉譯」出更好的結果。

2023年03月19日

國立政治大學應用數學系副教授兼學務長蔡炎龍

1. GPT-4的優勢和限制分別是什麼？

目前看起來，OpenAI訓練GPT-4和GPT-3在文字上應該是運用相同的訓練資料。而GPT-3（ChatGPT）大概「看」了正常人要花超過9,000輩子[註1]才能看完的資訊。也就是說我們讀過的資訊數量遠遠不及GPT-4 讀過的，因此GPT-4和GPT-3都知道比我們更多的資訊。另一方面來說，GPT-4比GPT-3更優秀的是能一次看超過25,000個字，這比GPT-3大約只能看2,048個字好非常多。

之前以GPT-3（更嚴格說是 GPT-3.5）為底的ChatGPT，一次其實不能看那麼多字。於是，長一點的文章，要它作摘要就無法做得那麼好，寫一個報告前後風格有時會有差異，還有在討論事情，方向突然有點改變等等。這主要都是因為GPT-3能看的字數限制。

GPT-4的限制，最主要來自它其實只是「用前一個字預測下一個字」這樣的模型。雖然實際上是用一種叫transformers的架構，我們可以想成是「看完前面若干字，再預測下一個字」的模型。因為前面說到GPT-3一次輸入是2,048個字，所以大概最多看前面兩千多個字，再合理預測下一個字是什麼。

GPT-4只是用神經網路的原理訓練後，計算出文句。只是它真的看過太多資訊，所以可以推出好像非常合理的文句。但其實它沒有意識、沒有情緒，單純是經訓練後算出來的。

2. 根據您的研究經驗，GPT-4解讀圖片且生成文本的能力，還可以從哪些方面精進呢？是否需要開發新的演算法，或是給予更多高品質的訓練資料？

簡單的說，GPT-4的重點不是它還能更強，而是我們現在就可以怎麼使用它。

如前面所說，GPT-4生成文字，只是「前一個字預測下一個字」的模型，使用的是transformers的技術。這種模型其實transformers之前就已經存在，所以GPT-4技術本身不能算是重大突破。反而大家發現，原來這麼「原始」的方式，就能做到這麼多東西。在這之前，AI 專家們曾用各種「高級」的演算法去做許多東西，但現在發現其實沒有GPT-4那麼好。

另一方面來說，這種單純由前面的一些字去預測下一個字的模型，只是依過去訓練的經驗，覺得放哪個字合理，不是真的基於事實。舉例來說，如果是一個名人，GPT-4可能生成的文字會合理一點。但如果不是位名人，比方說請 GPT-4介紹「政治大學應用數學系的蔡炎龍老師」，它會知道政大是在台灣的一所大學，但因關於蔡炎龍的資訊太少，他就會依是應用數學系的老師，「合理」推出一堆文句通順但並非事實的文句。

要改善這樣的問題，基本上是困難的。Microsoft Bing使用的方法是讓 ChatGPT有搜尋的能力，這是其中一個改善的部份。另外其實更合理的是，既然GPT-4最大特點不是說出完全符合真實情況的東西，那為何不由使用者提供呢？我們很容易發現，如果提供基本資訊，ChatGPT就會幫我們生成相當好的文章。很多專家也發現，我們可以和ChatGPT「討論」一些概念，ChatGPT有時說的部份是錯的，你可以糾正它，它就會產生更好的文字。

這件事Microsoft執行長納德拉（Satya Nadella）用了一個很精確的詞，那就是GPT-4這類的模型，是我們的「對話型智慧代理人」（conversational intelligent agents）。這代理人的意思是，它功能多好，其實是我們人類的責任。也就是你越會用它，它就能發揮越多的功能。

3. GPT-4讓大眾對人工智慧的期待更高，但也出現許多擔憂，例如人工智慧可能降低造假門檻與成本。您建議我們如何看待最新的AI生成文本技術，以及在使用上有哪些小撇步和注意哪些事項，以降低從GPT-4得到錯誤資訊的機會？

綜合前面所說，要讓GPT-4產生有用、正確的東西，是使用者的責任。文字生成模型它並不是有意識的提供不正確的資訊，所以刻意要造假消息的，用GPT-4不一定能更快速造出一個人要的假消息。這說不定反而會讓大家更認為，堅持把關文字的媒體、出版社、或知名人物才是值得信賴的。相反的，照片、影片和聲音，反而不會再被大家認為是「有圖有真相」，我們可能要即早思考如何因應。

和文字一樣，或許之後有公信力的人或機構發佈的照片影音等，大家才可以相信。另一個可能是需要讓可以錄影的相機、手機把認證訊息放入照片或影片中，證實真的是直接用這些機器拍下、沒有改造過。

2023年03月20日

國立臺灣師範大學圖書資訊學研究所特聘教授曾元顯

1. GPT-4的優勢和限制分別是什麼？

GPT-4是由GPT [1]、GPT-2 [2, 3]、GPT-3 [4]逐漸演化而來的。

GPT是Generative Pre-trained Transformer（生成式預訓練轉換器）的簡稱，其中，「生成式」代表它可生成文字做為輸出的資訊，預訓練代表它經過大量資料的事先訓練，轉換器Transformer則是人工神經網路的一種架構，可以接受一段文字做為輸入，將其轉換成一串數值向量，使得類似的概念，有相似的向量，再進而生成相同主題的文字。

繼2017年Transformer被提出來後，OpenAI公司基於Transformer的神經網路架構以及預測下個字的訓練方式，於2018年6月提出GPT模型。由於成效良好，OpenAI公司將模型加大，於2019年2月提出可以根據人工撰寫的前導文輸出完整文章的GPT-2，2020年5月提出更大型且可依照前導文指示完成多項任務的GPT-3。雖然GPT-3在語言理解與生成方面已屬不凡，但其生成的內容不見得非常符合使用者的意圖，OpenAI遂在2022年1月發表更能符合使用任務的InstructGPT（GPT-3.5）[5]，並於2022年11月底提出可跟使用者對話並依照指示生成回應的ChatGPT [6]，近期則在2023年3月發表除了接受文字指示外也能接受圖片做為輸入的GPT-4模型[7]。

GPT系列的模型越來越大，訓練資料也越來越多，接受的輸入資訊也越來越長。從一開始GPT只使用到數千萬個參數，GPT-2使用15億個參數，到GPT-3使用到1750億個參數，但OpenAI並沒有透露GPT-4的模型大小，推測應該不會比GPT-3更大（因為更大需要更久的推論和執行時間），但可能用更多資料訓練得更久（因為Meta AI的研究指出，較GPT-3小的模型用更多訓練資料、訓練更久，可以得到跟GPT-3類似甚至超越的成效[8]）。

因此，GPT-4的優勢，有幾項：

GPT-4可以接受更長的輸入，最長到32K（差不多53頁的文字），比GPT-3長16倍，亦即可以理解更長的文章，回應出更長的文字。
GPT-4的文字理解與生成能力更好，特別是在專業與學術領域，比GPT-3更強。例如，GPT-4在模擬的律師考試方面，其成績已達前10%的程度，而GPT-3僅能達到後10%的程度。
GPT-4除了可以接受文字的輸入外，也可以同時接受圖片做為輸入，理解後再以文字回應。而GPT-3僅能做到文字輸入與文字輸出。
更具可操縱性（steerability），亦即比前一代更易於有效的規範GPT-4回應的風格與定義GPT-4的任務。

GPT-4的限制跟其前一代一樣，仍舊會有無中生有、推理錯誤、各種偏見（如性別、種族、職業等偏見）、不理解訓練資料之後發生的事物（訓練資料只到2021年9月的網路資料）。因此，在高風險的任務上，使用仍須小心，必須盡力求證。儘管如此，GPT-4回應出事實的能力比其前一代高出40%。

2. 根據您的研究經驗，GPT-4解讀圖片且生成文本的能力，還可以從哪些方面精進呢？

雖然「看圖生文」的研究已經取得不錯的進展，但與大型語言模型如GPT-4的整合仍不多見，而且相關的評測資料較少、主題範圍尚未全面，再加上目前OpenAI釋出的訊息有限，因此難以完整判斷GPT-4解讀圖片後生成文本的能力。

3. 是否需要開發新的演算法，或是給予更多高品質的訓練資料？

編造非事實的回應，是這類大型語言模型難以根除的現況。

GPT系列的神經網路，包含GPT-3、GPT-4，其基礎模型是以自我監督的方式訓練出來的。亦即，只要蒐集品質良好的大量語料，不必進行任何的人工標記與判斷、不需用到文法規則，輸入語料中的每一個文本，如下圖一之輸入：「人之初，性本…」，並將該句子的下個字當作輸出目標，如：「之初，性本善…」，然後要求GPT進行生成預測。

圖一：輸入語料中的每一個文本，用句子的下個字當作輸出目標，要求GPT預測。

若相對應位置的字詞預測錯誤，就調整參數（以倒傳遞誤差的方式，按梯度下降法調整參數[9]）。

因此，究其內部，GPT這類模型只是上千億個小數點參數，在Transformer 神經網路架構下進行運算，就可以得出人類語言的文字順序，完全沒有用到文法規則，沒有用到符號化的知識庫或是資料庫。

觀察GPT的輸出，它已經能理解語言，甚至具備語感，錯字比人類低，對於讀過的豐富主題，講得頭頭是道，非常神奇。

GPT對文句「移花接木、再加潤飾」的能力超乎常人，但還是會生成錯誤的資訊。大家使用時，仍得謹慎。

純粹的GPT模型裡面，沒有用到任何符號式的知識或是人類寫的離散式的規則。語言文字的知識規則，已經被 GPT 轉化成大量數值計算的連續性規則。這種連續性的知識表達方式，可以非常便捷、有效的內差（interpolate）出各種知識的變化，甚至於外插（extrapolate）擴增GPT從未看過的知識。這種知識表達方式以及其運算的能力，是這一波AI大幅成功的主因之一。

GPT-3.5、GPT-4進一步用到人類導師的導引以及強化學習的方式加以訓練，用以抑制較差的輸出、獎勵較好的回應。但基本上，GPT-4仍有可能輸出無中生有、偏見、甚至錯誤的訊息。試想，我們可以要求ChatGPT、GPT-4依照我們的劇情指示，生成劇本。當這個劇情是天馬行空的想像，甚至要闡明什麼是偏見、謬誤、惡形惡狀時，ChatGPT可以生成這樣的劇情。也就是說，誤導、偏見的資訊並沒有從ChatGPT、GPT-4中刪除，只是被抑制，但仍然可能由某種提示被引導出來。

由上可知，編造文句是GPT的天性，此編造的文句非事實，是我們不要的，但在某些場景下是我們要的。

4. 有哪些研究可以降低GPT-4對社會的負面衝擊？

最近有些研究，某種程度上可以偵測AI生成的文句。例如文獻[10-11]微調了 RoBERTa的模型並釋出程式，其識別GPT-2模型生成的網頁時可達95% 的準確率。其他還有許多研究在協助偵測GPT生成的文字[12-15]，協助辨別是否有錯用AI文字而有欺騙、造假、不公平的情事，以降低這波AI帶來的社會衝擊。

註釋與參考資料：

【李怡志】

[1] Berlo, D. (1960). The process of communication: an introduction to theory and practice, Holt, Reinhart and Winston, New York.

【蔡炎龍】

[註1] ChatGPT 算了一個人一生中能讀多少字，而GPT-3模型看了4990億個字，依此計算得到一個人要花超過9,000輩子才能看完GPT-3看的字量。

圖片來源：蔡炎龍教授提供。

【曾元顯】

[1] Improving Language Understanding by Generative Pre-Training, https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

[2] Better language models and their implications, https://openai.com/research/better-language-models, February 14, 2019

[3] Language Models are Unsupervised Multitask Learners, https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[4] Language Models are Few-Shot Learners, https://arxiv.org/abs/2005.14165, 2020-05-28.

[5] Training language models to follow instructions with human feedback, https://arxiv.org/abs/2203.02155, 2022-03-04.

[6] Introducing ChatGPT, https://openai.com/blog/chatgpt, 2022-11-30.

[7] GPT-4, https://openai.com/research/gpt-4

[8] LLaMA: Open and Efficient Foundation Language Models, https://arxiv.org/abs/2302.13971, 2023-02-27.

[9] Rumelhart, D. E., & McClelland, J. L. (1986). Parallel Distributed Processing, Vol. 1: Foundations. Cambridge, MA: MIT Press.

[10] Jawahar, G., Abdul-Mageed, M., & Lakshmanan, L. V. S. (2020). Automatic Detection of Machine Generated Text: A Critical Survey (arXiv:2011.01314). arXiv. https://doi.org/10.48550/arXiv.2011.01314

[11] Solaiman, I., Brundage, M., Clark, J., Askell, A., Herbert-Voss, A., Wu, J., Radford, A., Krueger, G., Kim, J. W., Kreps, S., McCain, M., Newhouse, A., Blazakis, J., McGuffie, K., & Wang, J. (2019). Release Strategies and the Social Impacts of Language Models (arXiv:1908.09203). arXiv. https://doi.org/10.48550/arXiv.1908.09203

[12] ZeroGPT：https://www.zerogpt.com/。

[13] DetectGPT：https://detectgpt.ericmitchell.ai/。

[14] OpenAI 自己做的 AI文字偵測器：https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text。

[15] Data Portraits: Recording Foundation Model Training Data, https://arxiv.org/abs/2303.03919, 2023-03-06.

版權聲明

本文歡迎媒體轉載使用，惟需附上資料來源，請註明台灣科技媒體中心。
若有採訪需求或其他合作事宜，請聯絡我們：

曾雨涵

haharain331@rsprc.ntu.edu.tw
02-3366-3366#55925

Tags: AI ChatGPT GPT-4 OpenAI 人工智慧文字生成語言模型錯假訊息

科學成果

SMC 資料庫

專家怎麼說？

版權聲明

曾雨涵

SMC 資料庫