SMC 資料庫
議題背景:
DeepSeek是梁文鋒新創的中國人工智慧公司DeepSeek(深度求索)開發的大型語言模型,去(2024)年底橫空出世,雖然是新創公司且投入成本較低,卻能達到與ChatGPT相同甚至超越ChatGPT的效能,而引起廣泛的討論。DeepSeek也發布多個開源的模型,讓研究和開發人員能夠自由使用和研究這些模型。然而由於用戶資料儲存在中國伺服器,引發蒐集使用者數據的疑慮,陸續有國家宣布限制或禁止在政府部門的設備中使用DeepSeek,包含澳洲、義大利、台灣、韓國、日本等。
AI應用模型於全球遍地開花,台灣科技媒體中心邀請專家解析,我們應該如何看待新的AI模型、DeepSeek的資安疑慮,以及對台灣研發大型語言模型的影響。
其他國家的科學家怎麼說?
- 英國SMC邀請科學家提供意見:expert reaction to new AI Chatbot DeepSeek
- 澳洲禁止使用DeepSeek,澳洲SMC邀請科學家提供意見:EXPERT REACTION: Australian federal government bans Chinese AI DeepSeek on devices
專家怎麼說?
2025年02月09日
國立政治大學應用數學系教授兼教務長 蔡炎龍
Q1:為何DeepSeek掀資安疑慮?要怎麼看待被DeepSeek被禁止使用的事件?
世界各國禁止的是DeepSeek的app版或官網的版本,因為我們無法確定個資,包括使用者的基本資料,或是交談的內容,會被拿去做什麼用途。但DeepSeek 模型資料是開源的,可以完全下載到自己電腦執行,而且和網路上來路不名的軟體不同的是,下載只是模型的資料,並不會把你的資料、對話內容流出去。
但有些人還是會擔心「DeepSeek 只會回符合中共黨意文字,不會回應敏感問題。」,我個人反而不太擔心這件事,因為這是中國的產品可以預見的,DeepSeek本身可能有能力回答,但是被其他因素擋了下來。
我們真的該擔心的是,DeepSeek不一定刻意造成,但會自然出現的狀況。就是在中文的訓練中,雖然DeepSeek沒有公開訓練資料,但可以預期,比起繁體中文,簡體中文在DeepSeek的比例很可能比 ChatGPT、Llama 等模型還更高(原本這些模型簡體中文佔比就比繁體高很多了),這會造成即使不是刻意,也會把想法、價值觀等等,潛移默化影響了常常使用DeepSeek的人。
Q2:DeepSeek對於台灣大型語言模型的研究,最重要的啟示為何?
大型語言模型進入百家爭鳴時代,我建議使用者不用太在意模型的評測,或是效能測試,知道大型語言模型的原理,就知道不同的模型之間差距不會太大。而且各家都在進步,你支持的那個模型總有一天會達到現在最好模型的水準,一直要等「最好的」大型語言模型出來,那會永遠等下去。
許多人鼓吹應該要有更多台灣資料訓練出的大型語言模型,不一定是非要我們自己訓練,也可能是如日本,想辦法收集許多高品質日文的資料,授權給做大型語言模型的公司。這是重要的問題,但我覺得對使用者來說,一個AI模型的資料開源是不是最強、開發技術是不是最節省,都不是真的該擔心(或者說擔心也沒有什麼用)的事。使用者真的該關切的是,DeepSeek是不是個能協助我解決問題的好模型?如果有任何資安疑慮,DeepSeek展現的是,我們有機會以較低成本,用其他我們相信的模型,打造出符合我們需求的AI方案。
Q3:DeepSeek與我們聽過的ChatGPT相比,使用上有何特殊或優勢?
DeepSeek R1模型,是我覺得大多數使用者、大多數企業比較該注意的。其中特別的是R1著名的「思考」方式:我們送一個問題進去,R1不會直接生成回應,而是先生成「思考」,接著再依著思考回答使用者的問題。這種被稱為「思維鏈」(Chain-of-Thought, CoT)的方式,雖不是 DeepSeek 發明的,但 DeepSeek R1 很有趣的是把語言模型「內心的思考」過程,完完全全呈現出來。有不少人發現,這個思考過程,有時比真正的回應還有意思。
DeepSeek R1是通用型的模型,這和ChatGPT類似,並不是針對特定企業、特定應用設計,而是一般通用型應用。如果我們想在特定的公司,特定的目標(例如生成特定的報告),特別去做了許多調校,這種特定用途的模型,通常都會比「通才」型的通用模型做得更好。所以我們如果要發展有特定應用的語言模型,可以好好想想要怎麼引導AI產生最合適的思考,使用特別客製化的思考方式,非常有可能超越 DeepSeek R1 模型。
2025年02月10日
國立高雄科技大學電機工程系教授 戴鴻傑
Q1:DeepSeek的限制有哪些?對一般的使用者而言,為什麼會有資安和資料隱私等疑慮?研究和使用上,有沒有方法可以避免這些問題?
DeepSeek是由中國大陸團隊研發,計算力的資源相較大型科技公司較為不足,網頁版、App 或API服務的能力仍有限,網頁版經常會出現服務器繁忙、請稍候再試的回覆訊息,而API服務也面臨用者請求處理的速度太慢,甚至是服務中斷的問題。
另一方面,相較於台灣自行研發並採用大量台灣資料的TAIDE模型,DeepSeek的訓練資料來源並不明確,尚無法判定是否有地緣政治、文化差異與語言用法的偏頗性等疑慮,臺灣的一般使用者可能會難以完全信任或接受DeepSeek的回答。
在資安和資料隱私疑慮上,DeepSeek其實跟使用其它科技公司所研發的AI服務相同,因為使用者的資料會被傳送到DeepSeek的伺服器,應特別注意較敏感資料的使用。而在研究和使用上避免這種疑慮的方法之一就是採用DeepSeek提供的開放模型檔,於使用者自身的電腦或相關硬體設備上直接執行DeepSeek模型來提供服務,如此使用者就可以完全掌控自己的資料,並驗證是否符合自身研究和使用之需求。
Q2:DeepSeek對於台灣大型語言模型的研究,最重要的啟示為何?您認為實際上台灣可以怎麼做,發展台灣的大型語言模型?
從DeepSeek的崛起顯示AI研究團隊的成立、人才培育、算力資源投入以及開放的重要性。DeepSeek的團隊不僅有AI專家,還有擅長系統底層優化和高效能計算的工程師等,這種跨領域的合作是DeepSeek能持續性改善、研發和整合出新的突破性演算法與技術的關鍵。而根據我過往在開發智慧醫療場域的疾病分類與癌症登記 AI 輔助系統的經驗,明確制定研究目的並輔以高效率團隊的協作、因應落地環境開發客製化的技術以及具指標性的應用,更是所有AI 研究與應用能成功的重要因素。
另外,DeepSeek展示開放性技術細節和報告,輔以扎實、開放且可簡易應用的研究成果,代表即使大型語言基礎模型遍地開花,且部分大型科技公司壟斷技術與算力,透過明確的目標制定、整合、創新與資源的挹注仍然有機會開創新局,吸引全球頂尖跨域 AI 人才學習、應用進而持續對其技術與應用持續性的開發和改善。
在DeepSeek成功後,已有多個機構與團隊陸續展示比DeepSeek更開源的高效率、低成本的大語言模型訓練框架,雖然DeepSeek在相對算力侷限下的技術創新,讓全球研究人員已重新檢視降低模型開發和訓練成本的重要性和可能方向,然而對於台灣來說,除了基於更趨成熟的 AI 模型與訓練技術持續深化更在地的服務外,仍應在人才培育以及基礎建設上投入更多的關注。
臺灣已有多個計劃與學程推動AI人才培育,包括我曾參與協助的教育部TAICA學程、AICUP競賽計畫等,但是對於身處第一線的教育與研究人員來說,如何讓教學、研究或應用 AI 模型時所需的算力能更為普及,仍是在各層級推廣 AI 人才培育以及技術研發最需關注的痛點。期待未來,台灣能孕育出具全球影響力的 AI 團隊,為產業與學術界帶來突破性的發展,創造屬於台灣的「史普尼克時刻(Sputnik Moment)」。
Q3:DeepSeek與我們聽過的ChatGPT相比,使用上有何特殊或優勢?
DeepSeek目前包含了網頁版、App、呼叫遠端服務後會回傳結果的API服務,以及可離線在使用者本機端使用的模型檔。DeepSeek的網頁版和App與 OpenAI的ChatGPT對應的服務類似,皆提供使用者免費使用。
但是相較於 OpenAI僅在額外付費的網頁和App版中提供最先進模型(去年年底釋出的 GPT-o1)的服務結果,DeepSeek至少有兩個優勢,一個是直接免費提供最先進的模型服務,例如適合大部分任務使用的 DeepSeek-V3(類似OpenAI免費版的GPT-4系列),和有推理能力的 DeepSeek-R1(類似OpenAI付費版的GPT-o1系列)。
另一優勢是相較於GPT-o1,DeepSeek-R1目前在顯示最後的回應之前,會提供AI模型深度思考期間完整的推理過程,讓使用者能更充分了解模型解題的過程。
基於上述的模型,DeepSeek也提供需額外付費的 API 服務。根據 DeepSeek的技術報告[1][2][3],這些模型在數學解題以及中文理解上,表現得比現有的OpenAI模型更好,再加上模型架構設計的部分創新,讓DeepSeek比OpenAI的API服務更有優勢,原先OpenAI的API可理解和分析的自然語言文本與相關應用,DeepSeek也可能做到。
而DeepSeek跟OpenAI的GPT-3後版本的服務最大的差異,是免費提供與 OpenAI的效能接近,但可商用、無特定使用限制,且可在使用者本機離線使用的模型檔。再輔以多種規模較小的模型,讓使用者可以依據不同硬體規格下載模型並在自己的電腦上執行,無需連接網路或伺服器,但仍保留跟既有大模型相近的效能。
DeepSeek大幅度的降低了AI在無法連網或是需要資料隱密性時的特殊應用門檻,再加上DeepSeek的授權上允許可應用它們的模型來協助訓練其它AI模型,打破了大型科技公司的壟斷,讓AI技術的可取得性與公平性等更為普及,加速 AI 民主化的進程,讓一般人更有使用與運用AI的自主權。
2025年02月10日
國立臺灣師範大學圖書資訊所特聘教授 曾元顯
DeepSeek釋出多個大小不一的AI模型,有四個是過去的AI模型難有的優點:
一、 免費、開源、可以商業使用,而且模型優化良好、推論速度快,幾個較小的模型能夠在個人電腦、學校實驗室主機上執行,而且有比擬更大型模型的效果。
二、 資料可在自己的機器上跑,沒有洩漏給其他商業公司的風險。
三、 下載的模型檔可自行再持續訓練或微調訓練,讓模型的輸出能夠對齊自己的期待。
四、 其模型推理的過程完整呈現出來,讓使用者瞭解結果的由來,提升AI決策的可解釋性。
前三點,正是這兩、三年來大家都想要有自己的ChatGPT,卻求之不得的願望。第四點對使用者則是最創新之處,AI的回應不僅透明度高,也可大幅度的提升使用者的理解,甚至於從中學習到有效的思考脈絡。
臺灣在此次浪潮中,投入的算力、人力、與數據,顯然都不夠。算力受限於電力,可以考量租用國外如美國的算力,在時程上較能趕上。人力則應多培養基礎研究的工程、科學人員,給予足夠的誘因,在短時間內促進AI技術(模型訓練、模型優化等)方面的進步。數據則需要大刀闊斧的投資與募集臺灣的語言資料。也需要經費向出版社買書,例如,中國大型語言模型給出版社的版權費約為購買三年授權,每十萬字5000人民幣,歐美則是每十萬字5000美元,這是臺灣AI公司可以參考的價格。
因為書籍是精心組織知識、反覆編輯校正過的資料,而有極大量高品質的文件,才能訓練出優良的大型語言模型。向臺灣的出版社購買包含教育、文化、社會等與臺灣有關的書籍,約十萬本、百萬本書來訓練出臺灣的AI模型,這部份最容易花錢就做到,可提升AI模型對臺灣用詞習慣以及對臺灣價值觀的理解與運用。
版權聲明
本文歡迎媒體轉載使用,惟需附上資料來源,請註明台灣科技媒體中心。
若有採訪需求或其他合作事宜,請聯絡我們:
曾雨涵
02-3366-3366#55925