生活中心/台北報導
▲中研院緊急將CKIP-Llama-2-7b語言模型下架。(圖/記者林柏廷攝影)
我國最高學術機關「中央研究院」日前釋出了可商用的繁體中文語言模型CKIP-Llama-2-7b,不料卻遭網友抓包該語言模型採用中國的資料庫,若不針對問答內容特別限縮,該系統會回覆「國慶日是10月1日」、「根據中國憲法,台灣是中國的一部分」等中國本位的說法,引起各界熱烈討論。
根據「UniHub有你好棒」創辦人謝昆霖所述,CKIP-Llama-2-7b採用了兩個資料集進行訓練,分別是「COIG-PC資料集」和「dolly-15k資料集」,前者是以中國AI研究單位為首所編制的作品,後者則是以簡體中文為主的一般性知識問答對話資料集。
而CKIP-Llama-2-7b所經過的C-Eval中文模型評測,也是中國清大和中國交大所開發的評量系統。
換句話說,CKIP-Llama-2-7b的資料庫基本上來自於中國,因此若詢問「國慶日的時間」,會得到「10月1號」的回答;詢問「台灣是中國的一部分嗎」,則會得到「根據中國憲法,台灣是中國的一部分」的肯定答案。
不過提問內容若是限縮在「中華民國的國慶日時間」,系統也能正確無誤的回答「10月10日」,不會產生政治立場牴觸的問題。
也就是如此,若真的遵照中研院聲稱,將CKIP-Llama-2-7b用於學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等方面,並不多加審核內容的話,成品可能真的會「出大事」。
不論是用語還是問答內容,CKIP-Llama-2-7b皆以對岸的思維和習慣回應,只是將內容「簡體轉繁體」。
對此,中研院隨即將該語言模型下架,並強調該AI語言模型為個人的小型研究,因此各界的提問並不在原先的研究範疇,才會生成許多意料之外的內容。
中研院進一步指出,往後針對CKIP-LlaMa-2-7b及其他的相關研究成果會更加謹慎,在成果釋出前,院內也將會擬定審核機制。