建置台灣主權AI語料庫 數發部:第4季釋出首批資料

數位發展部今(15)日表示,正在建置「台灣主權AI訓練語料庫」,目標是訓練出具有「台灣語境、台灣文化脈絡」的AI模型,數發部已積極向各部會舉行說明會,並盤點現有政府資料,預計第4季釋出首批資料,未來資料庫上線後,將免費開放供各界申請使用。
數位發展部今天舉行預告「促進資料創新利用發展條例」草案記者會。該草案已在6月15日在公共政策網路參與平台預告,預告期至8月15日。數發部政務次長林宜敬今天說明草案內容,他表示,現在AI的發展非常迅速,而台灣一直希望能培養出具有「台灣觀點」、適用於本地需求的AI模型;要訓練這些模型,必須仰賴大量的資料,因此數位發展部正積極努力,設法釋出政府與民間擁有著作權的資料。
林宜敬認為,在政府資料方面,數發部也正透過修法,讓公務員在釋出政府擁有著作權的資料時更有信心,並確保在釋出的過程中,不會侵犯個資。
針對國際合作部分,林宜敬說,數發部鼓勵民間與國際對接,如歐洲資料共同空間,讓台灣資料釋出供全球AI團隊訓練,使全球AI模型能納入台灣觀點,同時也開放引進他國資料訓練台灣AI模型。
數位發展部多元資料創新司司長莊明芬提到推動這部法案的立法精神包括資料治理的重要性、促進資料共享和建構產業生態。她認為,數發部認為應建構一部宏觀、涵蓋性且依法有據的資料治理框架,為各界提供統一一致的規範,以發揮資料的最大效益。
她表示,未來也將成立「行政院資料創新利用諮詢會」,該諮詢會將有過半的民間代表,引進民間的智慧與力量,共同擬定計畫與制度,強調公私協作,避免閉門造車。
莊明芬說,目前政府開放資料平台已累積有5萬多筆資料,但大型語言模型(LLM)的訓練所需的是語意連貫、內容完整的文本型資料。但是經統計,在現有的政府開放資料中,屬於這種文本型的資料大約只有1000多筆。
莊明芬表示,所以目前各部會正在積極進行內部資料的盤點,規劃方向是政府機關先行,將政府擁有的著作權資料(如政府出版品)以「非專屬授權」方式,讓政府機關可以與民間合作,釋出高品質的正體中文語料,促進AI應用與發展。近期數位發展部還與包括客委會、教育部、原民會、文化部等單位聯繫,這些部會正在盤點現有的政府資料,並預計將其上架到系統中,希望持續累積語料量,未來逐步納入語料庫。
延伸閱讀
贊助廣告
商品推薦
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言