語言影響AI發展?陸學者:DeepSeek充分利用了中文優勢

近期大陸的深度求索DeepSeek大模型引發關注,通訊領域專家、復旦大學中國研究院特邀研究員汪濤日前分析,中文在人工智慧時代具有技術優勢。他認為,DeepSeek充分利用了中文優勢,所以在它爆火之後,很多人開始關注到這個問題。
汪濤與復旦大學中國研究院院長張維為11日在東方衛視「這就是中國」對談,汪濤發表演講提到,DeepSeek爆火,不是技術獲得突破性進展,而是其效率獲得了數量級的提升,在相同性能情況下,成本可以下降將近20多倍。
DeepSeek的團隊幾乎充份挖掘各種可能提升效率的技術,如採用底層編碼的語言PTX,採用降低精度、「蒸餾」等方法,極大減少參數數量,還有混合專家架構(MoE)、多頭潛在注意力技術(MLA)等。汪濤稱,這些技術不完全是DeepSeek獨創,但為什麼DeepSeek能充份利用這些技術?他認為DeepSeek充份利用了中文的優勢。
汪濤回顧,甲午戰爭失敗以後,很多知識階層反思自身,有認為漢字阻礙中國進入現代科技文明,或認為應改成拼音字母。到了電腦資訊時代,中文輸入存在一定困難,直到上世紀80年代「萬碼奔騰」,很大程度降低中文電腦輸入的困難。在大陸較著名的,有王永民發明的五筆字型輸入法,另一個常用的是拼音輸入法。
他認為,到了人工智慧時代,情況發生很大逆轉,中文在人工智慧存在技術優勢,主要跟中文的三個特質有關。首先,漢字在書寫大小、發音長短非常整齊規整。語音識別時,每個字都是聲母加韻母,相對容易區分出一句話中的每字發音。但英文單詞長度不一,很多英文句子發音連讀,需要更大的運算量,且幾乎所有的字母文字都存在這個問題。
其次,漢字是表意文字,資訊密度一般比字母文字要高,內涵豐富,可用詞組、成語、文言文等很少的漢字表達豐富含義。對人工智慧來說,絕大多數在相同內容情況下,中文訓練的儲存和計算量較少。但他也強調這並非完全絕對,因為英文也有自身優點,比如相對比較嚴謹,像在嚴謹的論文或法律文書,英文的資訊密度與中文差異就沒有那麼大。
第三點是中文的穩定性,汪濤指,今天使用的漢字與幾千年前的甲骨文其實挺接近;對新出現的事物,漢字是透過常用字去建立新的詞組,其穩定性讓人工智慧的訓練參數可以更少,有效的重覆訓練可以更多、準確性更高。 相比之下,英文每年都會增加大量的新詞,常用詞都可能會發生變化。
汪濤指,從不同技術時代,看待中文技術的優劣勢變化過程中,希望大家能更客觀、科學態度去看待自己的文化。所謂利弊或優劣,永遠是相對特定的要求來說的。不能因為遇到某種劣勢就簡單否定自己的文化,也不能遇到優勢就自我膨脹。
延伸閱讀
贊助廣告
商品推薦
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言