中AI大模型強在哪? 為何史丹福、麻省理工都想用?
中國國產大模型公司深度求索(DeepSeek)一個月內接連發布V3和R1兩款大模型,不僅物美價廉,性能與OpenAI相當,極大提升了模型推理能力,還允許用戶借此訓練其他模型,一夜之間成為美國多個頂尖大學和機構的首選模型,矽谷員工因此急得「火燒屁股」。AI大老評價稱,儘管美國透過限制來減緩中國發展,但由該公司成果來看,中國AI已追上美國。
澎湃新聞報導,以DeepSeek在1月20日發布推理大模型DeepSeek-R1來說,R1在數學、代碼、自然語言推理等任務上的性能比肩OpenAI o1模型正式版,並支持免費商用、任意修改和衍生開發等。在國外大模型排名榜Chatbot Arena排名已升至全類別大模型第三,與OpenAI的ChatGPT-4o最新版並列,在風格控制類模型(StyleCtrl)分類與OpenAI的o1模型並列第一。
更令市場驚訝的是,據DeepSeek介紹,R1的預訓練費用只有557.6萬美元,在2048塊輝達H800 GPU(針對中國市場的低配版GPU)集群上運行55天完成,僅是OpenAI GPT-4o模型訓練成本的不到十分之一。此外,DeepSeek不僅將R1訓練技術全部公開,還蒸餾了6個小模型向社區開源,允許用戶借此訓練其他模型。
DeepSeek-R1還憑藉其「物美價廉」的特性在海外開發者社區中引發了轟動。在API定價方面,DeepSeek R1服務對每百萬輸入token收取0.55美元,對每百萬輸出token收取2.19美元/百萬,而OpenAI最新版o1模型的相應收費分別為15美元/百萬和60美元/百萬。海外AI社區研究者Shubham Saboo表示,作為一款「100%開源」的模型,R1比OpenAI o1便宜96.4%,建議已經訂閱ChatGPT的開發者「放棄沉沒成本」。
矽谷知名投資機構A16z的合夥人、Mistral AI董事會成員Anjney Midha表示:「從史丹福到麻省理工,DeepSeek-R1幾乎在一夜之間成為美國頂尖大學研究人員的首選模型」。法國企業家、推特意見領袖阿諾德·貝特朗(Arnaud Bertrand)發文稱,Deepseek讓世界意識到中國在技術和創新方面已經趕上了美國,並且在某些領域甚至超過了美國,盡管有人努力阻止這種情況的發生。
1月23日,一名Meta員工在匿名職場論壇Teamblind上發帖稱,Meta內部已經因為DeepSeek-R1而火燒屁股。DeepSeek-R1的訓練成本不到550萬美元,而Meta的生成式AI部門裡「每位領導的薪資都超過了這個數字」。
諾貝爾物理獎得主、「AI教父」傑佛瑞·辛頓在1月21日在一次專訪中表示,儘管美國試圖通過限制(如英偉達晶片)來減緩中國的發展,但這只會促使中國加速發展自己的技術,「他們可能會落後幾年,但最終會趕上」。
贊助廣告
商品推薦
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言