陸DeepSeek走紅！開發者是「95後」天才少女 Meta組4團隊應對

2025-01-27 14:08 聯合報／記者陳言喬／即時報導

北京大學

矽谷

關閉

DeepSeek-V2的關鍵開發者之一羅福莉，被譽為AI天才少女，今年不到30歲。小米以年薪人民幣1千萬元挖角。（取自羅福莉公眾號）

大陸AI新創公司DeepSeek近來迅速走紅，令矽谷十分緊張。DeepSeek-V2的關鍵開發者之一是被稱為95後AI「天才少女」羅福莉。小米創始人雷軍以人民幣千萬元年薪招攬羅福莉，領導小米AI大模型團隊。

紅星資本局報導，2024年底，DeepSeek發布了新一代大語言模型DeepSeek-V3，同時宣布開源。1月20日，DeepSeek發佈新模型DeepSeek-R1並同步開源模型權重，再次引發全球AI科技圈關注。

DeepSeek昨天（26日）曾出現短時閃崩現象，DeepSeek回應稱，當天下午確實出現了局部服務波動，但問題在數分鐘內就得到了解決。此次事件可能是由於新模型發布後用戶訪問量激增，伺服器一時無法滿足大量用戶的併發需求。

紅星資本局指，在多項基準測試中，V3的成績超越了主流開源模型，並和世界頂尖的閉源模型不分伯仲。同時，由於其極低的訓練成本，DeepSeek-V3被稱為「AI界拼多多」。

公開資料顯示，DeepSeek來自杭州「深度求索人工智慧基礎技術研究有限公司」（下稱「深度求索公司」），專注於開發先進的大語言模型和相關技術，由大陸知名量化資管巨頭「幻方量化」於2023年7月創立，也因此獲得資本市場的廣泛關注。

而DeepSeek-V2的關鍵開發者之一羅福莉也迅速走紅，她被稱為95後（1995年以後出生）AI「天才少女」。羅福莉本科就讀於北京師範大學電腦專業，碩士畢業於北京大學計算語言學專業。

碩士畢業後，羅福莉先是進入阿里達摩院做人工智慧研究，從事預訓練語言模型相關的工作，負責阿里達摩院AliceMind開源專案，主導開發了多語言預訓練模型VECO。

2022年，羅福莉加入「幻方量化」從事深度學習相關策略建模和演算法研究，後又跳槽到DeepSeek擔任深度學習研究員，參與研發MoE大模型DeepSeek-V2。

就在DeepSeek-V3發布前幾天，小米創始人雷軍已開出千萬年薪招聘羅福莉，領導小米AI大模型團隊。

DeepSeek的爆火後，登頂蘋果中國和美國應用商店免費APP下載排行榜，超越了ChatGPT。

澎湃新聞報導，在國外大模型排名榜Chatbot Arena上，DeepSeek-R1的基準測試排名已經升至全類別大模型第3，與OpenAI的ChatGPT-4o最新版並列。不過，DeepSeek-R1的預訓練費用為557.6萬美元，不到OpenAI GPT-4o模型訓練成本的十分之一。

紅星資本局稱，DeepSeek公司的北京子公司正在招人，現共釋出52個崗位，包括深度學習研究員、核心系統研發工程師以及資深ui設計師等。其中，薪資最高的為核心系統研發工程師（校招），薪資範圍人民幣6至9萬元；大部分崗位的起薪在人民幣2萬元及以上。

DeepSeek以其研發的極低成本優勢，引起美國矽谷等AI公司的緊張。澎湃新聞27日引述Information網站報導，臉書母公司Meta已成立了4個專門研究小組來研究量化巨頭「幻方量化」旗下的國產大模型DeepSeek的工作原理，並基於此來改進旗下大模型Llama。

其中2個小組正在試圖了解「幻方量化」如何降低訓練和運行DeepSeek的成本；第3個研究小組則正在研究「幻方量化」可能使用了哪些資料來訓練其模型；第4個小組正在考慮基於DeepSeek模型屬性重構Meta模型的新技術。

據DeepSeek介紹，R1的預訓練費用只有557.6萬美元，在2048塊英偉達（輝達）H800 GPU（針對中國市場的低配版GPU）集群上運行55天完成，僅是OpenAI GPT-4o模型訓練成本的不到十分之一。一經推出，DeepSeek-R1便憑藉其物美價廉的特性在海外開發者社區中引發了轟動，更是憑藉極低的訓練成本震撼了矽谷。

數日前，有Meta的工程師們在匿名社交平台TeamBlind上吐露心聲，表示DeepSeek所研發的AI模型為其帶來了巨大壓力。

ChatGPT OpenAI 北京大學矽谷