號稱「家用顯卡都能跑AI」超越Sora的阿里萬相大模型開源

阿里雲旗下影片和圖像生成模型「通義萬相2.1」(Wan)開源,號稱「家用顯卡都能跑AI」,代表頂級前沿模型的開源浪潮,湧向由AI驅動的影片創作領域,也代表本周全球AI大混戰升溫。
權威評測榜單VBench顯示,萬相2.1以總分86.22%的成績大幅超越Sora、Luma、Pika等國內外模型,穩居榜首位置。
財聯社報導,美國Anthropic公司24日發布首個混合推理模型Claude 3.7 Sonnet。與此同時,DeepSeek也在持續開源5個代碼庫,趕忙上架「最強大模型」的xAI,將推出一系列應用層面的優化;美國科技巨頭亞馬遜也已經定檔26日,將給語音助手Alexa帶來「AI升級」。坊間也有傳言稱,OpenAI可能會在本周推出GPT-4.5。
根據通義介紹,此次開源的是2個版本的模型:14B版本適用於專業創作者迅速上手部署,而1.3B參數量的版本在家用顯卡,例如輝達4090上用單卡8.2G顯存,就能生成480P高品質影片。性能甚至能與某些5B參數量的閉源大模型相媲美。
受消息影響,阿里巴巴美股盤中異動拉升,帶動中概股集體走強。
分析認為,萬相2.1主動開源,而且是全部推理代碼和權重全部開源,代表影片生成模型賽道將更加活躍,競爭和反覆運算也會變得更加激烈;對消費者以及內容產業的從業者而言,生產力躍升的速度也會變得更快、成本和使用門檻將快速降低。
例如,OpenAI終於在去年底發布Sora產品,面向每月繳納20/200美元的訂閱用戶。同時由於算力不足,暫時沒有推出API(應用程式開發介面)的計畫;谷歌Veo 2模型則在近期披露定價,每生成1秒影片需要付費0.5美元(約 新台幣17元),相當於生成1個小時的影片,需要花費1800美元(約新台幣5.9萬元)。
萬相2.1的技術突破主要體現在2點,首先是能夠展現複雜穩定的人物肢體動作,以及精準還原碰撞、反彈等複雜物理場景。這決定了AI生成的影片是否有足夠真實性。
另一個巨大的優勢,是萬相2.1能夠直接透過提示,可以在影片中生成中英文字及特殊藝術效果。隨著這個模型的開源,中文AI應用市場又將迎來一波新玩法的升級。
通義萬相於2023年7月7日上線,去年9月19日的阿里雲棲大會上,發布通義萬相影片生成大模型。
延伸閱讀
贊助廣告
商品推薦
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言