閱讀數學/聳立在AI面前的數學高牆(上)

去年底GPT-o3推出後,在許多評測上都有重大的突破。然而,或許是這一年多來AI的進展太快,大家都有些麻木。起先我們也沒特別關注,直到看見某個指標——FrontierMath 25%的問題被解決了!?
等等,這可是其他大型語言模型只解出不到2%的超難題庫。當代最傑出的數學家之一,陶哲軒(Terence Tao)在2024年11月時還下了評論:
「這些問題極具挑戰性……我認為它們至少在未來幾年內都會對人工智慧構成阻礙。」
然後,這個阻礙幾個月就被突破了嗎?
▍人類 vs. 語言模型,數學是最後堡壘?
在大型語言模型的測試中,數學常常被拿來提出來討論。某些人甚至認為它就像是進擊巨人裡的城牆一樣,是大語言模型無法攻克,人類展現智慧的最後淨土。這樣的想法主要是基於兩大原因:
➊ 數學需要高度的抽象思維和嚴密的邏輯推理能力。➋ 最尖端的數學領域可供 AI學習的訓練數據非常有限。陶哲軒就曾指出,FrontierMath 中許多問題的相關訓練數據「幾乎不存在」。連帶導致模型缺乏相關的知識。
因此,數學對目前的語言模型來說是一個極具挑戰性的領域。GPT3剛公佈時就展現驚人的文字撰寫能力,但數學表現卻不如預期。後來陸續有人拿最新的模型去考試,數學也往往是進步最慢,考最差的一個科目。
不過,儘管如此,還是有越來越多的數學題目被語言模型攻克。人們又因此設計了更難的測試題庫,從最早中小學等級的GSM-8K,到奧數等級的Omni-Math,還有十一月才誕生的FrontierMath,這道迄今為止最高聳的數學之牆。
FrontierMath 收錄的數學問題範圍涵蓋數論、組合學、代數幾何、群論、拓撲學等多元領域。不僅有挑戰性的競賽題,還有直接來自當前數學家正在面對的研究問題。更重要的是,所有問題都是全新且未發表的。可以確保模型無法利用其訓練數據中的類似問題來獲得正確答案。
(未完待續)
贊助廣告
商品推薦
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言