快訊

巴基斯坦控印度空襲重要軍事基地!宣布關閉領空「展開報復行動」

台積電(2330)淡定回應「新增國定假」 網酸:會靠夭的都是賺不到錢的

短延時強降雨來了 降雨熱區擴及整個西半部 影響至晚上

閱讀數學/聳立在AI面前的數學高牆(上)

示意圖/路透
示意圖/路透

去年底GPT-o3推出後,在許多評測上都有重大的突破。然而,或許是這一年多來AI的進展太快,大家都有些麻木。起先我們也沒特別關注,直到看見某個指標——FrontierMath 25%的問題被解決了!?​

等等,這可是其他大型語言模型只解出不到2%的超難題庫。當代最傑出的數學家之一,陶哲軒(Terence Tao)在2024年11月時還下了評論:​

「這些問題極具挑戰性……我認為它們至少在未來幾年內都會對人工智慧構成阻礙。」

然後,這個阻礙幾個月就被突破了嗎?

 ​

▍人類 vs. 語言模型,數學是最後堡壘?

在大型語言模型的測試中,數學常常被拿來提出來討論。某些人甚至認為它就像是進擊巨人裡的城牆一樣,是大語言模型無法攻克,人類展現智慧的最後淨土。這樣的想法主要是基於兩大原因:

 ​

➊ 數學需要高度的抽象思維和嚴密的邏輯推理能力。

➋ 最尖端的數學領域可供 AI學習的訓練數據非常有限。陶哲軒就曾指出,FrontierMath 中許多問題的相關訓練數據「幾乎不存在」。連帶導致模型缺乏相關的知識。

因此,數學對目前的語言模型來說是一個極具挑戰性的領域。GPT3剛公佈時就展現驚人的文字撰寫能力,但數學表現卻不如預期。後來陸續有人拿最新的模型去考試,數學也往往是進步最慢,考最差的一個科目。

不過,儘管如此,還是有越來越多的數學題目被語言模型攻克。人們又因此設計了更難的測試題庫,從最早中小學等級的GSM-8K,到奧數等級的Omni-Math,還有十一月才誕生的FrontierMath,這道迄今為止最高聳的數學之牆。

FrontierMath 收錄的數學問題範圍涵蓋數論、組合學、代數幾何、群論、拓撲學等多元領域。不僅有挑戰性的競賽題,還有直接來自當前數學家正在面對的研究問題。更重要的是,所有問題都是全新且未發表的。可以確保模型無法利用其訓練數據中的類似問題來獲得正確答案。

(未完待續)

推理 數感實驗室 語言 閱讀數學

相關新聞

寫作教室/「假設題型」重返會考?下筆前仔細審題 奪分關鍵曝光

隨著心測中心公布「預試題」〈癌末少女的選擇〉(後文簡稱〈癌〉),「假設題型」又久違的回歸到「會考/基測」的出題範圍裡。

科學人/洗澡、做夢都可以…那些科學史上的「靈光乍現」時刻

歷史上有許多突破性的點子是在出乎意料的時刻浮現,最著名的當屬阿基米德在浴盆泡澡時,突然想出如何檢測工匠製作的王冠是否純金,興奮跳出浴盆,光著身體邊跑邊叫:Eureka!(希臘語:我發現了)。不過阿基米

國際小學堂/AI用電激增 川普重推燃煤發電

美國總統川普四月八日簽署多項行政命令,希望擴大美國煤炭開採及燃煤發電,內容包括指示聯邦機構撤銷任何歧視產煤的管制、開放新...

時事新聞/「麻疹」來襲 別讓恐慌蔓延!

近期國內「麻疹」疫情寫下5年新高,臺灣中部某醫院於今年(2025年)1月發生麻疹群聚事件,包含越南入境的指標個案以及其造成的同班機旅客感染,…

閱讀數學/聳立在AI面前的數學高牆(下)

上週我們介紹了針對AI設計的數學題庫FrontierMath。許多數學家對FrontierMath 的評價非常高,包括了前面提到的陶哲軒。他就認為FrontierMath 中的題目「極具挑戰」…

時事新聞/從福島看見核污染的健康課題

近年來,隨著日本福島第一核電廠自2023年起開始排放核廢水,全球對核污染議題的關注迅速升溫。這不僅是一場環境危機,更是一場關乎健康的警訊…

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。