快訊

巴基斯坦控印度空襲重要軍事基地！宣布關閉領空「展開報復行動」 08:54

台積電（2330）淡定回應「新增國定假」網酸：會靠夭的都是賺不到錢的 08:48

短延時強降雨來了降雨熱區擴及整個西半部影響至晚上 08:48

聽新聞

0:00 / 0:00

閱讀數學／聳立在AI面前的數學高牆（上）

2025-05-02 14:30 聯合新聞網／賴以威（數感實驗室）

閱讀數學

示意圖／路透

去年底GPT-o3推出後，在許多評測上都有重大的突破。然而，或許是這一年多來AI的進展太快，大家都有些麻木。起先我們也沒特別關注，直到看見某個指標——FrontierMath 25%的問題被解決了！？

等等，這可是其他大型語言模型只解出不到2%的超難題庫。當代最傑出的數學家之一，陶哲軒(Terence Tao)在2024年11月時還下了評論：

「這些問題極具挑戰性……我認為它們至少在未來幾年內都會對人工智慧構成阻礙。」

然後，這個阻礙幾個月就被突破了嗎？

　

▍人類 vs. 語言模型，數學是最後堡壘？

在大型語言模型的測試中，數學常常被拿來提出來討論。某些人甚至認為它就像是進擊巨人裡的城牆一樣，是大語言模型無法攻克，人類展現智慧的最後淨土。這樣的想法主要是基於兩大原因：

　

➊ 數學需要高度的抽象思維和嚴密的邏輯推理能力。
➋ 最尖端的數學領域可供 AI學習的訓練數據非常有限。陶哲軒就曾指出，FrontierMath 中許多問題的相關訓練數據「幾乎不存在」。連帶導致模型缺乏相關的知識。

因此，數學對目前的語言模型來說是一個極具挑戰性的領域。GPT3剛公佈時就展現驚人的文字撰寫能力，但數學表現卻不如預期。後來陸續有人拿最新的模型去考試，數學也往往是進步最慢，考最差的一個科目。

不過，儘管如此，還是有越來越多的數學題目被語言模型攻克。人們又因此設計了更難的測試題庫，從最早中小學等級的GSM-8K，到奧數等級的Omni-Math，還有十一月才誕生的FrontierMath，這道迄今為止最高聳的數學之牆。

FrontierMath 收錄的數學問題範圍涵蓋數論、組合學、代數幾何、群論、拓撲學等多元領域。不僅有挑戰性的競賽題，還有直接來自當前數學家正在面對的研究問題。更重要的是，所有問題都是全新且未發表的。可以確保模型無法利用其訓練數據中的類似問題來獲得正確答案。

（未完待續）

【文教熱話題】

▪ 整理包／114國中教育會考衝刺倒數！考試規定各科備考重點一把抓
 ▪ 「南京出生」申請國防醫遭取消資格師大附中生難接受：從未有陸籍
 ▪ 清大師出作業「宣傳大罷免」佔總成績30% 學生怒喊慎選：退到剩6人
 ▪ 教學風格大不同！陸生因老師1舉動受寵若驚陸網稱羨：在台念書好幸福
 ▪ 能考上第一志願全靠「天賦」？網看法兩極：上台大沒那麼難
 ▪ 擋不住聲浪！接連3起憾事後稱要回任行政板橋某國中校長提前離開

推理數感實驗室語言閱讀數學

賴以威（數感實驗室）

追蹤

相關新聞

寫作教室／「假設題型」重返會考？下筆前仔細審題奪分關鍵曝光

隨著心測中心公布「預試題」〈癌末少女的選擇〉（後文簡稱〈癌〉），「假設題型」又久違的回歸到「會考／基測」的出題範圍裡。

2025-05-04 10:30

科學人／洗澡、做夢都可以…那些科學史上的「靈光乍現」時刻

歷史上有許多突破性的點子是在出乎意料的時刻浮現，最著名的當屬阿基米德在浴盆泡澡時，突然想出如何檢測工匠製作的王冠是否純金，興奮跳出浴盆，光著身體邊跑邊叫：Eureka!（希臘語：我發現了）。不過阿基米

2025-05-06 14:14

國際小學堂／AI用電激增川普重推燃煤發電

美國總統川普四月八日簽署多項行政命令，希望擴大美國煤炭開採及燃煤發電，內容包括指示聯邦機構撤銷任何歧視產煤的管制、開放新...

2025-05-06 01:40

時事新聞／「麻疹」來襲別讓恐慌蔓延！

近期國內「麻疹」疫情寫下5年新高，臺灣中部某醫院於今年(2025年)1月發生麻疹群聚事件，包含越南入境的指標個案以及其造成的同班機旅客感染，…

2025-05-09 14:30

閱讀數學／聳立在AI面前的數學高牆（下）

上週我們介紹了針對AI設計的數學題庫FrontierMath。許多數學家對FrontierMath 的評價非常高，包括了前面提到的陶哲軒。他就認為FrontierMath 中的題目「極具挑戰」…

2025-05-09 14:30

時事新聞／從福島看見核污染的健康課題

近年來，隨著日本福島第一核電廠自2023年起開始排放核廢水，全球對核污染議題的關注迅速升溫。這不僅是一場環境危機，更是一場關乎健康的警訊…

2025-05-08 14:30

商品推薦

FB留言

udn討論區

共 0 則留言

規範

發布

張貼文章或下標籤，不得有違法或侵害他人權益之言論，違者應自負法律責任。
對於明知不實或過度情緒謾罵之言論，經網友檢舉或本網站發現，聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者，請勿張貼文章。
對於無意義、與本文無關、明知不實、謾罵之標籤，聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者，請勿下標籤。
凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利，聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者，請勿張貼文章。