閱讀數學/聳立在AI面前的數學高牆(下)

上週我們介紹了針對AI設計的數學題庫FrontierMath。許多數學家對FrontierMath 的評價非常高,包括了前面提到的陶哲軒。他就認為FrontierMath 中的題目「極具挑戰」,即使是該領域的數學家,也需要花費大量的時間和精力才能解決這些問題。有趣的是,除了專家親自出馬,陶哲軒指出的另一條路就是人機協作:讓相關領域的研究生與AI 系統合作。他評估在某些問題上,與目前的 AI協作解題,會比數學家花上多5倍左右的時間成本。然而,很有可能在未來幾年內,就可以下降到差不多的速度。然後,進展得好像比陶哲軒想得更快。不用人機協作,GPT-o3獨立解完了25% FrontierMath題目了。
不過,雖然GPT-o展現出語言模型前所未有的數學解題能力。但這不代表數學之壁要被攻破了。首先,FrontierMath 的設計目標是評估 AI 模型,因此題庫多是有可自動驗證的問題,例如算出一組答案或可以用軟體驗證。然而,數學研究中很大一部分工作涉及到撰寫證明和開放探索,這些方面是FrontierMath 無法反應的。
其次,雖然現在的FrontierMath一題就算會耗掉專家好幾小時、好幾天的心力。但許多數學研究更是需要數月、甚至數年的持續探索。費馬定理就是一個最好的例子,數學家們世代接力,花了300年才證明。最後一棒的懷爾斯曾這麼訴說他的心境:
「或許,我能給出關於我研究數學的歷程最貼切的描述,就是進入一棟大房子。當一個人開始探索第一個全黑的房間時,裡頭一片漆黑,他會在家具中邊跌倒邊摸索。漸漸地知道家具的位置。六個月後,你會找到開關並且打開燈。開燈的那一瞬間,整個房間被光線壟罩,你終於,能清楚地看見你站在哪裡。」
數學研究與解FrontierMath難題,兩者在「深度」上還是有很大的差異。
贊助廣告
商品推薦
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言