在剛剛落幕的2025年全國中學(xué)生數(shù)學(xué)奧林匹克競賽(CMO)決賽中,除了涌現(xiàn)出一批數(shù)學(xué)天賦出眾的年輕選手,還有一個特殊的“考生”引人注目——AI大模型。
(資料圖片)
CMO是中國最高規(guī)格的數(shù)學(xué)奧林匹克競賽,今年,主辦方首次設(shè)立AI測試環(huán)節(jié),邀請大模型與人類同場答題,并交由相同的評委專家組閱卷打分。上海人工智能實驗室旗下的書生科學(xué)多模態(tài)大模型(Intern-S1-20251122)拿到102分。
據(jù)公開信息,今年CMO考生前三名得分分別為126(滿分)、110分、102分,Intern-S1取得的成績位列總分榜第三,在AI中排名第一。
本屆CMO共有700余名選手參賽,223人獲得金牌,前60名選手獲得清華北大保送資格并入選國家集訓(xùn)隊。AI目前雖未超越人類選手最高分,但其表現(xiàn)已遠超大多數(shù)參賽者,甚至超過了許多金牌得主,本次金牌線為78分。
“AI在奧賽中超越人類是未來一定會發(fā)生的事。”上海人工智能實驗室青年領(lǐng)軍科學(xué)家陳愷對第一財經(jīng)表示。他認為,正如AlphaGo最終戰(zhàn)勝世界圍棋冠軍,AI在數(shù)學(xué)競賽上的進步也是一個逐步發(fā)展的過程。現(xiàn)在AI已經(jīng)能拿奧賽金牌了,未來超過奧賽頂尖的人類選手也大有可能。
“數(shù)學(xué)是推理能力的代表性領(lǐng)域,也是目前很多大模型團隊重點投入優(yōu)化的方向之一,因此進展相對更快。”不過,陳愷強調(diào),奧賽只是數(shù)學(xué)里的一個任務(wù),因此AI在奧賽中超過人類,并不意味著AI在數(shù)學(xué)或更廣泛的能力上就能超過人。
“數(shù)學(xué)是個很寬泛深奧的領(lǐng)域,也有很多前沿的研究,在這方面AI還要更長的時間積累。”陳愷補充道。
中國人民大學(xué)附屬中學(xué)教師、奧數(shù)金牌教練張端陽也是AI訓(xùn)練的“顧問”,在接觸之初他對大模型的印象還停留在只能解答數(shù)學(xué)高考題的水平,大模型在CMO的表現(xiàn),也讓他驚訝于AI發(fā)展的速度之快,“就像 10 年前的圍棋一樣,突破可能就是一剎那。”
上海人工智能實驗室發(fā)布的文章提到,此次Intern-S1 推理能力的提升得益于“通專融合”技術(shù)架構(gòu) SAGE(中文含義為智者),創(chuàng)新點在于以數(shù)學(xué)引理為核心的多輪分層推理機制,以及基于結(jié)果的過程校驗?zāi)P停@著提升了模型在超長程思考和證明時的嚴謹,還有通用模型結(jié)合專業(yè)符號引擎,讓通用模型掌握像人類科學(xué)家一樣逐步推導(dǎo)、探索和修正的思路。
AI在數(shù)學(xué)和推理領(lǐng)域的突破意味著什么?陳愷認為,這對教育和科研領(lǐng)域的落地都會很有幫助,此外,數(shù)學(xué)能力也是復(fù)雜推理等各種能力的基礎(chǔ),因此這一能力的提升和演進能進一步幫助大模型提升智力水平。
讓大模型輔助教育學(xué)習是已經(jīng)在落地的方向之一,AI可以給出解答和思考過程。而AI在奧數(shù)能夠拿金牌、達到人類第三的水平,就意味著在高中數(shù)學(xué)或者K12教育領(lǐng)域,AI的輔導(dǎo)能力更強了。此外,在科研方面,陳愷提到,有一些數(shù)學(xué)家已經(jīng)在用大模型在其科研過程中幫助做一些定理證明、開闊思路。
對于這次Intern-S1的答卷,有閱卷專家認為,AI對第四題的解答是“一個新的解法,巧妙的調(diào)整法,在學(xué)生的解法中沒有見過”。這意味著AI能突破人類解題思路局限,通過自主探索和分析找到新的解題方法,這對賦能科學(xué)發(fā)現(xiàn)有很大的意義。
上海人工智能實驗室在官方發(fā)文中表示,計劃將 Intern-S1 的長程推理能力拓展應(yīng)用于物理、化學(xué)、生命科學(xué)等基礎(chǔ)科研領(lǐng)域,通過與專業(yè)工具的打通與融合,實現(xiàn)從“長時間獨立思考”向“長時間獨立科研”轉(zhuǎn)變,進而加速各領(lǐng)域科研范式的變革,為科學(xué)突破提供支撐。
(本文來自第一財經(jīng))