9月18日消息,谷歌DeepMind和OpenAI的人工智能模型在素有“編程界奧運(yùn)會(huì)”之稱的比賽中展現(xiàn)出了“金牌級(jí)”的表現(xiàn),標(biāo)志著人工智能技術(shù)的發(fā)展迎來了一個(gè)重要里程碑。
今年9月初,在國(guó)際大學(xué)生程序設(shè)計(jì)競(jìng)賽(ICPC)全球總決賽上,這些人工智能模型在與全球頂尖人類選手的比拼中取得了上述優(yōu)異成績(jī)。
該項(xiàng)賽事被公認(rèn)為全球最負(fù)盛名的編程競(jìng)賽。谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林(Sergey Brin)和OpenAI首席科學(xué)家雅各布·帕喬基(Jakub Pachocki)等知名人士都曾參加過這項(xiàng)賽事。
盡管OpenAI和DeepMind都并非正式參賽者,但OpenAI于周三表示,其人工智能模型的成績(jī)本可以在比賽中拔得頭籌。據(jù)稱,公司最新的GPT-5模型解出了全部12道難題,其中11道是一次性通過的。
由英國(guó)諾貝爾獎(jiǎng)得主丹米斯·哈薩比斯爵士(Sir Demis Hassabis)領(lǐng)導(dǎo)、總部位于倫敦的DeepMind實(shí)驗(yàn)室則表示,其人工智能推理模型Gemini 2.5 Deep Think的總體表現(xiàn)可以在競(jìng)賽中位列第二。據(jù)悉,該模型解出了12道難題中的10道,還破解了一道所有人類選手都未能完成的難題。
在軟件工程師越來越依賴新一代人工智能模型輔助編程的大背景下,這一突破應(yīng)運(yùn)而生。
DeepMind的技術(shù)已在多項(xiàng)頂級(jí)賽事中戰(zhàn)勝人類,比如擊敗世界頂尖圍棋選手以及在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中摘金。今年夏天,OpenAI同樣在國(guó)際數(shù)學(xué)奧賽中奪得金牌。
谷歌DeepMind副總裁、谷歌會(huì)士(Google Fellow)黎曰國(guó)表示:“這是邁向通用人工智能(AGI)的歷史性時(shí)刻?!彼傅耐ㄓ萌斯ぶ悄苁浅饺祟惸芰Φ南到y(tǒng),數(shù)十年來,人工智能研究人員一直在追求這一重大目標(biāo)。
加州大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系主任杰拉尼·尼爾森(Jelani Nelson)評(píng)價(jià)道:“一個(gè)純?nèi)斯ぶ悄芟到y(tǒng)在沒有人類介入的情況下能取得如此成績(jī),令人驚嘆?!蹦釥柹笇?dǎo)過麻省理工學(xué)院、哈佛大學(xué)和加州大學(xué)伯克利分校的多支ICPC參賽隊(duì)。他補(bǔ)充說,“如果幾年前有人告訴我,新技術(shù)能在數(shù)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域達(dá)到如此水平,我絕不會(huì)相信?!?/p>
在這場(chǎng)編程競(jìng)賽中,三人小組需在5小時(shí)內(nèi)共用一臺(tái)電腦解決12道高難度編程題,排名依據(jù)解題速度、準(zhǔn)確性和數(shù)量綜合評(píng)定。本屆競(jìng)賽中,人類選手最多解出10道題,139支參賽隊(duì)伍中僅有4支獲得金牌。
要解決這些問題,參賽者必須理解復(fù)雜的問題,制定邏輯清晰的解題計(jì)劃,并確保執(zhí)行過程零失誤。解答這種高難度問題還離不開抽象推理能力和創(chuàng)造力。
人工智能相比人類有一個(gè)關(guān)鍵優(yōu)勢(shì):無需團(tuán)隊(duì)協(xié)作。
牛津大學(xué)計(jì)算機(jī)科學(xué)副教授、ICPC教練巴爾泰克·克林(Bartek Klin)說:“我指導(dǎo)隊(duì)伍時(shí),默認(rèn)他們已經(jīng)懂得如何解題……我能給的建議只是如何在高壓環(huán)境下協(xié)同合作?!?/p>
DeepMind團(tuán)隊(duì)使用了“強(qiáng)化學(xué)習(xí)”技術(shù),即通過獎(jiǎng)勵(lì)期望結(jié)果來訓(xùn)練人工智能系統(tǒng),并用高難度的數(shù)學(xué)、推理和編程問題對(duì)Gemini模型開展了強(qiáng)化訓(xùn)練。
OpenAI則使用其最新的GPT-5模型解決了所有問題,其中最難的一道題是GPT-5和一個(gè)實(shí)驗(yàn)性推理模型共同破解的。
谷歌DeepMind研究總監(jiān)兼首席科學(xué)家鄭恒之(Heng-Tze Cheng)表示,編程競(jìng)賽是“終極思維博弈”,因?yàn)樗竽P吞岢鲂路椒úW(xué)習(xí)成果泛化,而非簡(jiǎn)單地記憶解題方法。
但牛津大學(xué)的克林認(rèn)為,在注重速度的編程競(jìng)賽環(huán)境中取得成功,未必能轉(zhuǎn)化為實(shí)際工作中出色的軟件開發(fā)能力。他說:“在現(xiàn)實(shí)世界里,最棘手的問題往往需要花上半年時(shí)間去思考。”
雖然Gemini模型解出一道人類選手未能攻克的難題,但也未能解答出所有人類選手完成的題目。DeepMind表示,此次實(shí)驗(yàn)表明人工智能模型可以“提供獨(dú)特新穎的貢獻(xiàn),與人類專家的技能知識(shí)形成互補(bǔ)”。
黎曰國(guó)表示,這一進(jìn)步還有望改變需要數(shù)學(xué)理解和編程能力的諸多科學(xué)與工程學(xué)科,例如新藥研發(fā)和計(jì)算機(jī)芯片設(shè)計(jì)等。
他說,“解決數(shù)學(xué)和編程競(jìng)賽中的難題是理解人類智能運(yùn)作方式的關(guān)鍵一步。”
外界評(píng)論:是歷史性突破還是言過其實(shí)?
英國(guó)《衛(wèi)報(bào)》撰文稱,谷歌DeepMind宣稱取得的這項(xiàng)“歷史性”人工智能突破,其意義堪比1997年“深藍(lán)”計(jì)算機(jī)擊敗國(guó)際象棋大師加里·卡斯帕羅夫(Garry Kasparov),以及2016年人工智能戰(zhàn)勝人類圍棋冠軍的里程碑事件。
文章援引黎曰國(guó)的話說,“對(duì)我而言,這個(gè)時(shí)刻等同于國(guó)際象棋領(lǐng)域的‘深藍(lán)’和圍棋領(lǐng)域的AlphaGo時(shí)刻,甚至意義更為重大,因?yàn)樗咏诮鉀Q現(xiàn)實(shí)世界的問題,而不僅限于國(guó)際象棋和圍棋這類受限環(huán)境?!?/p>
但也有聲音給這種說法降溫。加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)教授斯圖爾特·羅素(Stuart Russell)評(píng)論稱,“所謂劃時(shí)代意義的說法似乎有些夸大其詞”。他指出人工智能系統(tǒng)在編程任務(wù)方面本就表現(xiàn)出色,而當(dāng)年“深藍(lán)”在國(guó)際象棋上的突破“對(duì)應(yīng)用人工智能的現(xiàn)實(shí)世界基本沒有產(chǎn)生實(shí)際影響”。
不過羅素也承認(rèn),“要想答對(duì)ICPC的題目,代碼必須能正確運(yùn)行(至少要通過有限的測(cè)試用例),所以這次的表現(xiàn)可能標(biāo)志著人工智能編程系統(tǒng)在生成高質(zhì)量代碼的準(zhǔn)確性上有所提高?!?/p>
羅素提醒道:“人工智能公司持續(xù)宣稱取得突破的壓力巨大?!?/p>
牛津大學(xué)人工智能基礎(chǔ)學(xué)Ashall教授邁克爾·伍爾德里奇(Michael Wooldridge)認(rèn)為,這聽起來確實(shí)令人振奮,但對(duì)其所需計(jì)算資源提出了質(zhì)疑。谷歌拒絕透露具體數(shù)據(jù),只是簡(jiǎn)單提到其解題所用算力超過了普通用戶每月250美元訂閱谷歌AI Ultra服務(wù)、在Gemini應(yīng)用中所能使用的輕量版Gemini 2.5 Deep Think模型。
ICPC執(zhí)行主任比爾·鮑徹博士(Dr. Bill Poucher)則這樣總結(jié):“Gemini成功進(jìn)入這一競(jìng)技場(chǎng)并取得金牌級(jí)成績(jī),標(biāo)志著在定義下一代所需的人工智能工具和學(xué)術(shù)標(biāo)準(zhǔn)方面,我們迎來了關(guān)鍵時(shí)刻?!?/p>
來源: 網(wǎng)易科技報(bào)道
