當(dāng)?shù)貢r(shí)間2月17日晚,特斯拉首席執(zhí)行官埃隆·馬斯克(Elon Musk)發(fā)布了新一代人工智能模型Grok 3。
這一款被馬斯克稱為“好得可怕”的人工智能模型誓言對(duì)最前沿的AI研發(fā)發(fā)起挑戰(zhàn)。其團(tuán)隊(duì)聲稱,Grok 3的性能已經(jīng)優(yōu)于競(jìng)爭(zhēng)對(duì)手的尖端模型。
創(chuàng)造“最智能”的AI
Grok這個(gè)詞來(lái)自于羅伯特·海因萊因的小說(shuō)《異鄉(xiāng)的陌生人》,由在火星上長(zhǎng)大的人物所使用的,表示對(duì)某事有完整而深刻的理解,其中,同理心是這種理解的重要組成部分。
Grok 1于2023年初發(fā)布,是馬斯克旗下初創(chuàng)企業(yè)xAI推出的首款人工智能聊天機(jī)器人。2023年年中,xAI在Grok 1的基礎(chǔ)上推出了Grok 2。這一代模型在多個(gè)方面進(jìn)行了重大改進(jìn),然而,在眾多優(yōu)秀大模型層出不窮的2023年,Grok 2的問(wèn)世并沒(méi)有掀起太大水花。
去年4月,馬斯克就產(chǎn)生了創(chuàng)造“最智能”AI的想法。在他看來(lái),成功創(chuàng)造最好的人工智能的唯一途徑就是創(chuàng)建自己的數(shù)據(jù)中心。
xAI擁有一臺(tái)用于訓(xùn)練AI的“Colossus超級(jí)計(jì)算機(jī)”,這臺(tái)計(jì)算機(jī)在8個(gè)月內(nèi)就搭建完成,搭載了10萬(wàn)顆英偉達(dá)H100 GPU,提供了超過(guò)2億GPU小時(shí)的計(jì)算資源——是Grok 2的10倍。
此外,xAI與戴爾達(dá)成價(jià)值50億美元的協(xié)議,為Grok 3提供人工智能服務(wù)器。此次交易旨在滿足Grok 3和其他人工智能應(yīng)用不斷增長(zhǎng)的計(jì)算需求。
Grok 3不是一個(gè)模型,更確切地說(shuō),它是一個(gè)模型系列。Grok 3 mini是Grok 3的縮小版,可以更快地回答問(wèn)題,但代價(jià)是準(zhǔn)確性會(huì)有所損失。
Grok 3的初步訓(xùn)練大約一個(gè)月前完成,此后團(tuán)隊(duì)一直致力于將推理能力集成到當(dāng)前的Grok 3模型中。不過(guò)目前,該模型仍處于早期階段。已經(jīng)發(fā)布的只是Grok 3推理模型的一部分。與此同時(shí),開(kāi)發(fā)人員還在訓(xùn)練迷你版的論證模型。
多項(xiàng)評(píng)估高分
產(chǎn)品發(fā)布之前,馬斯克就在X個(gè)人主頁(yè)上發(fā)帖宣布,“Grok 3將成為地球上最聰明的AI”,并承諾,其性能將超越任何目前可用的其他人工智能產(chǎn)品。
Grok 3于線上發(fā)布時(shí),有超過(guò)10萬(wàn)人觀看了這一AI新玩家的上線演示。在Grok 3發(fā)布的問(wèn)答環(huán)節(jié)中,xAI還回答了觀眾關(guān)于最新AI模型的一些問(wèn)題,比如問(wèn)Grok是女孩還是男孩。
“Grok就是你想要他成為的任何人”,馬斯克回答道,“人們會(huì)愛(ài)上Grok,可能性是1000%!”
xAI聲稱,Grok 3在AIME(評(píng)估模型在數(shù)學(xué)問(wèn)題樣本上的表現(xiàn))和GPQA(測(cè)試博士級(jí)物理、生物和化學(xué)問(wèn)題的模型)等測(cè)試中優(yōu)于GPT-4o。xAI還稱,Grok 3的早期版本在Chatbot Arena中也獲得了高分。
而Grok 3的兩個(gè)變體,Grok 3 Reasoning和Grok 3 mini Reasoning,可以仔細(xì)地“思考”問(wèn)題,類似于OpenAI的o3-mini和中國(guó)公司DeepSeek的R1等“推理”模型。
推理模型在產(chǎn)生結(jié)果之前會(huì)仔細(xì)地進(jìn)行自我測(cè)試,這有助于它們避免模型通常面臨的一些陷阱。
xAI聲稱,Grok 3 Reasoning在多項(xiàng)流行測(cè)試中的表現(xiàn)優(yōu)于o3-mini的最佳版本(o3-mini high),包括新的AIME 2025數(shù)學(xué)測(cè)試。
xAI還現(xiàn)場(chǎng)演示了Grok 3的推理+編程能力,其中一個(gè)問(wèn)題是“生成3D動(dòng)畫代碼,演示從地球發(fā)射、著陸火星,然后在下一個(gè)發(fā)射窗口返回地球的過(guò)程”。
經(jīng)過(guò)近兩分鐘的思考,Grok 3生成了可以直接跑起來(lái)的python代碼,3D動(dòng)畫可以運(yùn)行,但是否正確還有待驗(yàn)證。
xAI還稱,Grok 3最具人文色彩的方面之一就是它的創(chuàng)造力。其開(kāi)發(fā)了一款新游戲的概念,該游戲巧妙地結(jié)合了俄羅斯方塊和Puyo Puyo的元素,展示了其在科學(xué)和技術(shù)之外的領(lǐng)域,如娛樂(lè)和藝術(shù)領(lǐng)域的潛力。根據(jù)馬斯克的說(shuō)法,Grok 3正在創(chuàng)造俄羅斯方塊和寶石迷陣的混合體。
Grok 3的最后一個(gè)新功能是代理/智能體(Agent)。發(fā)布會(huì)演示的是新產(chǎn)品DeepSearch,基于Grok 3的搜索引擎,它不僅可以搜索網(wǎng)頁(yè),查找現(xiàn)有資料,還可以“推測(cè)用戶的真正意圖”并加以思考,在經(jīng)過(guò)交叉對(duì)比不同信源后,確?!澳軌蚍答佌_的信息”。
未來(lái)發(fā)展計(jì)劃
目前,X上的Premium Plus訂戶將是第一批獲得Grok 3訪問(wèn)權(quán)限的群體。此外,如果想要搶先體驗(yàn)新功能,也可以通過(guò)Grok應(yīng)用程序和grok.com網(wǎng)站單獨(dú)訂閱Super Grok。
Super Grok還可以在新的DeepSearch搜索引擎中解鎖額外的注意事項(xiàng)及搜索查詢,并添加無(wú)限的圖像生成功能。
盡管Grok 3被馬斯克譽(yù)為“地球上最聰明的AI”,但它在早期測(cè)試中仍然暴露出一些局限性。
在正式發(fā)布之前,幾名X平臺(tái)用戶表示自己可以提前體驗(yàn)Grok 3。他們發(fā)現(xiàn),盡管該模型能夠正確回答一些困難的謎題,并生成HTML和JavaScript代碼,但是它在編寫代碼時(shí)仍然存在一些細(xì)節(jié)上的疏漏,出現(xiàn)了bug。
幾周后,Grok 3模型將與DeepSearch功能一起出現(xiàn)在xAI企業(yè)API中。馬斯克表示,幾個(gè)月后,xAI將開(kāi)源Grok 2。
“我們的總體做法是,當(dāng)下一個(gè)版本完全準(zhǔn)備好時(shí),我們將發(fā)布開(kāi)源的最新版本”,馬斯克說(shuō)。
他向用戶承諾一周內(nèi)會(huì)推出“更精美的版本”?!拔覀冞€在開(kāi)發(fā)語(yǔ)音交互功能,以便進(jìn)行對(duì)話。我今天嘗試了一下,效果很好,盡管還需要一些工作。我們的目標(biāo)是讓它可以像人一樣交談。我認(rèn)為這將是使用Grok 3的最佳體驗(yàn)之一”。
記者:袁源