物理AI在2020年正式被提出,被認(rèn)為與數(shù)字世界平行。去年,英偉達(dá)CEO黃仁勛正式將它定義為AI發(fā)展的下一個(gè)重要方向,自此,整個(gè)行業(yè)掀起新一波物理AI的熱潮。在發(fā)展物理AI時(shí),業(yè)內(nèi)也希望打造一個(gè)類似ChatGPT的殺手級(jí)場景或者應(yīng)用。
物理AI的“ChatGPT時(shí)刻”何時(shí)能到來?判斷的理由是什么?目前仍存在哪些瓶頸?在近日舉行的2025外灘大會(huì)“AGI:數(shù)字與物理世界的共同進(jìn)化”論壇上,與會(huì)人士圍繞上述話題展開了探討。
極佳視界聯(lián)合創(chuàng)始人兼首席科學(xué)家朱政對(duì)物理AI的落地相對(duì)樂觀。他將物理AI的“ChatGPT時(shí)刻”定義為若干個(gè)任務(wù),當(dāng)機(jī)器人在100種或者200種常見家庭場景任務(wù)中,執(zhí)行成功率能到90%甚至95%以上,便標(biāo)志著物理AI的“ChatGPT時(shí)刻”來臨,屆時(shí)機(jī)器人有機(jī)會(huì)率先進(jìn)入一些家庭場景。
“從當(dāng)前的技術(shù)發(fā)展現(xiàn)狀來看,我認(rèn)為要實(shí)現(xiàn)上述目標(biāo)約需要2—3年時(shí)間。”朱政說。
智源研究院FLM團(tuán)隊(duì)負(fù)責(zé)人、“新一代人工智能”國家科技重大專項(xiàng)負(fù)責(zé)人王業(yè)全則通過對(duì)比ChatGPT的發(fā)展歷程,給出了更長期的預(yù)估。他指出,從GPT-1到GPT-2,再到GPT-3乃至ChatGPT,期間經(jīng)歷了多年的技術(shù)積累與迭代。目前,具身智能AGI發(fā)展水平大致處于潛在的GPT-1.6、1.7階段,按照線性時(shí)間估計(jì),在一兩年內(nèi)達(dá)到ChatGPT級(jí)別難度還是很大。王業(yè)全認(rèn)為,要觸及類似ChatGPT時(shí)刻,樂觀預(yù)估需要5年時(shí)間,若要達(dá)到較為完善的程度,可能接近10年時(shí)間。
盡管業(yè)內(nèi)人士對(duì)物理AI“ChatGPT時(shí)刻”到來的時(shí)間判斷不一,但都認(rèn)為,當(dāng)前物理AI的發(fā)展仍面臨諸多挑戰(zhàn),其中數(shù)據(jù)和建模問題尤為突出。
在朱政看來,物理AI最大的難點(diǎn)是數(shù)據(jù),與數(shù)字世界中語言模型能夠利用互聯(lián)網(wǎng)海量的文本、視頻、圖像等數(shù)據(jù)進(jìn)行訓(xùn)練不同,物理AI在數(shù)據(jù)采集上困難重重。無論是自動(dòng)駕駛還是具身智能,都需要頻繁與物理世界發(fā)生交互甚至改變物理世界的狀態(tài),這使得數(shù)據(jù)收集不僅難度大,而且周期長。
例如,在演示機(jī)器人疊衣服的操作場景時(shí),由于現(xiàn)實(shí)世界中衣服的紋理、顏色、款式種類繁多且不斷更新,相關(guān)數(shù)據(jù)根本無法完全采集。
朱政認(rèn)為,世界模型有望解決這一困境——通過生成式數(shù)據(jù)填補(bǔ)真實(shí)數(shù)據(jù)的不足,從而讓物理世界的數(shù)據(jù)在體量與泛化性上,達(dá)到與數(shù)字世界互聯(lián)網(wǎng)數(shù)據(jù)相媲美的效果。
王業(yè)全則認(rèn)為物理AI發(fā)展的最大難點(diǎn)在于建模方法,包括數(shù)據(jù)、訓(xùn)練流程等,目前尚未有明確的方向。他建議第一步可利用大規(guī)模自監(jiān)督數(shù)據(jù)、高質(zhì)量數(shù)據(jù)得到一個(gè)基礎(chǔ)模型,這需要耗費(fèi)大量資源,第二步通過對(duì)齊、強(qiáng)化等工作,將模型能力釋放到具身智能等相關(guān)物理世界相關(guān)場景中,“這條路線或許是可行的,但客觀來講難度依然很大,因?yàn)槲覀兡壳斑€未找到合適的建模方法與合理的數(shù)據(jù)組織形式”。