“沒有藝術,全是物理!物理讓你快樂,不是嗎?”
近日,在世界計算機圖形會議 SIGGRAPH2023上,英偉達創(chuàng)始人、CEO 黃仁勛宣布,將生成式AI與仿真模擬平臺Omniverse結合的時候,如同他宣布“AIGC是iPhone時刻”一樣興奮。
不同于大語言模型只能應用在圖文,有了基于物理規(guī)律的仿真模擬平臺,生成式AI就可以直接用到現(xiàn)實世界。
(資料圖片僅供參考)
除了黃仁勛,美國斯坦福大學李飛飛團隊,近期也將大模型接入機器人,不僅使得機器人能夠與環(huán)境有效交互,還能夠在無需額外數(shù)據(jù)和訓練的情況下完成各種任務。
“基于物理世界模擬的生成式AI,是生成式AI2.0”,跨維智能創(chuàng)始人、華南理工大學教授賈奎對光錐智能表示,與具身智能的結合,生成式AI 將發(fā)揮出更確定性的作用。
而隨著通用能力的增強,AI也有望打破商業(yè)化的“魔咒”。
當生成式AI學會物理
將生成式AI與物理世界結合,并不容易,這里面涉及的技術鏈條非常長。
首先,需要對物理世界基本規(guī)律的掌握,才能將真實世界建模到仿真模擬平臺。
仿真模擬平臺,不僅可以仿真物理場景,還可以模擬真實世界中物體之間相互作用、運動和變形。
而生成式AI的加入,會讓仿真模擬平臺擁有“預演”能力。
“人類從小就知道的物理常識,AI卻不知道?!秉S仁勛表示,“生成式AI和仿真模擬平臺結合,就是要讓AI的未來能夠在物理上扎根。”
黃仁勛進一步解釋,讓AI在虛擬世界中學習如何感知環(huán)境,并通過強化學習來理解物理行為的影響和后果,讓AI實現(xiàn)特定目標。
這就需要用生成式 AI,預測物理世界中的千萬種、甚至上億種可能性,形成有價值的合成數(shù)據(jù)。
比如機械臂需要通過3D視覺的“眼睛”才能精準抓取,但如何排除環(huán)境變化的干擾,認出待抓取的物體(比如工廠里的零部件)?
通過仿真模擬平臺掌握了“光線對場景目標的反射、折射影響”等物理規(guī)律,生成式 AI就能預測模擬出一個瓶子,在不同場景光照下,周身不同的反光程度;同一光照下,金屬、塑料、木制品等不同材質物體表面呈現(xiàn)的狀態(tài);一堆釘子,所有可能出現(xiàn)的散落狀態(tài)……
再次,需要將所有數(shù)據(jù),都在仿真php模擬平臺中用AI都跑一遍。
這一步,就是在訓練3D視覺大模型。區(qū)別于大語言模型,3D視覺大模型對于理解和推理視覺場景的組成特性至關重要,需要處理對象之間的復雜關系、位置、以及現(xiàn)實環(huán)境中的變化等。
最后,再連接上機械臂等具身智能的硬件,才能讓其學會智能化操作。
可以看到,生成式AI與物理世界結合的整個技術鏈條,不僅涉及物理學、圖形學、計算機視覺、機器人多學科交叉,還包括數(shù)字孿生、幾何深度學習、運動學解算、混合智能、智能硬件等多維前沿技術。
相應的,整個產業(yè)的鏈條也比較復雜,需要從數(shù)據(jù)到模型,再從模型到部署。
在這些環(huán)節(jié)中,有一個節(jié)點和此前AI的路徑非常不同,那就是“合成數(shù)據(jù)生成”。
用基于物理規(guī)律的生成式AI合成的數(shù)據(jù),去訓練大模型,將給實體產業(yè)帶來跨越式的革命。
不用一張真實圖片,
訓練3D視覺大模型
為什么不直接用真實數(shù)據(jù)訓練大模型?
目前,行業(yè)內多數(shù)基于3D視覺的機械臂,其控制系統(tǒng)的算法訓練所使用的就是真實數(shù)據(jù)。因為商業(yè)隱私等問題,這些真實數(shù)據(jù)很難在通用數(shù)據(jù)中獲取,基本都是企業(yè)自行采集。
然而,自采真實數(shù)據(jù),首先在“效率和成本”這兩個運營的關鍵指標上,性價比就非常低。
這是因為,終端應用場景碎片化,數(shù)據(jù)根本不能通用。采集真實數(shù)據(jù),企業(yè)就需要一個一個行業(yè),一個一個工廠,一個一個場景的“地毯式”采集。而且,采集回來的數(shù)據(jù)也不能直接用,還需要進行一系列處理。
這個過程中,甚編程客棧至產生了“人工智能悖論”。
“采集真實數(shù)據(jù),AI技術的成本構成中,半數(shù)以上都是數(shù)據(jù)成本,而對數(shù)據(jù)的采集、清洗、標注、增強等處理過程,往往是大量人力堆積php的結果?!庇蟹治鋈耸烤驮赋?,人工智能的本質是代替人工的智能?!爸S刺的是,這樣的AI具備顯著的勞動密集型產業(yè)特征?!?/p>
如果用合成數(shù)據(jù)呢?
“用五六年、上千個案例積累的真實數(shù)據(jù),通過合成數(shù)據(jù),幾天幾周就能完成?!辟Z奎告訴光錐智能,相比于人工采集與標注數(shù)據(jù),合成數(shù)據(jù)的成本能夠實現(xiàn)幾個數(shù)量級的降低。
最關鍵的還是,在訓練效果上,合成數(shù)據(jù)能夠更優(yōu)于真實數(shù)據(jù)。
由于本身就是基于物理規(guī)律合成,合成數(shù)據(jù)天生自帶絕對精確的標注,這就意味著,AI學習起來效率非常高。
另外,合成數(shù)據(jù)的“全面性”是真實數(shù)據(jù)難以比擬的?!吧墒紸I2.0可以創(chuàng)造無數(shù)個世界,而且可以讓這個世界快速演進?!辟Z奎表示。
而落地到3D視覺行業(yè),機械臂就猶如有了“上帝之手”,可以掌控一切過去未來。
“當然,這不能是物理世界的規(guī)律之外的?!辟Z奎強調。
“目前,我們不使用一張真實圖片,就可以完成機械臂復雜場景作業(yè)的3D視覺模型訓練。”賈奎告訴光錐智能,完全使用合成數(shù)據(jù)訓練的模型引導機械臂的柔性操作,可以實現(xiàn)現(xiàn)場99.9%以上的穩(wěn)定抓取。
也正是因為此,合成數(shù)據(jù),被稱為大模型的“數(shù)據(jù)永動機”。
當前,除了3D視覺領域,許多領域也都因通用數(shù)據(jù)缺乏和噪點多等問題,開始嘗試使用合成數(shù)據(jù)。但也有對合成數(shù)據(jù)抱有強烈質疑的觀點,稱如果沒有經過精心調試,在訓練時大量使用,會引發(fā)模型崩潰,造成不可逆的缺陷。
從技術演進的角度,合成數(shù)據(jù)不會是大模型的唯一解。
但賈奎指出,“沒有找到更好的編程客棧辦法之前,合成數(shù)據(jù)就是目前能夠解決實際問題的最好辦法。如果還采用人力堆砌的真實數(shù)據(jù),在包括3D視覺在內的很多領域,AGI(通用人工智能)永遠不可能實現(xiàn)。”
打破AI的商業(yè)化“魔咒”
在機器視覺領域,對合成數(shù)據(jù)的需求更加旺盛,生成式AI2.0能夠釋放的價值也就會更大。
作為機器視覺非常重要的感知手段,3D視覺對于合成數(shù)據(jù)的需求就十分迫切。
“在一堆相似的零件里‘找不同’,物體換一個材質、顏色,都需要去調整參數(shù)。”一位3D視覺從業(yè)人士表示,不同領域的需求不同,使得落地場景過于碎片化,只能做完一個項目再重新定制另一個項目。
這就意味著,企業(yè)很難通過著力解決一個或幾個項目需求,就能形成標準化產品。也就無法進而通過快速復制,打入并拓展市場,追求利潤規(guī)模。
邊際成本難以降低,會將一家技術公司,變成項目公司,最終拖垮。
“魔鬼”藏在細節(jié)中。
傳統(tǒng)3D視覺感知有多脆弱?賈奎向光錐智能描述,“機械臂在抓取過程中,如果有人路過產生光線變化,任務就可能失敗?!?/p>
這是由硬件3D相機的成像原理造成的,3D相機成像容易受環(huán)境、物體形狀、材質、顏色、散射介質等影響,而且這一問題短時間內難以解決。
“解決一個問題可能是一百步,但最后一步付出的努力可能跟前面99步加起來是一樣的。”商湯科技聯(lián)合創(chuàng)始人楊帆曾表示,企業(yè)大部分的精力都需要用來應對小部分長尾問題。
但現(xiàn)在,“通用性能力很強的生成式AI2.0,能夠解決長尾問題,對于產品標準化至關重要?!辟Z奎表示。
相較于行業(yè)傳統(tǒng)定制化開發(fā)的模式,企業(yè)基于生成式AI2.0,就可以利用通用大模型,實現(xiàn)產品模塊化開發(fā),做到開箱即用地部署,進而實現(xiàn)同行業(yè)直接拓展,不同行業(yè)也能有效復用。3D視覺行業(yè)的商業(yè)化難題也就迎刃而解。
與此同時,數(shù)據(jù)、開發(fā)、部署、硬件、行業(yè)拓展,每一個環(huán)節(jié)的成本也都實現(xiàn)驟降。
而在生成式AI2.0的催化下,3D視覺一旦爆發(fā),也就意味著,在機械臂、機器人、無人駕駛、元宇宙等等高度依賴3D視覺技術的垂直場景,都將加速吃到AI的紅利。
不少數(shù)據(jù)已經印證了這一點,像數(shù)據(jù)標注、合成數(shù)據(jù)、工業(yè)機器人、機器視覺等領域,全球市場規(guī)模都在高速增長,尤其是合成數(shù)據(jù)的年復合增長率甚至都超過了30%。
這背后,實際上是生成式AI2.0的戰(zhàn)略價值,已經受到了科技和眾多制造業(yè)巨頭的高度重視。
從西門子、福特等老牌制造企業(yè),到英偉達、特斯拉、谷歌等一眾科技巨頭,再到Waabi等明星初創(chuàng)公司,都開始紛紛在工業(yè)、機器人、無人駕駛、醫(yī)療、零售等諸多領域,探索生成式AI2.0更大的可能。
與此同時,資本的熱情也被極大地調動起來。據(jù)不完全統(tǒng)計,近年來,國外合成數(shù)據(jù)的相關融資,累計已接近8億美元。
在國內,合成數(shù)據(jù)相關企業(yè)也同樣引起了資本的注意。2022年6月,跨維智能宣布完成Pre-A輪融資,融資金額數(shù)千萬元,成立不到一年時間累計融資近億元;今年7月,光輪智能也宣布完成天使+輪融資,融資金額累計數(shù)千萬元。
可以說,從會作詩到學物理,生成式AI2.0正在開啟一個產業(yè)數(shù)字化的宏大未來。
新化月報網報料熱線:886 2395@qq.com
最近更新
- AIGC 施展“物理魔法”,3D視覺突破“精度極限”2023-08-21
- 中簡科技:8月18日融券賣出金額25.66萬元,占當日流出金額的0.49%2023-08-21
- 河南首個自貿協(xié)定關稅優(yōu)惠政策公共服務平臺上線 企業(yè)可一鍵查詢最優(yōu)進口稅率2023-08-21
- 甘肅省第三屆自行車長征賽聯(lián)賽“競速”民勤 360多名車友相約沙海綠洲2023-08-21
- 重溫絲路經典 又見國風之美 2023“和樂中國”甘肅區(qū)域文化展演活動啟幕2023-08-21
- “塔影河聲 吉祥千年——涼州會盟暨蘭州與武威文物聯(lián)展”在市博物館開展2023-08-21
- 【溯源甘肅文化】絲路名城敦煌故事2023-08-21
- 李沛興在張掖武威開展“雙千行動”調研視察時強調 為高質量發(fā)展積極貢獻代表和人大力量2023-08-21
- 衡陽網盛地產100%股權掛牌轉讓 底價9118.89萬元2023-08-21
- 領地控股:向眉山宏大出售三間非全資附屬公司,合計約8.1億元2023-08-21
- IPO周報 | 茶百道、如祺出行沖刺港交所;圖達通擬登陸納斯達克2023-08-21
- 開展數(shù)字清廉村居建設2023-08-21
- 一起來“趕集”2023-08-21
- 區(qū)城管局拆除違規(guī)路標指示牌2023-08-21
- 李佳佳:用心教書用愛育人2023-08-21
- 兩部門聯(lián)合督查把好食用農產品“安全關”2023-08-21
- 節(jié)約用水 愛護水資源2023-08-21
- 文明實踐在行動|自備購物袋 踐行綠色消費2023-08-21
- 國家衛(wèi)健委:加大投資支持力度 建設中醫(yī)藥“高地”2023-08-21
- 當雜技遇到沙漠 ?庫木塔格沙漠風景名勝區(qū)“夜樓蘭雜技之夜”精彩紛呈2023-08-21
- 星際戰(zhàn)甲曲翼啟動模塊不見了(星際戰(zhàn)甲曲翼啟動模塊)2023-08-21
- 世錦賽男子百米新王誕生 美國名將萊爾斯9秒83奪冠2023-08-21
- 企業(yè)捐出15萬元 幫助優(yōu)撫對象2023-08-21
- 碧桂園服務所持??谛氯A正達股份比例增至95%2023-08-21
- 祿勸縣辦事窗口延時服務暖人心2023-08-21
- 持續(xù)提升服務質量 為青少年健康成長保駕護航2023-08-21
- 多城擬降低二套房首付比例 有銀行稱已跟進執(zhí)行2023-08-21
- 進一步強化森林資源司法保護2023-08-21
- 昆明拓展政法業(yè)務協(xié)同“生態(tài)圈”2023-08-21
- “團”聚七夕 青春國潮 百余青年人才交友聯(lián)誼2023-08-21