人工智能已成為當(dāng)下最火熱的賽道,被認(rèn)為是引爆下一代科技革命的戰(zhàn)略新興技術(shù),企業(yè)、資本紛紛入局,希望盡早在這個未來具備萬億規(guī)模的市場中搶得先機(jī)。
盡管參與者眾多,但AI技術(shù)的競爭卻沒有變得更百花齊放,反而是千軍萬馬擠過“AI內(nèi)容生成”的獨木橋。不過在今年的華為開發(fā)者大會2024(HDC?? 2024)上,一項新技術(shù)的誕生和發(fā)布,為AI產(chǎn)業(yè)吹進(jìn)了一縷創(chuàng)新清風(fēng),刷新了傳統(tǒng)視野,拓寬了技術(shù)探索的邊界,這項技術(shù)是一種空間智能技術(shù),它在學(xué)習(xí)人腦的機(jī)制行為,讓機(jī)器擁有視覺和聽覺能力,并為應(yīng)用場景做出機(jī)器決策和行動。
6月22日,天圖萬境與華為云在HDC?? 2024大會現(xiàn)場聯(lián)合發(fā)布了AI“視頻聲效大模型”解決方案,它底層基于天圖萬境自主研發(fā)的AI感知視聽技術(shù),為人工智能領(lǐng)域帶來了顛覆性革命。此次發(fā)布標(biāo)志著AI技術(shù)在“空間智能”領(lǐng)域取得的重大突破,也預(yù)示著千行百業(yè)將因此而發(fā)生新質(zhì)生產(chǎn)力的變革。
“視頻聲效大模型”解決方案沒有沿用傳統(tǒng)的AI文生圖、文生視頻路線,而是希望AI可以按照人類進(jìn)化的方式,用眼睛耳朵和大腦來做出判斷思考和行動,讓??AI在數(shù)字世界中具有了感知能力和理解能力,就像5億4000年前,生命體進(jìn)化出“視覺”、“聽覺”一樣,新的 AI??技術(shù)讓計算機(jī)具有了視覺、聽覺、理解能力,并通過機(jī)器“思考“做出行動和決策。
這項技術(shù)的誕生,將對行業(yè)帶來顛覆性的改變。對于人類來說,我們是通過看、聽,識別物體屬性,感知空間變化,比如認(rèn)識一只貓,或者看到一輛賽車呼嘯而過的畫面就可以聯(lián)想到賽車引擎高低變化的轟鳴聲,就可以感知車離我們的運動關(guān)系。但是對于計算機(jī)來說,它只會判斷畫面中的像素點或者音頻的波形數(shù)值,內(nèi)容世界的信息對于AI來說沒有“經(jīng)驗聯(lián)想“意義,計算機(jī)業(yè)不能識別和理解。
天圖萬境的AI感知視聽技術(shù),正在幫助AI??可以像人類一樣,先通過聽覺和視覺來認(rèn)識世界,再通過大腦積累的經(jīng)驗記憶來進(jìn)行預(yù)測和自我修正,將每個專用 AI??模型看作是人類的神經(jīng)元,通過多個AI“神經(jīng)元“的相互配合,使用大規(guī)模的數(shù)據(jù)訓(xùn)練后,就可以讓計算機(jī)理解這個世界,例如通過AI圖像分割“學(xué)會”認(rèn)識物體,并判斷出它是一只貓,或者是一輛賽車。每個專業(yè)的?? AI”神經(jīng)元“具有其專業(yè)領(lǐng)域的豐富知識,它可以理解這個復(fù)雜的世界和推理未曾見過的信息,而這樣的組合,正在減少對硬件算力的依賴,來學(xué)習(xí)人腦袋的功耗比,人腦僅以??45??瓦的峰值消耗,就可以處理極其復(fù)雜的事情,這樣這的“聯(lián)級神經(jīng)元”框架設(shè)計,正在讓計算機(jī)深度領(lǐng)悟人們生活的三維世界,在數(shù)字世界中存在的物理規(guī)律。
當(dāng)計算機(jī)有了視覺、聽覺,就可以擁有理解力,進(jìn)化出真正的智慧,推動所有聚生智能,賦能需要機(jī)器決策和行動的千行百業(yè),邁向新的“空間智能”時代。在今年的HDC?? 2024大會上,天圖萬境創(chuàng)始人圖拉古在“盤古多模態(tài)大模型”專場論壇上,做了《視頻聲效大模型催生空間智能》的主題演講,闡述了空間智能未來的發(fā)展方向。
必一運動
他表示,“我和我的團(tuán)隊一直致力于創(chuàng)造更加理想的空間智能。我們要讓?? AI擁有類人的記憶推理能力,讓它理解行為意圖、物質(zhì)屬性、運動規(guī)律、和空間關(guān)系。我們希望機(jī)器能夠為人做事,或者幫人做事,知道哪些是人類需要的,并理解不同場景下人類的差異化需求,通過“聯(lián)級神經(jīng)元”和多樣數(shù)據(jù)的訓(xùn)練,讓機(jī)器學(xué)會自我認(rèn)知和決策,可以在數(shù)字世界中,像人類一樣識別多樣的世界環(huán)境,理解場景的復(fù)雜性。”
此次天圖萬境與華為云攜手推出的“視頻聲效大模型”解決方案,能夠以智慧的方式生成聲音。比如通過判斷畫面中火車的由遠(yuǎn)及近的空間變化,生成從小到大的音量。通過識別畫面中海鷗群集的數(shù)量,匹配出真實的等量動態(tài)聲音。這也是全球首個能夠智慧理解真實世界的AI大模型,為計算機(jī)走向“空間智能”奠定了堅實的技術(shù)基礎(chǔ),更重要的是,這樣的空間智能模型擺脫了“AI??提示詞”的輸入,圖拉古表示“很多時候,人類看到某種行為或圖像就可以自然產(chǎn)生想法,而我們希望機(jī)器也具有這樣的能力,自我決策和行動”。
讓機(jī)器擁有視覺、聽覺的感知能力,可以讓礦山里的無人探測車分辨巖石,或?qū)崟r監(jiān)測礦井環(huán)境,提高安全性;在消防檢測中,AI可以快速識別火源位置,預(yù)測火勢蔓延路徑,極大提升應(yīng)急響應(yīng)能力;可以讓普通攝像頭不借助任何深度傳感器,秒變可以能夠拍攝三維立體畫面的“立體眼”,獲得穩(wěn)定清晰的深空間深度,輸出立體的空間視頻,而人類正是在以這樣的方式理解世界…
當(dāng)AI擁有類人的感知世界能力后,它將演化出更強(qiáng)的認(rèn)知能力、識別能力、記憶能力,誕生真正的智慧,幫助人們創(chuàng)造更加美好的生活。
天圖萬境與華為云共同看好AI感知視聽技術(shù)擁有的巨大應(yīng)用前景和市場空間,雙方在HDC 2024上簽署戰(zhàn)略合作協(xié)議,攜手促進(jìn)“視頻聲效大模型”解決方案的研發(fā)和推廣,促進(jìn)雙方在人工智能與云計算領(lǐng)域的深度融合。
天圖萬境在華為開發(fā)者大會2024上展示的AI感知視聽技術(shù),以及“視頻聲效大模型”解決方案,不僅驚艷了會場聽眾,更為行業(yè)引入了全新的技術(shù)思維和創(chuàng)新藍(lán)圖。未來,天圖萬境還將在AI感知視聽技術(shù)方面持續(xù)發(fā)力,走得更遠(yuǎn)更快,為全球AI的智能化探索出不一樣的創(chuàng)新路徑。
學(xué)會大咖談|中國機(jī)械工程學(xué)會陸大明:培育新質(zhì)生產(chǎn)力 助力制造業(yè)智能升級
數(shù)字技術(shù)賦能鐵路遺產(chǎn)保護(hù)傳承:數(shù)喆數(shù)據(jù)亮相第四屆鐵路遺產(chǎn)國際學(xué)術(shù)研討會
《2023-2024年中國人工智能市場研究年度報告》重磅發(fā)布,智慧互通(AICT)位列計算機(jī)視覺領(lǐng)域“五強(qiáng)”
共創(chuàng)數(shù)智世界,新華三集團(tuán)Digital Tour 2024大會圓滿落幕
中國移動算網(wǎng)安全案例成功入選世界智能產(chǎn)業(yè)博覽會“Find智能科技創(chuàng)新應(yīng)用優(yōu)秀案例”
跳出青春活力,彰顯出行時尚——愛瑪x劉畊宏直播間奉獻(xiàn)夏日專場,開啟“718愛瑪直購節(jié)”