加拿大溫哥華當(dāng)?shù)貢r(shí)間6月21日,人工智能領(lǐng)域最有學(xué)術(shù)影響力的頂級(jí)會(huì)議之一——國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR)2023正式公布了最佳論文等獎(jiǎng)項(xiàng)。上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)、武漢大學(xué)及商湯科技聯(lián)合提出的自動(dòng)駕駛通用模型相關(guān)論文從9155篇作品中脫穎而出,獲得本屆CVPR最佳論文獎(jiǎng)。
據(jù)悉,這是近十年來計(jì)算機(jī)視覺三大頂級(jí)會(huì)議中(CVPR、ICCV、ECCV)第一篇以中國(guó)學(xué)術(shù)機(jī)構(gòu)作為第一單位的最佳論文。入圍本屆CVPR最佳論文候選名單的作品來自包括谷歌、上海AI實(shí)驗(yàn)室、斯坦福大學(xué)、康奈爾大學(xué)等在內(nèi)的世界頂尖企業(yè)及機(jī)構(gòu)。
最終,上海AI實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)的研究成果《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)摘取CVPR 2023最佳論文獎(jiǎng)。該論文首次提出感知決策一體化的自動(dòng)駕駛通用大模型UniAD,開創(chuàng)了以全局任務(wù)為目標(biāo)的自動(dòng)駕駛大模型架構(gòu)先河, 為自動(dòng)駕駛技術(shù)的發(fā)展創(chuàng)新提出了新的方向。
(資料圖片僅供參考)
自動(dòng)駕駛研究突破“當(dāng)下最優(yōu)模型”
CVPR在學(xué)術(shù)界及工業(yè)界都極具影響力。根據(jù)谷歌學(xué)術(shù)指標(biāo)(Google Scholar Metrics)2022年列出的全球最有影響力的六大科學(xué)期刊/會(huì)議中,CVPR位列第四,僅次于《自然》(Nature)、《新英格蘭醫(yī)學(xué)雜志》(NEJM)、《科學(xué)》(Science)期刊,排在《柳葉刀》(The Lancet)和《先進(jìn)材料》(Advanced Materials)之前。
本屆CVPR論文投稿總量達(dá)9155篇,最終共有2369篇論文被接收。最佳論文候選為12篇,接收率僅為0.13%。提交機(jī)構(gòu)不乏谷歌、Stability AI等人工智能領(lǐng)域頂尖企業(yè),也包括上海人工智能實(shí)驗(yàn)室、斯坦福大學(xué)、康奈爾大學(xué)、香港中文大學(xué)、香港科技大學(xué)、南洋理工大學(xué)等世界一流研究機(jī)構(gòu)及高校。
CVPR 2023最佳論文獎(jiǎng)提出的自動(dòng)駕駛通用算法框架——Unified Autonomous Driving(UniAD)首次將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè),占據(jù)柵格預(yù)測(cè)以及規(guī)劃整合到一個(gè)基于Transformer 的端到端網(wǎng)絡(luò)框架下,更高效契合了“多任務(wù)”和“高性能”的特點(diǎn),取得自動(dòng)駕駛技術(shù)研究重要突破。
自動(dòng)駕駛UniAD框架對(duì)比(a)模塊化(b)多任務(wù)模塊(c)端到端自動(dòng)駕駛模塊
這種端到端的優(yōu)化在多項(xiàng)關(guān)鍵技術(shù)指標(biāo)上超越了SOTA(目前最好/最先進(jìn)的模型)。比如,多目標(biāo)跟蹤準(zhǔn)確率超越SOTA 20%,車道線預(yù)測(cè)準(zhǔn)確率提升30%,預(yù)測(cè)運(yùn)動(dòng)位移誤差降低38%,規(guī)劃誤差降低28%。
上海AI實(shí)驗(yàn)室青年科學(xué)家李弘揚(yáng)介紹,憑借其充分的可解釋性、安全性、與多模塊的可持續(xù)迭代性,UniAD是目前為止最具希望實(shí)際部署的端到端模型。該科研成果在產(chǎn)業(yè)界的落地應(yīng)用,將有力地推動(dòng)自動(dòng)駕駛技術(shù)與產(chǎn)品的規(guī)模化發(fā)展。
商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛表示,UniAD是業(yè)內(nèi)首個(gè)感知決策一體化的端到端自動(dòng)駕駛解決方案,并且整體系統(tǒng)和性能取得大幅提升,代表了未來自動(dòng)駕駛技術(shù)的發(fā)展趨勢(shì)。
加速推動(dòng)AIGC時(shí)代真實(shí)感3D內(nèi)容生成
本屆CVPR上,上海AI元素十分醒目。除了一篇最佳論文外,商湯科技及聯(lián)合實(shí)驗(yàn)室還有一篇論文入選最佳論文候選名單。
面向真實(shí) 3D 物體的感知、理解、重建與生成是計(jì)算機(jī)視覺領(lǐng)域一直倍受關(guān)注的問題。由于缺乏大規(guī)模的真實(shí)掃描三維數(shù)據(jù)庫(kù),最近在三維物體建模方面的進(jìn)展大多依賴于合成數(shù)據(jù)集。該候選論文《OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation》提出了OmniObject3D,一個(gè)具有大規(guī)模高質(zhì)量真實(shí)掃描3D物體的大型詞匯3D物體數(shù)據(jù)集,覆蓋近200個(gè)類別、約6000個(gè)三維物體數(shù)據(jù),包括高精表面網(wǎng)格、點(diǎn)云、多視角渲染圖像和實(shí)景采集的視頻,借助專業(yè)掃描設(shè)備保證了物體數(shù)據(jù)的精細(xì)形狀和真實(shí)紋理。
OmniObject3D是目前學(xué)界最大的真實(shí)世界三維掃描模型數(shù)據(jù)集,為未來三維視覺研究提供了廣闊空間。利用該數(shù)據(jù)集,研究人員精心探討了點(diǎn)云識(shí)別、神經(jīng)渲染、表面重建、三維生成等多種學(xué)術(shù)任務(wù)的魯棒性和泛化性,驗(yàn)證其從感知、重建、到生成領(lǐng)域的開放應(yīng)用前景,有望在AIGC 時(shí)代推動(dòng)真實(shí)感3D生成方面發(fā)揮至關(guān)重要的作用。
另外,上海AI實(shí)驗(yàn)室有12篇論文入圍“Highlight”名單,覆蓋視覺基礎(chǔ)模型、通才模型、三維視覺、底層視覺、視頻檢索、物體檢測(cè)、姿態(tài)估計(jì)、自動(dòng)駕駛等相關(guān)領(lǐng)域的研究。商湯科技共計(jì)54篇論文被接收。
上海元素在CVPR上星光熠熠。
作者:沈湫莎
圖片:受訪者提供
責(zé)任編輯:任荃
*文匯獨(dú)家稿件,轉(zhuǎn)載請(qǐng)注明出處。
標(biāo)簽: