美攝科技侯康:汽車圖像及視頻解決方案技術(shù)路徑解析
隨著智能汽車不斷發(fā)展,消費(fèi)者對(duì)車身娛樂系統(tǒng)的要求也不斷提高。盡管車身攝像頭數(shù)量越來(lái)越多,但依然面臨畫質(zhì)不佳、畫面畸變等問題。在前不久結(jié)束的LiveVideoStackCon2022音視頻技術(shù)大會(huì)上海站中,美攝科技AI算法團(tuán)隊(duì)負(fù)責(zé)人侯康分享了最新推出的汽車圖像及視頻處理方案,詳細(xì)介紹了團(tuán)隊(duì)在解決上述問題中的探索與實(shí)踐。
侯康首先介紹了車載攝像頭畸變校正處理。他提到,車內(nèi)拍攝與一般拍攝不同,車內(nèi)攝像頭一般放置在車的正中間,拍攝對(duì)象主要是人。而車內(nèi)前排的主駕和副駕分坐兩邊,后排分坐三個(gè)人,此時(shí)主駕、副駕和后排坐兩邊的人的點(diǎn)會(huì)出現(xiàn)嚴(yán)重扭曲,導(dǎo)致畫面不可使用。針對(duì)這種情況,美攝團(tuán)隊(duì)開發(fā)出了一套基于人臉特征的畸變校正算法,校正時(shí)更多關(guān)注人臉及人體,從而實(shí)現(xiàn)車內(nèi)畫面校正。
隨后,他分享了美攝研發(fā)團(tuán)隊(duì)在傳統(tǒng)方案基礎(chǔ)上研發(fā)的智能校色方案。方案首先對(duì)原始圖片的畫面像素進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)值并對(duì)其進(jìn)行處理,通過(guò)算法得到十幾項(xiàng)基本的調(diào)色參數(shù)(如亮度、曝光度、對(duì)比度、自然飽和度等),最后通過(guò)調(diào)節(jié)這些參數(shù)得到畫質(zhì)較好的圖片。此外,他們還開發(fā)了一種清晰度算法來(lái)增強(qiáng)畫面的局部色塊、特征,結(jié)合邊緣細(xì)節(jié)的增強(qiáng)可得到一個(gè)較柔和的增強(qiáng)后的畫面。
攝像頭防抖也是關(guān)鍵的一環(huán)。由于車輛行駛中拍攝到的場(chǎng)景復(fù)雜多變,此時(shí)若采用傳統(tǒng)算法檢測(cè)角點(diǎn),根據(jù)角點(diǎn)匹配得到的單應(yīng)矩陣或仿射變換矩陣來(lái)調(diào)節(jié)畫面,可能無(wú)法消除抖動(dòng)。而且當(dāng)畫面突變,如場(chǎng)景從開闊變?yōu)楠M窄時(shí),甚至?xí)攵秳?dòng)。為了解決這個(gè)問題,美攝研發(fā)團(tuán)隊(duì)對(duì)局部進(jìn)行防抖處理,借助AI算法判斷畫面中的靜止部分和運(yùn)動(dòng)部分,基于這些狀態(tài)判斷畫面抖動(dòng)的具體參數(shù),然后再進(jìn)行處理,即可得到穩(wěn)定的拍攝畫面。
接下來(lái)是方案核心內(nèi)容——汽車智能剪輯方案,這是目前美攝科技主推的一套方案,在一些大廠已經(jīng)落地。智能剪輯方案的大致思路是對(duì)采集到的視頻畫面進(jìn)行多維度分析,根據(jù)分析結(jié)果將視頻結(jié)構(gòu)化,并為每一段打上標(biāo)簽,得到對(duì)于視頻的立體的理解。再根據(jù)客戶的要求,如定制的拍攝主題、拍攝思路等,定制檢測(cè)和匹配的規(guī)則,最終生成包裝完成的視頻。
整個(gè)框架主要分為三個(gè)部分。首先是AI檢測(cè),除了檢測(cè)外,還會(huì)記錄汽車行駛過(guò)程中的重要信息,比如車速、GPS信息等,并將所有數(shù)據(jù)存儲(chǔ)到開發(fā)的數(shù)據(jù)庫(kù)里,以后想再使用相同視頻時(shí),可直接在數(shù)據(jù)庫(kù)中提取相關(guān)內(nèi)容,無(wú)需再次檢測(cè)。剪輯的時(shí)候也可直接從數(shù)據(jù)庫(kù)中提取內(nèi)容。
在畫面智能分析內(nèi)容方面,美攝SDK可支持2000多種標(biāo)簽類型。畫面智能分析的難點(diǎn)不在于如何訓(xùn)練模型或得到好的結(jié)果,而是減小芯片的算力占用。汽車在行駛過(guò)程中除了拍攝還要執(zhí)行其他功能,因此后臺(tái)處理信息時(shí)需要保證小的算力占用。針對(duì)這個(gè)問題,美攝研發(fā)團(tuán)隊(duì)對(duì)模型結(jié)構(gòu)和訓(xùn)練策略進(jìn)行了優(yōu)化。目前方案中使用了七八個(gè)模型,但在運(yùn)行過(guò)程中只占用了低于5%的CPU就可以完成檢測(cè)。
畫面信息之外,車輛信息也非常關(guān)鍵。車輛信息包括時(shí)速、轉(zhuǎn)向、時(shí)間、溫度、天氣預(yù)報(bào)和GPS信息等,這些信息本身是剪輯時(shí)所需的有效信息,也可以與AI檢測(cè)結(jié)果聯(lián)通,校正AI檢測(cè)結(jié)果。
在剪輯策略方面,美攝的方案結(jié)合了深度學(xué)習(xí)檢測(cè)和專家系統(tǒng),即后期為前期的檢測(cè)結(jié)果匹配一套剪輯的規(guī)則,通過(guò)分析用戶選擇的感興趣的視頻內(nèi)容,推薦與之相關(guān)的剪輯主題,再根據(jù)剪輯主題內(nèi)容提取出所選視頻中的重要片段對(duì)其進(jìn)行包裝。
此外,侯康還向與會(huì)者介紹了車內(nèi)AR互動(dòng)、智能語(yǔ)音助手、AI圖像識(shí)別等模塊。據(jù)了解,目前美攝智能汽車及圖像處理方案已應(yīng)用在IM智己汽車等多家頭部汽車品牌中,并已實(shí)現(xiàn)實(shí)車量產(chǎn)落地。下一步,美攝科技研發(fā)團(tuán)隊(duì)將持續(xù)根據(jù)車輛運(yùn)行場(chǎng)景對(duì)方案進(jìn)行針對(duì)性優(yōu)化,與車企一道為用戶帶來(lái)更加高品質(zhì)的駕乘體驗(yàn)。