麻省理工學院 | 用聲音模擬世界——這個機器學習系統(tǒng)可以模擬聽眾如何從房間的任何一點聽到聲音。
指南者留學 2022-11-02 14:51:06 閱讀量:1203
<p>想象一下管風琴發(fā)出的轟隆隆的和弦在巨大的石頭大教堂的海綿狀圣殿中回蕩。</p> <p>&nbsp;</p> <p>去大教堂的人會聽到的聲音受許多因素的影響,包括管風琴的位置、聽眾站立的位置、它們之間是否有任何柱子、長椅或其他障礙物、墻壁是由什么制成的、窗戶或門口等。聽到聲音可以幫助人們想象他們的環(huán)境。</p> <p>&nbsp;</p> <p>麻省理工學院和 MIT-IBM 沃森人工智能實驗室的研究人員也在探索使用空間聲學信息來幫助機器更好地想象他們的環(huán)境。他們開發(fā)了一種機器學習模型,可以捕捉房間中的任何聲音如何在空間中傳播,從而使模型能夠模擬聽眾在不同位置聽到的聲音。</p> <p>&nbsp;</p> <p>通過準確地模擬場景的聲學效果,系統(tǒng)可以從錄音中學習房間的基本 3D 幾何形狀。研究人員可以使用他們的系統(tǒng)捕獲的聲學信息來構(gòu)建房間的準確視覺渲染,類似于人類在估計物理環(huán)境屬性時使用聲音的方式。</p> <p>&nbsp;</p> <p>除了在虛擬現(xiàn)實和增強現(xiàn)實中的潛在應用外,這項技術(shù)還可以幫助人工智能代理更好地了解他們周圍的世界。例如,通過對其環(huán)境中聲音的聲學特性進行建模,水下探索機器人可以感知比僅靠視覺更遠的事物,電氣工程與計算機科學系的研究生 Yilun Du 說。 EECS)和描述該模型的論文的合著者。</p> <p>&nbsp;</p> <p>&ldquo;到目前為止,大多數(shù)研究人員只關(guān)注視覺建模。但作為人類,我們有多模態(tài)感知。不僅視覺很重要,聲音也很重要。我認為這項工作為更好地利用聲音來模擬世界開辟了一個令人興奮的研究方向,&rdquo;杜說。</p> <p>&nbsp;</p> <p>與 Du 一起發(fā)表論文的是主要作者 Andrew Luo,他是卡內(nèi)基梅隆大學 (CMU) 的研究生;Michael J. Tarr,CMU 認知與腦科學 Kav?i?-Moura 教授;和資深作者 Joshua B. Tenenbaum,麻省理工學院腦與認知科學系教授,計算機科學與人工智能實驗室 (CSAIL) 成員;Antonio Torralba,Delta Electronics 電氣工程和計算機科學教授,CSAIL 成員;以及 MIT-IBM Watson AI Lab 的首席研究人員 Chuang Gan。該研究將在神經(jīng)信息處理系統(tǒng)會議上發(fā)表。</p> <p>&nbsp;</p> <p><strong><span class="h1">聲音和視覺</span></strong></p> <p>&nbsp;</p> <p>在計算機視覺研究中,一種稱為隱式神經(jīng)表示模型的機器學習模型已被用于從圖像中生成平滑、連續(xù)的 3D 場景重建。這些模型利用神經(jīng)網(wǎng)絡,其中包含互連節(jié)點或神經(jīng)元的層,它們處理數(shù)據(jù)以完成任務。</p> <p>&nbsp;</p> <p>麻省理工學院的研究人員使用相同類型的模型來捕捉聲音如何在場景中連續(xù)傳播。</p> <p>&nbsp;</p> <p>但他們發(fā)現(xiàn)視覺模型受益于一種稱為光度一致性的特性,該特性不適用于聲音。如果一個人從兩個不同的位置看同一個物體,這個物體看起來大致相同。但是對于聲音,改變位置和聽到的聲音可能會因障礙物、距離等而完全不同。這使得預測音頻非常困難。</p> <p>&nbsp;</p> <p>研究人員通過將聲學的兩個特性納入他們的模型來克服這個問題:聲音的互惠性質(zhì)和局部幾何特征的影響。</p> <p>&nbsp;</p> <p>聲音是相互的,這意味著如果聲音的來源和聽者交換位置,則人聽到的內(nèi)容不會改變。此外,人們在特定區(qū)域聽到的聲音很大程度上受當?shù)靥卣鞯挠绊?,例如聽眾和聲源之間的障礙物。</p> <p>&nbsp;</p> <p>為了將這兩個因素整合到他們的模型中,稱為神經(jīng)聲場 (NAF),他們用一個網(wǎng)格來增強神經(jīng)網(wǎng)絡,該網(wǎng)格可以捕捉場景中的物體和建筑特征,如門口或墻壁。該模型隨機采樣該網(wǎng)格上的點以學習特定位置的特征。</p> <p>&nbsp;</p> <p>&ldquo;如果你想象站在門口附近,最能影響你聽到的聲音的是那個門口的存在,不一定是房間另一邊離你很遠的幾何特征。我們發(fā)現(xiàn),與簡單的全連接網(wǎng)絡相比,這些信息能夠?qū)崿F(xiàn)更好的泛化,&rdquo;羅說。</p> <p>&nbsp;</p> <p><strong><span class="h1">從預測聲音到可視化場景</span></strong></p> <p>&nbsp;</p> <p>研究人員可以向 NAF 提供有關(guān)場景的視覺信息和一些頻譜圖,這些頻譜圖顯示了當發(fā)射器和聽者位于房間周圍的目標位置時一段音頻的聲音。然后,該模型會預測如果聽者移動到場景中的任何點,該音頻聽起來會是什么樣子。</p> <p>&nbsp;</p> <p>NAF 輸出一個脈沖響應,它捕捉聲音在場景中傳播時應該如何變化。然后,研究人員將這種脈沖響應應用于不同的聲音,以了解當一個人穿過房間時這些聲音應該如何變化。</p> <p>&nbsp;</p> <p>例如,如果房間中央的揚聲器正在播放一首歌曲,他們的模型會顯示當一個人靠近揚聲器時聲音如何變大,然后當他們走進相鄰的走廊時聲音變得沉悶。</p> <p>&nbsp;</p> <p>當研究人員將他們的技術(shù)與其他模擬聲學信息的方法進行比較時,它在每種情況下都生成了更準確的聲音模型。而且因為它學習了局部幾何信息,他們的模型能夠比其他方法更好地泛化到場景中的新位置。</p> <p>&nbsp;</p> <p>此外,他們發(fā)現(xiàn)將他們的模型學習到的聲學信息應用于計算機視覺模型可以更好地重建場景的視覺效果。</p> <p>&nbsp;</p> <p>&ldquo;例如,當您只有一組稀疏的視圖時,使用這些聲學特征可以讓您更清晰地捕捉邊界。這可能是因為要準確渲染場景的聲學效果,您必須捕捉該場景的底層 3D 幾何圖形,&rdquo;Du 說。</p> <p>&nbsp;</p> <p>研究人員計劃繼續(xù)增強該模型,使其可以推廣到全新的場景。他們還希望將此技術(shù)應用于更復雜的脈沖響應和更大的場景,例如整個建筑物甚至城鎮(zhèn)或城市。</p> <p>&nbsp;</p> <p>&ldquo;這項新技術(shù)可能會為在元節(jié)應用程序中創(chuàng)建多模態(tài)沉浸式體驗開辟新的機會,&rdquo;Gan 補充道。</p> <p>&nbsp;</p> <p>&ldquo;我的團隊在使用機器學習方法加速聲學仿真或模擬真實世界場景的聲學方面做了大量工作。Chuang Gan 和他的合著者的這篇論文顯然是朝著這個方向邁出的重要一步,&rdquo;馬里蘭大學計算機科學和電氣與計算機工程教授 Dinesh Manocha 說工作。&ldquo;特別是,本文介紹了一種很好的隱式表示,它可以通過使用線性時不變系統(tǒng)對其進行建模來捕捉聲音在現(xiàn)實世界場景中的傳播方式。這項工作可以在 AR/VR 以及現(xiàn)實世界場景理解方面有很多應用。&rdquo;</p> <p>&nbsp;</p> <p>這項工作部分得到了 MIT-IBM Watson AI 實驗室以及天橋和陳慧嫻研究所的支持。</p> <p>&nbsp;</p> <p><span style="color: #666666;">注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學態(tài)度觀點。</span></p>
預約咨詢
預約咨詢
猜你喜歡
微信咨詢
掃一掃立即咨詢
App下載
下載指南者留學App
在線客服
電話咨詢
400-183-1832
回到頂部
預約咨詢
現(xiàn)在來設置你的賬號吧
只需要花不到一分鐘,之后便可以獲得更精準的推薦~
1
留學意向
2
基本意向
3
詳細背景
4
了解途徑
1.1 您期望申請學歷是
1.2 您期待的留學地區(qū)是多選
2.1 您的身份狀態(tài)是
2.2 您的目前學歷是
3.1 您的本科學校是
大陸本科
海外本科
3.2 您的學校名稱是
沒有查詢到相關(guān)的學校
查詢中...
3.3 您的專業(yè)名稱是
沒有查詢到相關(guān)的專業(yè)
查詢中...
4. 您了解到我們的途徑是
取消