麻省理工學(xué)院 | 確保人工智能以適當(dāng)?shù)暮闷嫘墓ぷ?
指南者留學(xué) 2022-11-15 14:18:07 閱讀量:1167
<p><img src="https://info.compassedu.hk/sucai/content/1668493307016/1668493307016.png" width="808" height="539" /></p> <p>這是一個(gè)和時(shí)間一樣古老的困境。周五晚上到了,你正試著選一家餐廳吃晚餐。你是去你最喜歡的酒吧,還是去一家新的餐館,希望能發(fā)現(xiàn)一些更好的東西?有可能,但這種好奇心也有風(fēng)險(xiǎn):如果你嘗試新的選擇,食物可能會(huì)更糟糕。另一方面,如果你堅(jiān)持你所知道的行之有效的方法,你就不會(huì)走出自己狹窄的道路。</p> <p>&nbsp;</p> <p>好奇心驅(qū)使人工智能去探索世界,現(xiàn)在有無限的用例&mdash;&mdash;自主導(dǎo)航、機(jī)器人決策、優(yōu)化健康結(jié)果等等。在某些情況下,機(jī)器使用&ldquo;強(qiáng)化學(xué)習(xí)&rdquo;來完成一個(gè)目標(biāo),即AI代理迭代地從良好行為的獎(jiǎng)勵(lì)和不良行為的懲罰中學(xué)習(xí)。就像人類在選擇餐廳時(shí)所面臨的困境一樣,這些代理也在努力平衡花在發(fā)現(xiàn)更好的行動(dòng)(探索)和花在過去導(dǎo)致高回報(bào)的行動(dòng)(開發(fā))上的時(shí)間。太多的好奇心會(huì)分散代理做出好的決策的注意力,而太少的好奇心則意味著代理永遠(yuǎn)不會(huì)發(fā)現(xiàn)好的決策。</p> <p>&nbsp;</p> <p>為了讓人工智能代理具備適當(dāng)?shù)暮闷嫘模槭±砉W(xué)院(MIT)不可思議人工智能實(shí)驗(yàn)室(impossible AI Laboratory)和計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究人員創(chuàng)建了一種算法,克服了人工智能過于&ldquo;好奇&rdquo;和被給定任務(wù)分心的問題。當(dāng)需要的時(shí)候,他們的算法會(huì)自動(dòng)增加好奇心,而如果代理從環(huán)境得到足夠的監(jiān)督,知道該做什么,就會(huì)抑制好奇心。</p> <p>&nbsp;</p> <p>在對(duì)60多款電子游戲進(jìn)行測(cè)試后,該算法能夠成功地完成困難和簡(jiǎn)單的探索任務(wù),而之前的算法只能單獨(dú)解決一個(gè)困難或簡(jiǎn)單的領(lǐng)域。通過這種方法,人工智能代理使用更少的數(shù)據(jù)來學(xué)習(xí)決策規(guī)則,使激勵(lì)最大化。</p> <p>&nbsp;</p> <p>&ldquo;如果你很好地掌握了探索和利用之間的平衡,你就能更快地學(xué)會(huì)正確的決策規(guī)則&mdash;&mdash;如果你做得不夠好,就需要大量的數(shù)據(jù),這可能意味著次優(yōu)的醫(yī)療,網(wǎng)站的利潤(rùn)更低,以及機(jī)器人不會(huì)學(xué)習(xí)做正確的事情,&rdquo;麻省理工學(xué)院電子工程和計(jì)算機(jī)科學(xué)(EECS)助理教授Pulkit Agrawal說,他是不可可能人工智能實(shí)驗(yàn)室的主任,也是監(jiān)督該研究的CSAIL下屬機(jī)構(gòu)。&ldquo;想象一下,一個(gè)網(wǎng)站試圖找出其內(nèi)容的設(shè)計(jì)或布局,以最大化銷售。如果勘探開發(fā)做得不好,收斂到正確的網(wǎng)站設(shè)計(jì)或正確的網(wǎng)站布局將需要很長(zhǎng)時(shí)間,這意味著利潤(rùn)的損失。或者在衛(wèi)生保健環(huán)境中,比如Covid-19,可能需要做出一系列決定來治療患者,如果你想使用決策算法,它們需要快速有效地學(xué)習(xí)&mdash;&mdash;你不想在治療大量患者時(shí)得到一個(gè)次優(yōu)解決方案。我們希望這項(xiàng)工作能應(yīng)用于現(xiàn)實(shí)世界中類似的問題。&rdquo;</p> <p>&nbsp;</p> <p>很難囊括好奇心心理基礎(chǔ)的細(xì)微差別;挑戰(zhàn)尋求行為的潛在神經(jīng)關(guān)聯(lián)是一個(gè)知之甚少的現(xiàn)象。對(duì)這種行為進(jìn)行分類的嘗試跨越了多個(gè)研究,這些研究深入研究了我們的沖動(dòng)、剝奪敏感性、社交和壓力耐受力。</p> <p>&nbsp;</p> <p>在強(qiáng)化學(xué)習(xí)中,這一過程在情感上被&ldquo;修剪&rdquo;,剝離到最基本的部分,但在技術(shù)方面很復(fù)雜。從本質(zhì)上說,代理應(yīng)該只在沒有足夠的監(jiān)督來嘗試不同的事物時(shí)才感到好奇,如果有監(jiān)督,它必須調(diào)整好奇心并降低好奇心。</p> <p>&nbsp;</p> <p>因?yàn)榇蟛糠钟螒蚨际窃谄婊铆h(huán)境中奔跑,尋找獎(jiǎng)勵(lì)并執(zhí)行一系列行動(dòng)以實(shí)現(xiàn)某些目標(biāo)的小代理,所以這似乎是研究人員算法的邏輯試驗(yàn)臺(tái)。在實(shí)驗(yàn)中,研究人員將《馬里奧賽車》和《蒙特祖瑪?shù)膹?fù)仇》這類游戲分為兩類:一類是監(jiān)管較少的游戲,這意味著代理人的指導(dǎo)較少,被認(rèn)為是&ldquo;難&rdquo;探索游戲;另一類是監(jiān)管較密集的游戲,被認(rèn)為是&ldquo;容易&rdquo;探索游戲。</p> <p>&nbsp;</p> <p>假設(shè)在《馬里奧賽車》中,你只移除所有獎(jiǎng)勵(lì),所以你不知道敵人何時(shí)會(huì)消滅你。當(dāng)你收集硬幣或跳過管道時(shí),你不會(huì)得到任何獎(jiǎng)勵(lì)。代理最終只會(huì)被告知它做得有多好。這將是一個(gè)監(jiān)管稀疏的例子。在這種情況下,激發(fā)好奇心的算法表現(xiàn)得非常好。</p> <p>&nbsp;</p> <p>但是現(xiàn)在,假設(shè)代理被提供了嚴(yán)格的監(jiān)督&mdash;&mdash;跳過管道、收集硬幣和消滅敵人的獎(jiǎng)勵(lì)。在這里,一個(gè)沒有好奇心的算法表現(xiàn)得非常好,因?yàn)樗?jīng)常得到獎(jiǎng)勵(lì)。但如果你采用同樣使用好奇心的算法,它會(huì)學(xué)習(xí)得很慢。這是因?yàn)楹闷娴拇砜赡軙?huì)嘗試以不同的方式快速奔跑,四處跳舞,去到游戲屏幕的每個(gè)部分&mdash;&mdash;這些事情很有趣,但無助于代理在游戲中取得成功。然而,該團(tuán)隊(duì)的算法始終表現(xiàn)良好,不管它在什么環(huán)境中。</p> <p>&nbsp;</p> <p>未來的工作可能涉及到多年來讓心理學(xué)家既高興又困擾的探索:好奇心的合適度量標(biāo)準(zhǔn)&mdash;&mdash;沒有人真正知道用數(shù)學(xué)定義好奇心的正確方法。</p> <p>&nbsp;</p> <p>&ldquo;在一個(gè)新問題上獲得一致的良好表現(xiàn)是極具挑戰(zhàn)性的&mdash;&mdash;因此,通過改進(jìn)探索算法,我們可以節(jié)省您為您感興趣的問題調(diào)優(yōu)算法的精力,&rdquo;EECS博士生、CSAIL會(huì)員張衛(wèi)紅(音譯)說,他與Eric Chen ' 20,孟' 21共同撰寫了一篇關(guān)于這項(xiàng)工作的新論文。&ldquo;我們需要好奇心來解決極具挑戰(zhàn)性的問題,但在某些問題上,好奇心會(huì)影響表現(xiàn)。我們提出了一種算法,消除了調(diào)整勘探和開發(fā)平衡的負(fù)擔(dān)。以前要花一周時(shí)間才能成功解決的問題,有了這個(gè)新算法,我們可以在幾個(gè)小時(shí)內(nèi)得到滿意的結(jié)果。&rdquo;</p> <p>&ldquo;當(dāng)前人工智能和認(rèn)知科學(xué)面臨的最大挑戰(zhàn)之一是如何平衡探索和利用&mdash;&mdash;搜索信息與搜索獎(jiǎng)勵(lì)。加州大學(xué)伯克利分校(University of California at Berkeley)的心理學(xué)教授兼哲學(xué)副教授艾莉森&middot;戈普尼克(Alison Gopnik)指出,&ldquo;孩子們可以無縫地做到這一點(diǎn),但在計(jì)算上存在挑戰(zhàn)。&rdquo;她沒有參與該項(xiàng)目。&ldquo;這篇論文使用了令人印象深刻的新技術(shù)來自動(dòng)完成這一任務(wù),設(shè)計(jì)了一個(gè)可以系統(tǒng)地平衡對(duì)世界的好奇心和對(duì)獎(jiǎng)勵(lì)的渴望的代理,(因此)向讓人工智能代理(幾乎)像孩子一樣聰明又邁進(jìn)了一步。&rdquo;</p> <p>&nbsp;</p> <p>&ldquo;像好奇心這樣的內(nèi)在獎(jiǎng)勵(lì)是引導(dǎo)代理發(fā)現(xiàn)有用的多樣化行為的基礎(chǔ),但這不應(yīng)該以完成給定任務(wù)為代價(jià)。這是人工智能中的一個(gè)重要問題,這篇論文提供了一種平衡這種權(quán)衡的方法,&rdquo;卡內(nèi)基梅隆大學(xué)的助理教授迪帕克&middot;帕塔克補(bǔ)充說,他也沒有參與這項(xiàng)工作。&ldquo;看到這種方法如何從游戲擴(kuò)展到現(xiàn)實(shí)世界的機(jī)器人代理將是很有趣的。&rdquo;</p> <p>&nbsp;</p> <p>陳、洪和阿格拉瓦爾與阿爾托大學(xué)助理教授、達(dá)姆施塔特大學(xué)智能自主系統(tǒng)小組研究負(fù)責(zé)人Joni Pajarinen共同撰寫了這篇論文。該研究部分得到了MIT-IBM沃森人工智能實(shí)驗(yàn)室、DARPA機(jī)器常識(shí)項(xiàng)目、美國空軍研究實(shí)驗(yàn)室和美國空軍人工智能加速器的陸軍研究室的支持。該論文將在神經(jīng)信息與處理系統(tǒng)(NeurIPS) 2022上發(fā)表。</p> <p>&nbsp;</p> <blockquote> <p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學(xué)態(tài)度觀點(diǎn)。</p> </blockquote>
預(yù)約咨詢
預(yù)約咨詢
猜你喜歡
微信咨詢
掃一掃立即咨詢
App下載
下載指南者留學(xué)App
在線客服
電話咨詢
400-183-1832
回到頂部
預(yù)約咨詢
現(xiàn)在來設(shè)置你的賬號(hào)吧
只需要花不到一分鐘,之后便可以獲得更精準(zhǔn)的推薦~
1
留學(xué)意向
2
基本意向
3
詳細(xì)背景
4
了解途徑
1.1 您期望申請(qǐng)學(xué)歷是
1.2 您期待的留學(xué)地區(qū)是多選
2.1 您的身份狀態(tài)是
2.2 您的目前學(xué)歷是
3.1 您的本科學(xué)校是
大陸本科
海外本科
3.2 您的學(xué)校名稱是
沒有查詢到相關(guān)的學(xué)校
查詢中...
3.3 您的專業(yè)名稱是
沒有查詢到相關(guān)的專業(yè)
查詢中...
4. 您了解到我們的途徑是
取消