久久久久亚洲精品中文字幕,久久毛,中文字幕人妻无码专区,亚洲久久久免费视频一区二区三区,国产亚洲精品美女在线

您的位置:首頁(yè) >資訊 > 觀察 >

5620億參數(shù)!谷歌發(fā)布史上最大“通才”AI模型 可讓機(jī)器人更自主

“距AGI(通用人工智能)的問(wèn)世不會(huì)太遙遠(yuǎn),不過(guò)過(guò)程中肯定會(huì)出現(xiàn)許多誤判。預(yù)計(jì)在未來(lái)五年時(shí)間里,AI能夠在大多數(shù)人類(lèi)目前從事的工作上表現(xiàn)得比人類(lèi)更好?!痹贑hatGPT發(fā)布前一個(gè)月,OpenAI聯(lián)合創(chuàng)始人、ChatGPT項(xiàng)目的主要負(fù)責(zé)人John Schulman在強(qiáng)化學(xué)習(xí)播客《TalkRL》上說(shuō)道。

AGI似乎并不遙遠(yuǎn),但對(duì)于如何通向AGI,目前研究者都還在探索。就在近日,一個(gè)新的研究成果發(fā)布——用視覺(jué)數(shù)據(jù)來(lái)增強(qiáng)語(yǔ)言處理能力。它的表現(xiàn)令人驚喜,展示出了強(qiáng)大的涌現(xiàn)能力(模型有不可預(yù)測(cè)的表現(xiàn))。


(相關(guān)資料圖)

北京時(shí)間3月7日,谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大的視覺(jué)語(yǔ)言模型——PaLM-E,參數(shù)量高達(dá)5620億(GPT-3的參數(shù)量為1750億)。

“PaLM-E是迄今為止已知的最大VLM(視覺(jué)語(yǔ)言模型)。我們觀察到諸如多模態(tài)思維鏈推理(允許模型分析包括語(yǔ)言和視覺(jué)信息的一系列輸入),只接受單圖像提示訓(xùn)練的多圖像推理(使用多個(gè)圖像作為輸入來(lái)做出推理或預(yù)測(cè))等涌現(xiàn)能力?!闭撐牡牡谝蛔髡?、谷歌AI研究員Danny Driess說(shuō)。

論文的第一作者、谷歌AI研究員Danny Driess的推文。

在這個(gè)意義上,隨著時(shí)間推移,深度學(xué)習(xí)模型變得越來(lái)越復(fù)雜,PaLM-E似乎延續(xù)了“產(chǎn)生驚喜”的這個(gè)趨勢(shì)。

PaLM-E(Pathways Language Model with Embodied )是PaLM-540B語(yǔ)言模型與ViT-22B視覺(jué)Transformer模型的結(jié)合。它被稱(chēng)為“PaLM-E”是因?yàn)樗诠雀璎F(xiàn)有的 “PaLM”大語(yǔ)言模型 (類(lèi)似于ChatGPT背后的技術(shù))。谷歌通過(guò)添加感官信息和機(jī)器人控制,使PaLM“具身化(embodiment,與身體聯(lián)系緊密的狀態(tài))”。由于它基于語(yǔ)言模型,PaLM-E會(huì)進(jìn)行連續(xù)觀察,例如圖像信息或傳感器數(shù)據(jù),并將它們編碼為一系列與語(yǔ)言標(biāo)記大小相同的向量。這允許模型以與處理語(yǔ)言相同的方式“理解”感官信息。PaLM-E還借鑒了谷歌之前在ViT-22B視覺(jué)Transformer模型上的工作,ViT-22B已經(jīng)接受過(guò)各種視覺(jué)任務(wù)的訓(xùn)練,例如圖像分類(lèi)、對(duì)象檢測(cè)、語(yǔ)義分割和圖像字幕。

谷歌并不是唯一一個(gè)致力于使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器人控制的研究小組。這項(xiàng)特殊的工作類(lèi)似于微軟最近的“ChatGPT for Robotics”論文,該論文嘗試以類(lèi)似的方式將視覺(jué)數(shù)據(jù)和大型語(yǔ)言模型結(jié)合起來(lái)進(jìn)行機(jī)器人控制。

作為一種多模態(tài)具身視覺(jué)語(yǔ)言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語(yǔ)言,可以執(zhí)行各種復(fù)雜的機(jī)器人指令而無(wú)需重新訓(xùn)練。

根據(jù)谷歌的說(shuō)法,當(dāng)給出一個(gè)高級(jí)命令時(shí),比如“把抽屜里的薯片拿給我”,PaLM-E可以為一個(gè)有手臂的移動(dòng)機(jī)器人平臺(tái)(由谷歌機(jī)器人開(kāi)發(fā))生成一個(gè)行動(dòng)計(jì)劃并執(zhí)行自己的行動(dòng)。

PaLM-E通過(guò)分析來(lái)自機(jī)器人相機(jī)的數(shù)據(jù)來(lái)實(shí)現(xiàn)這一點(diǎn),而無(wú)需對(duì)場(chǎng)景進(jìn)行預(yù)處理。這消除了人類(lèi)預(yù)處理或注釋數(shù)據(jù)的需要,并允許更自主的機(jī)器人控制。它還具有彈性,可以對(duì)環(huán)境做出反應(yīng)。例如,PaLM-E模型可以引導(dǎo)機(jī)器人從廚房取薯片袋,而且,通過(guò)將PaLM-E集成到控制回路中,它可以抵抗任務(wù)期間可能發(fā)生的中斷。在一個(gè)視頻示例中,研究人員從機(jī)器人手中抓取薯片并移動(dòng)它們,但機(jī)器人找到薯片并再次抓取它們。

在另一個(gè)示例中,相同的PaLM-E模型通過(guò)具有復(fù)雜序列的任務(wù)自主控制機(jī)器人,這些任務(wù)以前需要人工指導(dǎo)。谷歌的研究論文解釋了PaLM-E如何將指令轉(zhuǎn)化為行動(dòng):

我們展示了PaLM-E在具有挑戰(zhàn)性和多樣化的移動(dòng)操作任務(wù)上的性能。機(jī)器人需要根據(jù)人類(lèi)的指令規(guī)劃一系列導(dǎo)航和操縱動(dòng)作。例如,給出指令“我把飲料弄灑了,你能給我拿點(diǎn)東西來(lái)清理嗎”,機(jī)器人需要規(guī)劃一個(gè)包含“1. 找到海綿,2. 撿起海綿,3. 拿來(lái),4.放下海綿”的序列給用戶。受這些任務(wù)的啟發(fā),我們開(kāi)發(fā)了3個(gè)用例來(lái)測(cè)試PaLM-E的具身推理能力:可供性預(yù)測(cè)、故障檢測(cè)和長(zhǎng)期規(guī)劃。

研究人員寫(xiě)道,PaLM-E也是一種“有效的視覺(jué)語(yǔ)言模型”。例如,它可以識(shí)別圖像中的籃球明星科比·布萊恩特,并可以生成關(guān)于他的文本信息,比如他贏得了多少次冠軍。在另一個(gè)例子中,PaLM-E看到一個(gè)交通標(biāo)志并解釋與之相關(guān)的規(guī)則。

除了機(jī)器人技術(shù),谷歌研究人員還觀察到一些有趣的效果,這些效果顯然來(lái)自PaLM-E的核心——大型語(yǔ)言模型。PaLM-E表現(xiàn)出了“正遷移”能力,即它可以將從一項(xiàng)任務(wù)中學(xué)到的知識(shí)和技能遷移到另一項(xiàng)任務(wù)中,從而與單任務(wù)機(jī)器人模型相比具有“顯著更高的性能”。

此外,他們還觀察到模型規(guī)模的趨勢(shì):語(yǔ)言模型越大,在視覺(jué)語(yǔ)言和機(jī)器人任務(wù)訓(xùn)練時(shí)就越能保持其語(yǔ)言能力——從數(shù)量上講,562B PaLM-E模型幾乎保留了其所有的語(yǔ)言能力。

谷歌研究人員計(jì)劃探索PaLM-E在現(xiàn)實(shí)世界場(chǎng)景中的更多應(yīng)用,例如家庭自動(dòng)化或工業(yè)機(jī)器人。他們希望PaLM-E能夠激發(fā)更多關(guān)于多模態(tài)推理和具身AI的研究。

“多模態(tài)”已成為一個(gè)流行語(yǔ),我們可能會(huì)越來(lái)越多地聽(tīng)到這個(gè)詞。因?yàn)楹芏喙菊谘邪l(fā)看起來(lái)能夠像人類(lèi)一樣執(zhí)行一般任務(wù)的通用人工智能。

(文章來(lái)源:澎湃新聞)

關(guān)鍵詞:

熱門(mén)資訊