從技術(shù)路線上看,目前基于大模型的“大腦”技術(shù)路線正處在并行探索階段,并逐漸向端到端的大模型演進(jìn)。
現(xiàn)階段主要是 4 條技術(shù)路線:
一、 LLM(大語言模型)+VFM(視覺基礎(chǔ)模型)
實現(xiàn)人機(jī)語言交互、任務(wù)理解、推理和規(guī)劃,目前最為成熟。主要代表是谷歌的
SayCan 模型,通過預(yù)訓(xùn)練技能的價值函數(shù)對齊(Grounds)大語言模
型或者通過價值函數(shù)的訓(xùn)練使大語言模型對用戶指令進(jìn)行推理分解
獲得任務(wù)步驟。
二、 VLM(視覺-語言模型)
彌合語言與視覺理解間的差距,讓機(jī)器人實現(xiàn)更準(zhǔn)確的任務(wù)規(guī)劃和決策。主要代表是清華大學(xué)的 CoPa
模型,利用嵌入在基礎(chǔ)模型(比如視覺語言模型的代表 GPT-4V)中
的常識知識為開放世界機(jī)器人操控生成一系列的自由度末端執(zhí)行器
姿勢,生成的操控任務(wù)分為任務(wù)導(dǎo)向抓取和感知運動規(guī)劃。
三、 VLA
(視覺-語言-動作模型)
在 VLM 基礎(chǔ)上增加運動控制,解決機(jī)器人運動軌跡決策問題。主要代表是谷歌的 RT-H 模型,學(xué)習(xí)語言和運動,
并使用視覺上下文,通過利用語言-視覺-動作結(jié)合的多任務(wù)數(shù)據(jù)集學(xué)
習(xí)更強(qiáng)大和靈活的動作策略。
四、多模態(tài)大模型
實現(xiàn)對物理世界環(huán)
境的全面感知,是未來的主要研究方向。主要代表是麻省理工、IBM
等共同研究的 MultiPLY 模型,將視覺、觸覺、語音等 3D 環(huán)境的各類
特征作為輸入,以形成場景外觀的初步印象,并通過多視圖關(guān)聯(lián)將印
象中的輸出融合到 3D,最終得到以對象為中心的場景特征。
此外,類腦智能和腦機(jī)接口等創(chuàng)新技術(shù)也為人形機(jī)器人“大腦”的
解決方案帶來無限可能。類腦智能是人工智能技術(shù)的進(jìn)一步延伸,是
通過對人腦生物結(jié)構(gòu)和思維方式進(jìn)行直接模擬,使智能體能夠像人腦
一樣精確高效處理多場景下的復(fù)雜任務(wù),是未來有望代替大模型的新
技術(shù)路線。腦機(jī)接口是在人腦與外部設(shè)備間建立連接通路的技術(shù),實
現(xiàn)人腦與外界設(shè)備的信息交換。未來有望基于腦機(jī)接口實現(xiàn)“大腦”的
“人+機(jī)”混合智能。
迎賓服務(wù)機(jī)器人需要整合視覺,聽覺,觸覺等多種感知模態(tài),使機(jī)器人在復(fù)雜場景中做出更準(zhǔn)確的決策;結(jié)合聽覺和觸覺信息,機(jī)器人可以更好地理解人類的指令和情感狀態(tài)
基于模型的小腦技術(shù)路線控制方法有ZMP判據(jù)及預(yù)觀控制,混雜零動態(tài)規(guī)劃方法,虛擬模型解耦控制;基于學(xué)習(xí)的小腦技術(shù)路線控制方法有強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)
展廳迎賓機(jī)器人的“小腦”核心技術(shù)正在從基于模型的控制方法向基于學(xué)習(xí)的控制方法演進(jìn),視覺-語言模型為機(jī)器人學(xué)習(xí)復(fù)雜技能提供了新的范式,有很強(qiáng)的泛化能力,能夠根據(jù)不同的指令組合技能
機(jī)器人機(jī)械手有多個關(guān)節(jié)和多個自由度,具有很高的靈活性;配置了必要的傳感器,可以精確控制機(jī)械手的操作;微小的外形尺寸使得機(jī)械手具有很高的操作精度
AI陪伴機(jī)器人在外觀設(shè)計具備人類相似特征;在行為模式上模仿人類的行為,具備手眼協(xié)調(diào),動態(tài)足控制能力;在各個領(lǐng)域的實際應(yīng)用和用途,協(xié)助人類完成各種復(fù)雜任務(wù)
多模態(tài)感知技術(shù)讓機(jī)器人具備類似人類五感的多模態(tài)智能感知能力;通過表情識別、語音情感分析等技術(shù),讓機(jī)器人感知人 類情緒并做出相應(yīng)情感回應(yīng),增加親和力和互動性
迎賓機(jī)器人需要具備與人類實時的任務(wù)級交互能力,快速理解人類通過語言,手勢等方式給出的指令,有效執(zhí)行;迎賓機(jī)器人需要能夠通過視覺、聽覺、觸覺等多種感官獲取信息
LDS SLAM 與 VSLAM 各有優(yōu)劣,二者相容或成為行業(yè)主流發(fā)展方向之一;LDS SLAM 技術(shù)可視范圍廣,地圖精度更高;VSLAM技術(shù)成本更低,壽命長,不易損
將重復(fù)率較高,工作內(nèi)容較枯燥的工作交給服務(wù)機(jī)器人去做,可以使員工把更多的精力集中在服務(wù)客戶上面,并可以降低一定成本,可降低總成本的17%
送餐已經(jīng)可以通過機(jī)器人自主完成,員工可以把節(jié)省出來的時間和精力,投入在給客人慶生,涮菜涮肉等服務(wù)水平的提升上,機(jī)器人真正帶來了降本增效
送餐已經(jīng)可以通過機(jī)器人自主完成,員工可以把節(jié)省出來的時間和精力,投入在給客人慶生,涮菜涮肉等服務(wù)水平的提升上,機(jī)器人真正帶來了降本增效
醫(yī)療機(jī)器人已成為智慧養(yǎng)老模式下的首選養(yǎng)老設(shè)備,醫(yī)院中有繁雜的配送藥物或餐食的任務(wù),并且需在特定時間準(zhǔn)時送達(dá)
服務(wù)機(jī)器人可以使人工成本降低50%左右;酒店場景中服務(wù)機(jī)器人便于給客戶打造私密空間;旅游場景中服務(wù)機(jī)器人可以給出完全透明且準(zhǔn)確的信息
酒店引導(dǎo)機(jī)器人以機(jī)器人硬件為載體,依托云平臺強(qiáng)大的智能服務(wù)技術(shù),引入智能語音交互系統(tǒng),大數(shù)據(jù)分析系統(tǒng),智能視覺識別系統(tǒng),真正實現(xiàn)“能聽,會說,能思考,會判斷,看得見,認(rèn)得出”的智能化服務(wù)
特斯拉量產(chǎn)后預(yù)計售價 2 萬美元;優(yōu)必選Walker價格200 萬; Ameca價格13.3 萬美元; Digit價格25 萬美元;Atlas價格190 萬美元;Asimo價格近 300 萬美元
創(chuàng)澤知名的機(jī)器人推薦27寸超大屏智能服務(wù)機(jī)器人,用戶交互更便捷;接待講解,引導(dǎo)跟隨,業(yè)務(wù)咨詢,宣傳巡邏等功能,提高業(yè)務(wù)效率,提升企業(yè)形象
智慧圖書館服務(wù)機(jī)器人要比人類方便的多,可以隨意尋求幫助,不用尷尬,不用不好意思,會給你講笑話,逗你開心,幫你答疑解惑,排除你的煩惱
機(jī)場指路機(jī)器人通過語音和屏幕終端與旅客進(jìn)行交流互動,獲取航班信息,服務(wù)流程,機(jī)場設(shè)施等各類信息,能準(zhǔn)確定位,為旅客提出最優(yōu)路徑指引