
李想:理想VLA司機(jī)大模型 就是從動物進(jìn)化到人類
聲明:該文章來自(快科技)版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。
理想汽車今日晚間推出“理想AI Talk第二季——理想VLA司機(jī)大模型,從動物進(jìn)化到人類”,理想汽車董事長兼CEO李想分享了對于人工智能的最新思考,VLA司機(jī)大模型的作用、訓(xùn)練方法和挑戰(zhàn),以及對于創(chuàng)業(yè)和個人成長的見解。
李想將AI工具分為三個層級,分別是信息工具、輔助工具和生產(chǎn)工具。
目前,大多數(shù)人將AI作為信息工具使用,但信息工具常伴隨大量無效信息、無效結(jié)果和無效結(jié)論,僅具參考價值。
成為輔助工具后,AI可以提升效率,例如現(xiàn)在的輔助駕駛,但仍需人類參與。
未來,AI發(fā)展為生產(chǎn)工具后,將能獨(dú)立完成專業(yè)任務(wù),顯著提升效率與質(zhì)量。
李想表示:“判斷Agent(智能體)是否真正智能,關(guān)鍵在于它是否成為生產(chǎn)工具。只有當(dāng)人工智能變成生產(chǎn)工具,才是其真正爆發(fā)的時刻。就像人類會雇傭司機(jī),人工智能技術(shù)最終也會承擔(dān)類似職責(zé),成為真正的生產(chǎn)工具?!?/strong>
代入到自動駕駛領(lǐng)域來看,李想表示,目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段。
而VLA(Vision-Language-Action Model,視覺語言行動模型)能夠讓AI真正成為司機(jī),成為交通領(lǐng)域的專業(yè)生產(chǎn)工具。對理想汽車而言, 未來的VLA就是一個像人類司機(jī)一樣工作的司機(jī)大模型”。
VLA的實(shí)現(xiàn)不是一個突變的過程,是進(jìn)化的過程,經(jīng)歷了三個階段,對應(yīng)理想汽車輔助駕駛的昨天、今天和明天。
第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,類似“昆蟲動物智能”。
第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,接近“哺乳動物智能”。
端到端模型在處理復(fù)雜問題時存在局限,雖可借助VLM視覺語言模型輔助,但VLM使用開源模型,使其在交通領(lǐng)域的能力有限。同時端到端模型也難以與人類溝通。
為了解決這些問題并提升用戶的智能體驗(yàn),理想汽車自2024年起開展VLA研究,并在多項(xiàng)頂級學(xué)術(shù)會議上發(fā)表論文,夯實(shí)了理論基礎(chǔ)。
第三階段,在端到端的基礎(chǔ)上,VLA將開啟“人類智能”的階段,它能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。
同時,VLA擁有完整的腦系統(tǒng),具備語言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解并真正執(zhí)行行動,符合人類的運(yùn)作方式。
此外,李想還進(jìn)一步分享了VLA的訓(xùn)練細(xì)節(jié)和運(yùn)作原理。
VLA訓(xùn)練分為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練三個環(huán)節(jié),類似于人類學(xué)習(xí)駕駛技能的過程。
預(yù)訓(xùn)練相當(dāng)于人類學(xué)習(xí)物理世界和交通領(lǐng)域的常識,通過大量高清2D和3D Vision(視覺)數(shù)據(jù)、交通相關(guān)的Language(語言)語料,以及與物理世界相關(guān)的VL(Vision-Language,視覺和語言)聯(lián)合數(shù)據(jù),訓(xùn)練出云端的VL基座模型,并通過蒸餾轉(zhuǎn)化為在車端高效運(yùn)行的端側(cè)模型。
后訓(xùn)練相當(dāng)于人類去駕校學(xué)習(xí)開車的過程。隨著Action(動作)數(shù)據(jù)的加入——即對周圍環(huán)境和自車駕駛行為的編碼,VL基座變?yōu)閂LA司機(jī)大模型。
強(qiáng)化訓(xùn)練類似于人類在社會中實(shí)際開車練習(xí),目標(biāo)是讓VLA司機(jī)大模型更加安全、舒適,對齊人類價值觀,甚至超越人類駕駛水平。
VLA司機(jī)大模型以“司機(jī)Agent(智能體)”的產(chǎn)品形態(tài)呈現(xiàn),用戶可通過自然語言與司機(jī)Agent溝通,跟人類司機(jī)怎么說,就跟司機(jī)Agent怎么說。
簡單通用的短指令由端側(cè)的VLA直接處理,復(fù)雜指令則先由云端的VL基座模型解析,再交由VLA處理。
李想強(qiáng)調(diào):理想人工智能走的是無人區(qū),做VLA這件事,Deepseek、OpenAI、谷歌、Waymo都沒有走過這條路,理想以前走的是汽車的無人區(qū),以后走的是人工智能的無人區(qū)。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904692
- 2 央視曝光直播間“高端四件套”貓膩 7808247
- 3 以總理:絕不會有巴勒斯坦國 等著瞧 7713342
- 4 長春航空展這些“首次”不要錯過 7616484
- 5 始祖鳥“惹火” 安踏“惹禍” 7520614
- 6 浙江大學(xué)教授被留置 持股市值31億 7426531
- 7 9月23日晚8點(diǎn)將上演“龍收尾”天象 7329974
- 8 內(nèi)蒙古一地集中采集男性居民血樣 7234237
- 9 風(fēng)王“樺加沙”體型超整個廣東省 7139222
- 10 安踏市值蒸發(fā)125億港元 7042451