E2B 技術(shù)解析:基于 LLaMA-3 在 Together AI 上實(shí)現(xiàn) AI 生成代碼的安全沙箱執(zhí)行與實(shí)戰(zhàn)指南
掌握使用 E2B 在安全沙箱中執(zhí)行 AI 代碼的技術(shù)探索 E2B 如何為在 Together AI 上使用 LLaMA-3 運(yùn)行 AI 生成代碼提供安全、隔離的
NVIDIA Cosmos 如何通過(guò)物理仿真賦能物理 AI?解析世界基礎(chǔ)模型與合成數(shù)據(jù)技術(shù)的革新價(jià)值
.NVIDIA Cosmos:通過(guò)仿真模擬賦能物理 AI 發(fā)展工廠里的機(jī)器人、道路上的自動(dòng)駕駛汽車(chē)等物理 AI 系統(tǒng)的開(kāi)發(fā),高度依賴(lài)大規(guī)模高質(zhì)量數(shù)據(jù)集進(jìn)行訓(xùn)練。
研究警示:大語(yǔ)言模型易成 “腳本攻擊幫兇”,漏洞利用生成能力逼近實(shí)用邊界
.研究表明大語(yǔ)言模型可能協(xié)助惡意 “氛圍編碼”過(guò)去幾年,大語(yǔ)言模型(LLMs)因可能被濫用于攻擊性網(wǎng)絡(luò)安全領(lǐng)域(尤其是生成軟件漏洞利用代碼)而備受審視。近期 “
【技術(shù)解析】NVIDIA Dynamo 如何重塑 AI 推理?揭秘分離式架構(gòu)與 30 倍效率提升的高性能部署方案
探索 NVIDIA Dynamo 如何破解規(guī)模化 AI 推理難題!本文深度解析 NVIDIA 2025 年推出的高性能框架,揭秘其分離式服務(wù)架構(gòu)、GPU 資源動(dòng)態(tài)調(diào)度、KV 緩存優(yōu)化等核心技術(shù),如何將大模型推理效率提升 30 倍以上。涵蓋自動(dòng)駕駛、金融欺詐檢測(cè)、醫(yī)療診斷等行業(yè)應(yīng)用,對(duì)比 AWS In
【技術(shù)變革】多智能體 AI 編排如何重構(gòu)企業(yè)未來(lái)?從跨部門(mén)協(xié)作到效率革命的三大核心策略
探索多智能體 AI 如何顛覆企業(yè)運(yùn)營(yíng)!本文解析多智能體 AI 編排技術(shù)如何打破部門(mén)壁壘,通過(guò)智能體協(xié)同提升跨領(lǐng)域效率,涵蓋金融、制造、零售等行業(yè)案例。從吉利德科學(xué)的實(shí)踐到三大核心策略(效率優(yōu)化、跨部門(mén)協(xié)作、定制化解決方案),揭示企業(yè)如何借助 AI 智能體網(wǎng)絡(luò)實(shí)現(xiàn)生產(chǎn)力突破與創(chuàng)新加速,搶占未來(lái)競(jìng)爭(zhēng)先機(jī)
顛覆認(rèn)知:AI 研究中 “下載更多標(biāo)簽” 的致命錯(cuò)覺(jué)與數(shù)據(jù)注釋真相大揭秘
探索人工智能研究中的關(guān)鍵誤區(qū) ——“下載更多標(biāo)簽” 錯(cuò)覺(jué)!當(dāng)前機(jī)器學(xué)習(xí)研究常寄望用技術(shù)解決數(shù)據(jù)注釋難題,卻忽視人工注釋質(zhì)量對(duì) AI 系統(tǒng)的核心作用。德國(guó)最新研究通過(guò)重新審視 POPE 基準(zhǔn)測(cè)試,揭示舊有數(shù)據(jù)集注釋錯(cuò)誤如何扭曲視覺(jué)語(yǔ)言模型評(píng)估,影響模型排名與幻覺(jué)判斷。文章深入解析研究方法、測(cè)試結(jié)果,指
解密 DeepSeek:如何讓每個(gè)企業(yè)都能負(fù)擔(dān)得起專(zhuān)屬大語(yǔ)言模型
本文深入探討了中國(guó)初創(chuàng)公司 DeepSeek 在大語(yǔ)言模型(LLM)開(kāi)發(fā)方面的創(chuàng)新實(shí)踐。闡述了其如何以低成本克服技術(shù)限制,通過(guò)獨(dú)特的訓(xùn)練方法,如利用少量高質(zhì)量數(shù)據(jù)和迭代強(qiáng)化學(xué)習(xí),為小型組織開(kāi)發(fā) LLM 開(kāi)辟新路徑。對(duì)比傳統(tǒng) LLM 開(kāi)發(fā)的高成本,分析了 DeepSeek 模式對(duì)小型企業(yè)和組織的價(jià)值,
Anthropic 揭秘大語(yǔ)言模型克勞德:突破 AI 黑箱,探尋思維與決策機(jī)制
深入探討 Anthropic 公司對(duì)大語(yǔ)言模型克勞德的研究進(jìn)展,解析如何繪制其思維圖譜、追蹤推理過(guò)程,闡述該研究在 AI 透明度方面的重大意義,同時(shí)分析面臨的挑戰(zhàn),為關(guān)注 AI 技術(shù)發(fā)展、尤其是大語(yǔ)言模型可解釋性的讀者提供全面且專(zhuān)業(yè)的內(nèi)容,助力您深入了解 AI 黑箱破解的前沿動(dòng)態(tài)。
大型語(yǔ)言模型推理技術(shù)演進(jìn)與前沿模型對(duì)比分析 ——o3/Gemini 2.0/Claude 3.7 核心技術(shù)解析
深度解析大型語(yǔ)言模型推理技術(shù)演進(jìn),對(duì)比分析 OpenAI o3、谷歌 Gemini 2.0 等前沿模型核心技術(shù)。涵蓋推理時(shí)計(jì)算擴(kuò)展、強(qiáng)化學(xué)習(xí)、監(jiān)督微調(diào)等四大核心技術(shù),揭示不同模型在數(shù)學(xué)推理、代碼生成、多模態(tài)處理等場(chǎng)景的性能差異與成本效益。提供專(zhuān)業(yè)技術(shù)解讀與選型指南,助力 AI 開(kāi)發(fā)者及企業(yè)技術(shù)決策。
網(wǎng)腦科技:重塑網(wǎng)絡(luò)管理格局,引領(lǐng) AI 驅(qū)動(dòng)的網(wǎng)絡(luò)自動(dòng)化新征程
網(wǎng)腦科技由高凌平 2004 年創(chuàng)立,作為網(wǎng)絡(luò)自動(dòng)化領(lǐng)域的領(lǐng)軍者,通過(guò)無(wú)代碼自動(dòng)化技術(shù)、數(shù)字孿生、AI 驅(qū)動(dòng)等創(chuàng)新方案,為超 2400 家企業(yè)解決網(wǎng)絡(luò)管理難題,在故障排查、安全實(shí)施、混合及多云網(wǎng)絡(luò)管理等方面優(yōu)勢(shì)顯著,助力企業(yè)降低平均修復(fù)時(shí)間、提升網(wǎng)絡(luò)可觀測(cè)性與合規(guī)性,引領(lǐng)網(wǎng)絡(luò)自動(dòng)化邁向 AI 驅(qū)動(dòng)的未
n8n:AI 驅(qū)動(dòng)工作流自動(dòng)化變革,融資 5500 萬(wàn)歐元,75% 客戶(hù)已享 AI 紅利
在 AI 驅(qū)動(dòng)開(kāi)發(fā)者工具變革浪潮中,n8n 憑借向 AI 友好型工作流程自動(dòng)化平臺(tái)轉(zhuǎn)型實(shí)現(xiàn)收入 5 倍增長(zhǎng),近期獲 5500 萬(wàn)歐元 B 輪融資,估值達(dá) 2.5 億歐元。這家 2019 年成立的柏林初創(chuàng)公司,擁有超 3000 企業(yè)客戶(hù)與 20 萬(wàn)活躍用戶(hù),將借助融資拓展美國(guó)等市場(chǎng)。n8n 不僅因低代
ARC-AGI-2 新測(cè)試橫空出世!多數(shù) AI 模型折戟,通用智能衡量再掀波瀾
非營(yíng)利組織 Arc Prize Foundation 推出新測(cè)試 ARC-AGI-2 衡量 AI 通用智能,多數(shù) AI 模型表現(xiàn)不佳,如 OpenAI 的 o1-pro 和 DeepSeek 的 R1 得分僅 1%-1.3% ,強(qiáng)大非推理模型得分約 1%,而人類(lèi)平均答對(duì) 60%。該測(cè)試引入效率指標(biāo),
具身多模態(tài)大模型:開(kāi)發(fā)、數(shù)據(jù)集與未來(lái)趨勢(shì)解析(下)
具身多模態(tài)大模型(EMLM)是融合語(yǔ)言、視覺(jué)、觸覺(jué)等多模態(tài)數(shù)據(jù)與物理交互能力的前沿 AI 系統(tǒng),由廣東人工智能和數(shù)字經(jīng)濟(jì)實(shí)驗(yàn)室等機(jī)構(gòu)牽頭研究。本文系統(tǒng)梳理 EMLM 技術(shù)體系,剖析 PaLM-E、RT-1 等典型模型及 Open X-Embodiment、Habitat-Sim 等數(shù)據(jù)集,重點(diǎn)探討跨
PD-VLA:并行解碼與動(dòng)作分塊協(xié)同加速的視覺(jué) - 語(yǔ)言 - 動(dòng)作模型,實(shí)現(xiàn) 2.52 倍推理效率提升
本文提出一種結(jié)合并行解碼加速與動(dòng)作分塊的視覺(jué) - 語(yǔ)言 - 動(dòng)作(VLA)模型框架 PD-VLA,旨在解決傳統(tǒng) VLA 模型因自回歸解碼導(dǎo)致的推理效率問(wèn)題。通過(guò)將自回歸解碼重構(gòu)為并行定點(diǎn)迭代求解的非線(xiàn)性系統(tǒng),PD-VLA 在保持模型性能的同時(shí)顯著提升解碼速度,實(shí)現(xiàn)無(wú)需架構(gòu)更改的無(wú)訓(xùn)練加速,并兼容現(xiàn)有
AI大模型重構(gòu)汽車(chē)智能:多模態(tài)融合與端到端自動(dòng)駕駛技術(shù)突破
深度解析基于深度學(xué)習(xí)的自動(dòng)駕駛小車(chē)核心技術(shù),詳解卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像特征提取中的應(yīng)用。涵蓋卷積層、激活函數(shù)、池化層及線(xiàn)性變換層的原理與 PaddlePaddle 實(shí)現(xiàn),結(jié)合英偉達(dá)端到端模型,展示如何通過(guò)海量數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)實(shí)時(shí)轉(zhuǎn)向決策。突破傳統(tǒng)算法依賴(lài)人工調(diào)參的局限,提供工程實(shí)踐指導(dǎo),助力復(fù)雜場(chǎng)
AI 大模型及汽車(chē)應(yīng)用研究:推理、降本和可解釋性
聚焦 AI 大模型在汽車(chē)領(lǐng)域的技術(shù)突破,深度解析推理能力提升、可解釋性技術(shù)及成本優(yōu)化路徑。涵蓋多模態(tài)推理框架、決策可視化方案及低功耗部署方案,揭秘 DeepSeek 等前沿模型如何助力高階智駕與智能座艙平權(quán),構(gòu)建安全可信的人車(chē)交互體驗(yàn)。
第一性原理重構(gòu)智能汽車(chē):大模型上車(chē)的多模態(tài)融合與端到端應(yīng)用突破
深入解析大模型在汽車(chē)領(lǐng)域的創(chuàng)新應(yīng)用,從第一性原理出發(fā),探討多模態(tài)融合、端到端自動(dòng)駕駛、車(chē)機(jī)交互及商用車(chē)能效優(yōu)化。涵蓋熱管理、電池管理、智能導(dǎo)航等場(chǎng)景,揭秘大模型如何提升車(chē)輛性能與用戶(hù)體驗(yàn)。
情感交互智能體完整搭建流程(完全免費(fèi)本地化部署)
本文介紹了一種 情感交互智能體完整搭建流程(完全本地化部署)的實(shí)用方法。
情感交互智能體完整搭建流程(最小化全免費(fèi)技術(shù)方案)
本文介紹了情感交互智能體完整搭建流程(最小化全免費(fèi)技術(shù)方案),以及所需電腦配置要求(開(kāi)發(fā)環(huán)境和生產(chǎn)環(huán)境)。
讓網(wǎng)絡(luò)空間與物理世界保持一致:具身AI綜述
具身人工智能 (Embodied AI) 對(duì)于實(shí)現(xiàn)通用人工智能 (AGI) 至關(guān)重要,是連接網(wǎng)絡(luò)空間和物理世界各種應(yīng)用的基礎(chǔ)。最近,多模態(tài)大模型 (MLM) 和世界模型 (WM) 的出現(xiàn)因其出色的感知、交互和推理能力而引起了廣泛關(guān)注,使其成為具身智體大腦的有前途架構(gòu)。該綜述全面探索具身人工智能的最新
RFST:具有快慢思考的語(yǔ)言調(diào)節(jié)機(jī)器人操作
語(yǔ)言調(diào)節(jié)機(jī)器人操作,旨在將自然語(yǔ)言指令轉(zhuǎn)化為可執(zhí)行動(dòng)作,從簡(jiǎn)單的“拾取和放置”到需要意圖識(shí)別和視覺(jué)推理的任務(wù)。受認(rèn)知科學(xué)中的 Dual Process 理論的啟發(fā)——該理論表明人類(lèi)決策中存在兩個(gè)平行的快速和慢速思考系統(tǒng)——引入快速和慢速思考機(jī)器人 (RFST),這是一個(gè)模仿人類(lèi)認(rèn)知架構(gòu)的框架,用于對(duì)
RCML可靠沖突性多視角學(xué)習(xí):通過(guò)證據(jù)驅(qū)動(dòng)的多視角融合提供決策可靠性
2024年2月28日,由多位作者聯(lián)合提出了一種名為可靠沖突性多視角學(xué)習(xí)(RCML)的框架,其核心貢獻(xiàn)在于為含有沖突性實(shí)例的多視角數(shù)據(jù)提供決策結(jié)果與可靠性評(píng)估。該方法通過(guò)證據(jù)驅(qū)動(dòng)的多視角融合(ECML)策略,在6個(gè)公開(kāi)數(shù)據(jù)集上驗(yàn)證了其在準(zhǔn)確性、可靠性和魯棒性上的優(yōu)勢(shì)。 研究強(qiáng)調(diào),傳統(tǒng)方法僅通過(guò)消
ST-Align:一個(gè)包含430萬(wàn)訓(xùn)練樣本,涵蓋了15種細(xì)粒度多模態(tài)數(shù)據(jù)集
2025-01-15,由北航大學(xué)、合肥工業(yè)大學(xué)、中科院信息工程研究所和美團(tuán)等機(jī)構(gòu)聯(lián)合創(chuàng)建介紹了一種名為L(zhǎng)LaVA-ST的多模態(tài)大型語(yǔ)言模型。該模型配備了一個(gè)名為ST-Align的數(shù)據(jù)集,包含430萬(wàn)訓(xùn)練樣本,專(zhuān)為細(xì)粒度時(shí)空多模態(tài)理解設(shè)計(jì)。
具身智能中 VLA 主流方案全解析:技術(shù)總結(jié)與未來(lái)展望
具身智能旨在讓智能體在物理世界中通過(guò)感知、決策和行動(dòng)來(lái)實(shí)現(xiàn)目標(biāo),而視覺(jué) - 語(yǔ)言 - 動(dòng)作(VLA)模型作為其中的關(guān)鍵技術(shù),近年來(lái)備受關(guān)注。VLA 模型能夠處理視覺(jué)、語(yǔ)言和動(dòng)作信息,使智能體理解人類(lèi)指令并在環(huán)境中執(zhí)行相應(yīng)任務(wù)。本文將結(jié)合相關(guān)論文及當(dāng)前在線(xiàn)內(nèi)容,對(duì)主流的 VLA 方案進(jìn)行總結(jié),包括其開(kāi)
LGDRL:大語(yǔ)言模型引導(dǎo)深度強(qiáng)化學(xué)習(xí),助力自動(dòng)駕駛決策
本研究提出了一種新穎的“大型語(yǔ)言模型引導(dǎo)深度強(qiáng)化學(xué)習(xí)”(LGDRL)框架,旨在解決自主駕駛中的決策問(wèn)題。該框架通過(guò)集成基于大型語(yǔ)言模型(LLM)的駕駛專(zhuān)家,顯著提高了深度強(qiáng)化學(xué)習(xí)(DRL)的學(xué)習(xí)效率和決策性能。實(shí)驗(yàn)結(jié)果表明,LGDRL方法在復(fù)雜駕駛場(chǎng)景中實(shí)現(xiàn)了90%的任務(wù)成功率,并有效減少了對(duì)人類(lèi)專(zhuān)
InternLM-XComposer2.5-Reward:一個(gè)簡(jiǎn)單而有效的多模態(tài)獎(jiǎng)勵(lì)模型
本文介紹了InternLM-XComposer2.5-Reward(IXC-2.5-Reward),一種簡(jiǎn)單而有效的多模態(tài)獎(jiǎng)勵(lì)模型,旨在提升大型視覺(jué)語(yǔ)言模型(LVLMs)的生成質(zhì)量。IXC-2.5-Reward通過(guò)與人類(lèi)偏好的對(duì)齊,解決了當(dāng)前多模態(tài)獎(jiǎng)勵(lì)模型稀缺的問(wèn)題,并展示了其在多種任務(wù)中的優(yōu)越性能
Ollama+Deepseek+Dify搭建本地知識(shí)庫(kù)攻略
本文詳細(xì)介紹了使用Ollama+Deepseek+Dify搭建本地知識(shí)庫(kù)的方法。
免費(fèi)AI編程助手: 如何在 Visual Studio Code 免費(fèi)使用 DeepSeek R1
本文詳細(xì)介紹如何在VSCode中免費(fèi)使用DeepSeek R1作為AI編程助手,完美替代付費(fèi)的GitHub Copilot。DeepSeek R1是一個(gè)強(qiáng)大的開(kāi)源語(yǔ)言模型,性能可媲美GPT-4。文章包含三種部署方案:LM Studio、Ollama和Jan.ai的完整配置教程,以及與VSCode插件
DeepSeek新手必看!DeepSeek個(gè)人應(yīng)用全攻略
本文詳細(xì)介紹了DeepSeek的個(gè)人使用指南。
Dify+DeepSeek-R1: 我的超強(qiáng)AI工作流,詳細(xì)部署攻略
本文介紹了Dify+DeepSeek-R1的詳細(xì)部署攻略。
DeepSeek大模型微調(diào)實(shí)戰(zhàn)(超詳細(xì)實(shí)戰(zhàn)篇)
DeepSeek是由深度求索團(tuán)隊(duì)開(kāi)發(fā)的大語(yǔ)言模型,本實(shí)驗(yàn)將基于deepseek-llm-7b-chat模型,在EmoLLM數(shù)據(jù)集進(jìn)行微調(diào),實(shí)現(xiàn)大模型能夠以心理醫(yī)生的口吻來(lái)回答我們的問(wèn)題。 本實(shí)驗(yàn)基于transformers和openMind均已實(shí)現(xiàn)本次微調(diào),代碼均可在github鏈接上查看。 通
DeepSeek本地部署全攻略
本文介紹了如何在本地部署deepseek和配置Chatbox AI的詳細(xì)步驟。
DeepSeek 在 FPGA/IC 開(kāi)發(fā)中的創(chuàng)新應(yīng)用與未來(lái)潛力
隨著人工智能技術(shù)的飛速發(fā)展,以 DeepSeek 為代表的大語(yǔ)言模型(LLM)正在逐步滲透到傳統(tǒng)硬件開(kāi)發(fā)領(lǐng)域。在 FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)和 IC(集成電路)開(kāi)發(fā)這一技術(shù)密集型行業(yè)中,DeepSeek 憑借其強(qiáng)大的自然語(yǔ)言處理、代碼生成和邏輯推理能力,展現(xiàn)出顛覆傳統(tǒng)開(kāi)發(fā)流程的潛力。本文將深入探討
EvalPlanner:基于“計(jì)劃-執(zhí)行”雙階段的大語(yǔ)言模型評(píng)估框架
大語(yǔ)言模型(LLM)評(píng)估系統(tǒng)在生成思維鏈(Chain-of-Thought, CoT)序列時(shí),需要系統(tǒng)地捕捉評(píng)估過(guò)程中的推理步驟。但是由于缺乏人工標(biāo)注的CoT訓(xùn)練數(shù)據(jù),以及預(yù)定義評(píng)估提示在復(fù)雜任務(wù)中的局限性,構(gòu)建高質(zhì)量的LLM評(píng)估模型面臨重大挑戰(zhàn)。另外手動(dòng)調(diào)整評(píng)估指令的方法在面對(duì)多樣化和復(fù)雜任務(wù)時(shí)表
DeepSeek 背后的技術(shù)基石:DeepSeekMoE基于專(zhuān)家混合系統(tǒng)的大規(guī)模語(yǔ)言模型架構(gòu)
本文將從技術(shù)角度深入分析DeepSeekMoE的架構(gòu)設(shè)計(jì)、理論基礎(chǔ)和實(shí)驗(yàn)性能,探討其在計(jì)算資源受限場(chǎng)景下的應(yīng)用價(jià)值。
大型視覺(jué)-語(yǔ)言模型的基準(zhǔn)評(píng)估、應(yīng)用和挑戰(zhàn):綜述
多模態(tài)視覺(jué)語(yǔ)言模型 (VLM) 已成為計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理交叉領(lǐng)域的一項(xiàng)變革性技術(shù),使機(jī)器能夠通過(guò)視覺(jué)和文本模態(tài)感知和推理世界。例如,CLIP [209]、Claude [10] 和 GPT-4V [273] 等模型在視覺(jué)和文本數(shù)據(jù)上表現(xiàn)出強(qiáng)大的推理和理解能力,并在零樣本分類(lèi) [107] 上擊敗
VLM-AD:通過(guò)視覺(jué)語(yǔ)言模型監(jiān)督實(shí)現(xiàn)端到端自動(dòng)駕駛
VLM-AD 利用視覺(jué)語(yǔ)言模型 (VLM) 作為老師,通過(guò)提供額外的監(jiān)督來(lái)加強(qiáng)訓(xùn)練,這種監(jiān)督結(jié)合了非結(jié)構(gòu)化推理信息和結(jié)構(gòu)化動(dòng)作標(biāo)簽。這種監(jiān)督增強(qiáng)了模型學(xué)習(xí)更豐富的特征表示能力,這些特征表示可以捕捉駕駛模式背后的原因。重要的是,該方法在推理過(guò)程中不需要 VLM,這使得它適用于實(shí)時(shí)部署。當(dāng)與最先進(jìn)的方
訓(xùn)練大語(yǔ)言模型在連續(xù)潛空間中進(jìn)行推理
大語(yǔ)言模型 (LLM) 僅限于在“語(yǔ)言空間”中進(jìn)行推理,它們通常使用思維鏈 (CoT) 來(lái)表達(dá)推理過(guò)程,以解決復(fù)雜的推理問(wèn)題。然而,認(rèn)為語(yǔ)言空間可能并不總是推理的最佳空間。例如,大多數(shù)單詞tokens主要用于文本連貫性,對(duì)推理來(lái)說(shuō)并不是必不可少的,而一些關(guān)鍵tokens需要復(fù)雜的規(guī)劃,對(duì) LLM 構(gòu)
OpenEMMA:用于端到端自動(dòng)駕駛的開(kāi)源多模態(tài)模型
本文提出基于 MLLM 的開(kāi)源端到端框架 OpenEMMA。通過(guò)結(jié)合思維鏈推理過(guò)程,OpenEMMA 在利用各種 MLLM 時(shí)與基線(xiàn)相比實(shí)現(xiàn)顯著改進(jìn)。此外,OpenEMMA 在各種具有挑戰(zhàn)性的駕駛場(chǎng)景中展示有效性、通用性和穩(wěn)健性,為自動(dòng)駕駛提供更高效、更有效的方法。
EMMA:自動(dòng)駕駛的端到端多模態(tài)模型
EMMA,一種用于自動(dòng)駕駛的端到端多模態(tài)模型。EMMA 建立在多模態(tài)大語(yǔ)言模型基礎(chǔ)上,將原始攝像頭傳感器數(shù)據(jù)直接映射到各種駕駛特定輸出,包括規(guī)劃器軌跡、感知目標(biāo)和道路圖元素。EMMA 通過(guò)將所有非傳感器輸入(例如導(dǎo)航指令和自車(chē)狀態(tài))和輸出(例如軌跡和 3D 位置)表示為自然語(yǔ)言文本,最大限度地利用來(lái)
UniGraspTransformer:可擴(kuò)展靈巧機(jī)器人抓取的簡(jiǎn)化策略蒸餾
UniGraspTransformer,是一種基于Transformer的通用網(wǎng)絡(luò),用于靈巧的機(jī)器人抓取,可簡(jiǎn)化訓(xùn)練,同時(shí)增強(qiáng)可擴(kuò)展性和性能。與最先進(jìn)的 UniDexGrasp++ 相比,在各種目標(biāo)類(lèi)別中都有了顯著的改進(jìn),在基于視覺(jué)的設(shè)置中,見(jiàn)過(guò)的目標(biāo)、見(jiàn)過(guò)類(lèi)別中的未見(jiàn)過(guò)目標(biāo)和完全未見(jiàn)過(guò)目標(biāo)的成功率
RoboMIND:機(jī)器人操作多-具身智能規(guī)范數(shù)據(jù)基準(zhǔn)
本文介紹 RoboMIND(機(jī)器人操作多-具身智能的規(guī)范數(shù)據(jù)),它包含 55,000 條真實(shí)世界的演示軌跡,涉及 61 個(gè)不同目標(biāo)類(lèi)別的 279 個(gè)不同任務(wù)。
HE-Drive:利用視覺(jué)-語(yǔ)言模型實(shí)現(xiàn)類(lèi)人端到端駕駛
HE-Drive是一個(gè)以人為本的端到端自動(dòng)駕駛系統(tǒng),可生成時(shí)間一致且舒適的軌跡。HE-Drive 不僅在具有挑戰(zhàn)性的 nuScenes 和 OpenScene 數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能(平均碰撞率比 VAD 降低了 71%)和效率(比 SparseDrive 快 1.9 倍),而且還在現(xiàn)實(shí)世界數(shù)據(jù)
VLM-MPC:自動(dòng)駕駛中模型預(yù)測(cè)控制器增強(qiáng)視覺(jué)-語(yǔ)言模型
VLM-MPC 是一個(gè)閉環(huán)自動(dòng)駕駛控制器,它將模型預(yù)測(cè)控制器 (MPC) 與 VLM 相結(jié)合,評(píng)估基于模型的控制如何增強(qiáng) VLM 決策。VLM-MPC 始終將侵占后時(shí)間 (PET) 保持在安全閾值以上,與真實(shí)世界軌跡和基于 VLM 的控制相比,VLM-MPC 增強(qiáng)平滑度。通過(guò)比較不同環(huán)境設(shè)置下的行為
3D Diffuser Actor:使用3D場(chǎng)景表示進(jìn)行策略擴(kuò)散
3D diffuser actor,這是一種神經(jīng)策略,配備了一種 3D 去噪 transformer,其融合了來(lái)自 3D 視覺(jué)場(chǎng)景、語(yǔ)言指令和本體感受的信息,以預(yù)測(cè)噪聲 3D 機(jī)器人姿勢(shì)軌跡中的噪聲。3D diffuser actor在 RLBench 上創(chuàng)造了最先進(jìn)水平,在多視圖設(shè)置上絕對(duì)性能比當(dāng)
具有改進(jìn)3D擴(kuò)散策略的可通用人形機(jī)器人操控
本文對(duì) DP3 進(jìn)行修改,實(shí)現(xiàn)有針對(duì)性的改進(jìn)。由此產(chǎn)生的改進(jìn)算法,稱(chēng)為改進(jìn)的 3D 擴(kuò)散策略 (iDP3)。
基于學(xué)習(xí)的機(jī)器人手中操作方法綜述
手中操作是機(jī)器人技術(shù)中最具挑戰(zhàn)性的課題之一,也是機(jī)器人應(yīng)用可行性的重要方面。傳統(tǒng)的分析方法很難估計(jì)目標(biāo)屬性和嘈雜的感官信息。由于使用這些傳統(tǒng)方法進(jìn)行手中操作已達(dá)到瓶頸,研究人員正在利用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方面的進(jìn)步來(lái)解鎖新的靈活性水平。
接觸重定位實(shí)現(xiàn)長(zhǎng)范圍外部操控的單樣本遷移
該算法總結(jié)了一個(gè) N 基元演示,該演示重定位到測(cè)試時(shí)間 E, O 和目標(biāo)初始狀態(tài) x/0。使用 retarget_x 為每個(gè)基元賦予一個(gè)具體目標(biāo)。在完成當(dāng)前基元后,在執(zhí)行下一個(gè)基元之前,用每個(gè)(獨(dú)立)接觸開(kāi)關(guān)狀態(tài)下的 retarget_q 來(lái)計(jì)算下一個(gè)基元的機(jī)器人與目標(biāo)接觸。假設(shè)有一個(gè)額外的子程序
Moto:潛運(yùn)動(dòng)token作為機(jī)器人操作的橋接語(yǔ)言
本文提出有效的機(jī)器人學(xué)習(xí)應(yīng)該強(qiáng)調(diào)與動(dòng)作相關(guān)的知識(shí),這些知識(shí)與低級(jí)動(dòng)作密切相關(guān)并且與硬件無(wú)關(guān),從而有助于將學(xué)到的動(dòng)作遷移到實(shí)際的機(jī)器人動(dòng)作。為此,引入 Moto,通過(guò)潛運(yùn)動(dòng)token化器將視頻內(nèi)容轉(zhuǎn)換為潛運(yùn)動(dòng)token序列,以無(wú)監(jiān)督的方式從視頻中學(xué)習(xí)運(yùn)動(dòng)的橋接“語(yǔ)言”。通過(guò)運(yùn)動(dòng)token自回歸對(duì) Mo
CogACT:機(jī)器人操作中協(xié)同認(rèn)知和行動(dòng)的基礎(chǔ)視覺(jué)-語(yǔ)言-行動(dòng)模型
本文提出一種源自 VLM 的高級(jí) VLA 架構(gòu)。與以前通過(guò)簡(jiǎn)單的動(dòng)作量化直接將 VLM 重用于動(dòng)作預(yù)測(cè)的研究不同,其提出一種組件化的 VLA 架構(gòu),該架構(gòu)具有以 VLM 輸出為條件的專(zhuān)用動(dòng)作模塊。本文系統(tǒng)地研究動(dòng)作模塊的設(shè)計(jì),并展示使用擴(kuò)散動(dòng)作Transformer對(duì)動(dòng)作序列建模的強(qiáng)大性能提升,以及
