ゆるサイバーダイン
用語集
ゆる勉強メモ
図鑑
カレンダー
ロボ診断
☰
← 用語集一覧に戻る
VLAモデル
(Vision-Language-Action)
ソフト・AI
VLAモデル(Vision-Language-Action)は、カメラで見た映像と人間の言葉の指示を、ロボットの動作に変換するAIです。 「あの赤いコップを取って」と話しかければ、自分で状況を理解して動いてくれる仕組み。 GoogleのRT-2やNVIDIAのGR00Tが代表例で、ヒューマノイドの汎用化を支える基盤モデルです。
関連動画を見る
関連用語
ロボット基盤モデル
生成AI
マルチモーダルAI
模倣学習
Figure AI
関連する機体
Figure 03
Optimus
このメモで登場
→ Boston Dynamicsは脳を自社で作らず「外部の最強AI」を集める
→ FigureはなぜOpenAIと別れて自社AIに切り替えたのか