ゆるサイバーダイン
← 用語集一覧に戻る

VLAモデルVision-Language-Action

ソフト・AI
VLAモデル(Vision-Language-Action)は、カメラで見た映像と人間の言葉の指示を、ロボットの動作に変換するAIです。 「あの赤いコップを取って」と話しかければ、自分で状況を理解して動いてくれる仕組み。 GoogleのRT-2やNVIDIAのGR00Tが代表例で、ヒューマノイドの汎用化を支える基盤モデルです。
関連動画を見る

関連する機体

このメモで登場