VLAモデル（Vision-Language-Action）

ソフト・AI

VLAモデル（Vision-Language-Action）は、カメラで見た映像と人間の言葉の指示を、ロボットの動作に変換するAIです。「あの赤いコップを取って」と話しかければ、自分で状況を理解して動いてくれる仕組み。 GoogleのRT-2やNVIDIAのGR00Tが代表例で、ヒューマノイドの汎用化を支える基盤モデルです。