稗田利明のIT Insights

ITの未来を探る、情報発信"

チューリング、国産VLA自動運転AIを公道実証 稗田利明

チューリング、国産VLA自動運転AIを公道実証

こんにちは、稗田利明です!

自動運転向けフィジカルAIの開発を進めるTuring(チューリング)は、視覚・言語・行動を統合する「VLA(Vision-Language-Action)モデル」を用い、国内で初めて公道におけるリアルタイム制御と自動運転走行を実現したと発表した。開発はNEDOの生成AI研究支援プログラム「GENIAC」の一環で行われ、一部成果がすでに公開されている。

チューリングのVLAモデルは、カメラ映像などの視覚情報と自然言語による状況記述を統合し、車両の操舵や加減速といった運転行動を予測・出力するのが特徴だ。従来のセンサー中心のEnd-to-Endモデルとは異なり、言語モデルを基盤とした意思決定アーキテクチャを採用しており、より人間に近い文脈的な判断を可能にしている。

約20億パラメータ規模で学習されたこのVLAモデルは、車載コンピュータ向けに最適化され、毎秒10回(10Hz)でリアルタイム推論と制御を同時実行。実際の公道走行で安定した自動運転性能を確認したという。チューリングはこれまで、LiDARなどの高価なセンサーに依存せず、言語モデルを中心に自律走行AIを開発しており、今回の成果はその研究の集大成と位置づけられる。

さらに同社は、AIの理解力を強化するための因果推論データセット「RACER(Rationale-Aware Captioning of Edge-Case Driving Scenarios)」を構築。運転判断の因果構造を明示することで、AIが行動の根拠を理解し、より安全で合理的な運転を学習できる仕組みを整えた。その一部を「RACER-Mini」としてHugging Face上で公開している。

また、運転映像を約1/100に効率圧縮する画像トークナイザ「DriveTiTok」も発表。シーン全体の文脈や時間的変化を保持したまま視覚情報を離散トークンに変換し、高速処理と学習効率を両立している。こちらも学習済みモデルがオープン公開されており、国内AI研究の新たな基盤技術として注目を集めそうだ。