
こんにちは、稗田利明です!
パナソニックR&Dカンパニーオブアメリカとパナソニックホールディングスは11月27日、生成AIの効率と速度を大幅に高める新しい視覚言語モデル「LaViDa(ラビダ)」を開発したと発表した。この技術は、検索拡張生成(RAG)における情報処理を最適化し、AIの応答速度向上にも寄与することが期待されている。
LaViDaは、画像や図表、文書など多様な情報をRAGに適した構造化データに変換することで、AIエージェントの情報検索と応用範囲を広げる仕組みを備える。これにより、従来データ活用が難しかった分野でも、自動化や業務効率化を進められるとしている。
従来型の自己回帰モデルは、回答文を1トークンずつ生成するため時間がかかる課題があった。LaViDaは拡散モデルの手法を取り入れ、複数トークンを同時に生成できる点が特長だ。この構造によって、長文生成時でもスピードを柔軟に調整でき、高速な出力を実現する。
拡散モデルはこれまで画像や映像などの生成で使われてきたが、LaViDaでは文章のような離散データに応用。文章の一部を欠損させ、それを徐々に復元する形で学習を重ねることで、文脈理解と再構築能力を高めている。
今後は、社内で蓄積された報告書、現場写真、図表などをAIが解析・検索しやすい形に変換することを目指す。特に、これまで画像としてしか扱えなかったグラフ内の数値や注釈もテキスト化し、情報の再利用を可能にする方針だ。こうした技術は、工場のオペレーション支援や建築・空間設計などの領域で、AIによる業務自動化や知識活用の拡大に大きく貢献すると見込まれている。