
こんにちは、稗田利明です!
[パナソニック]ホールディングスは、拡散モデルを活用した視覚言語モデル「LaViDa(ラビーダ)」を発表した。現場報告書や画像を含む多様な資料を、自動で構造化[データ]に変換し、AIエージェントによる業務効率化や自動化を目指す。LaViDaは、文章と画像の両方を扱えるマルチモーダルAIで、特に報告書のような非定型[データ]を整理しやすくすることで、社内外の情報活用を促進する。
従来の自己回帰(AR)モデルでは長文生成に時間がかかる課題があったが、LaViDaは拡散モデルを採用することで複数のトークンを並行生成し、処理速度を大幅に改善。結果として、ARモデル比1.92倍の高速化を実現した。加えて、画像トークンを扱う際の推論処理の重さを軽減する独自技術を導入し、演算の一部を固定することで計算負荷を削減している。
また、学習面では文章内の重要語句を確実に学習させる補完的マスキング手法を採用。これにより、画像とテキストの関連性を深め、精度を高めることに成功した。LaViDaは今後、グループ内業務の効率化にとどまらず、外部サービスへのAIエージェント実装にも活用が検討されている。
同社は「Panasonic Go」構想のもと、AIを中核に据えた事業転換を推進。2035年までにAI関連事業を売上全体の約3割へ拡大する目標を掲げる。UCLAとの共同研究による技術連携も進んでおり、LaViDaはその一環として、現場の知見をAIで再利用可能にする基盤技術として期待されている。