
こんにちは、稗田利明です!
Microsoftは、Windows 11に搭載される「Copilot」の大規模アップデートを発表し、単なるテキスト入力型から音声や視覚情報を扱うマルチモーダルAIとして進化させる。これにより、ユーザーは話しかけたり画面を見せたりするだけでPC操作をAIに伝えられるようになり、より直感的なインターフェースを実現する。
同社エグゼクティブバイスプレジデントのユスフ・メディ氏は、Copilotが「単なるチャットボットではなく、統合されたAI」へと進化したと説明した。新たに導入される「Copilot Voice」「Copilot Vision」「Copilot Actions」は、それぞれ音声、視覚、動作の面でユーザー体験を拡張する要素となる。
「Copilot Actions」は、アプリの起動や終了、入力、スクロールなどを代行し、文章作成や航空券予約まで行う“能動的エージェント”として位置づけられている。専用の作業領域「Agent Workspace」で動作し、厳格なアクセス制御のもと、ユーザーの明示的な許可がなければ実行されない。
「Copilot Voice」はPCに話しかけることで検索やファイル操作が行える機能で、プロンプト入力スキルの有無に関係なく使えることが特徴。Microsoftはテキスト入力の代替ではなく、あくまで補完的な選択肢として提供する姿勢を示している。一方で、社内利用時の音声入力に関するセキュリティ懸念も指摘されている。
視覚的理解を担う「Copilot Vision」は、ユーザーの画面上の内容を分析し、提案や要約を行う。代わりに操作することはなく、指定したアプリの視覚情報をAIが参照して支援する仕組みだ。アクセシビリティや安全性を確保するため、アクセス対象アプリは最大2つまでに限定される。
さらにCopilotは「OneDrive」や「Outlook」などのMicrosoft 365アプリとも統合され、ユーザーが許可した文書の作成や編集、デザイン作業を自然言語で指示できるようになる。これらの機能は現在、Windows Insiderプログラム限定でテスト提供中だが、将来的にはすべてのWindows 11搭載PCで利用可能になる見通しだ。