OpenAIが画像・音声認識に優れたGPT-4oを発表稗田利明

こんにちは、稗田利明です！

OpenAIは5月13日(米国時間)、従来のモデルよりも処理速度が向上し、画像や音声認識能力に優れた新しいモデル「GPT-4o」(oはomniの意味)を発表しました。GPT-4oは、テキスト、音声、画像といった様々な入力形式を受け付け、出力もテキスト、音声、画像で行えるマルチモーダルモデルです。[1][2]

## 高速な音声認識と自然な音声合成

GPT-4oの最大の特徴は、音声入力に対する優れた認識能力と応答時間の短さにあります。音声入力に対する平均応答時間は320ミリ秒と、人間の応答時間とほぼ同じ速さを実現しています。また、笑い声や歌唱、感情表現なども出力できるようになりました。[1]

従来のChatGPTでは、音声をテキストに変換してから処理し、出力されたテキストを再び音声に変換するという2段階のプロセスを経ていました。しかし、GPT-4oではテキスト、音声、画像を単一のニューラルネットワークでエンドツーエンドにトレーニングすることで、これらの情報を直接処理できるようになりました。[1]

## 画像認識能力の向上

GPT-4oは画像認識能力も大幅に向上しています。従来のGPT-4と比較して、画像の理解度が高まっているほか、生成された画像の品質も向上しているとのことです。[1]

## テキストとコード処理能力の維持

一方で、テキストやコードの処理能力はGPT-4 Turboと同等の高い水準を維持しています。さらに、英語以外の言語のテキスト処理能力も大幅に改善されました。[1]

## APIの価格と言語対応の改善

GPT-4oのAPIは、より高速でありながら従来モデルよりも50%安価になっています。また、20言語においては新しいトークナイザー圧縮を用いており、日本語に関しては従来よりも1.4倍程度少ないトークン数で済むようになりました。[1]

OpenAIは、GPT-4oがこの手法の限界を示しただけに過ぎないと述べています。今後、さらなる進化が期待されます。[1]

Citations:
[1] https://openai.com/index/gpt-4-research/
[2] https://openai.com/index/gpt-4/
[3] https://www.marke-media.net/whitepaper/t008/
[4] https://ai-workstyle.com/gpt-apikey/
[5] https://www.youtube.com/watch?v=TCIHvAyzzwY