OpenAIは、GPT-4oと呼ばれる生成人工知能の新しいフラッグシップモデルを発表した。開発者は、このモデルはテキスト、スピーチ、ビデオを処理することができ、数週間以内にユーザーに提供されると主張している。
オープンエイのテクニカルディレクターによれば、「オープンエイの技術的な目標は、『オープンエイの技術的な目標を達成すること』である、 GPT-4o は、「GPT-4レベルのインテリジェンス」(同社の以前の言語モデル)を提供するが、ユーザーや周囲の世界とのインタラクションの点でその能力を向上させる。彼はこれを "人間と機械のインタラクションの未来 "と呼んだ。
GPT-4oは、人工知能をベースとしたオープンエアのチャットボットChatGPTでの作業体験を大幅に改善する。同プラットフォームは以前から、チャットボットの応答をテキストから音声に変換する音声モードを提供してきたが、GPT-4oによって、本物の対話者と同じようにチャットボットとコミュニケーションをとることができるようになった。
例えば、ユーザーはGPT-4oベースのChatGPTに質問し、回答中にChatGPTに割り込むことができる。デモから判断すると、このモデルはほぼリアルタイムで応答性を提供し、ユーザーの声のニュアンスまで拾うことができる。
さらに、GPT-4oをベースにしたChatGPTは、携帯電話のカメラを通して文字通り「見る」ことができ、周りで起こっていることを説明し、分析することができるようになる。村田氏によれば、これらの機能は今後開発される予定だという。GPT-4oは現在、他言語のメニュー画像を見て翻訳することができるが、将来的には、例えばChatGPTがスポーツの試合中継を「見て」、その場でユーザーにルールを説明することができるようになるだろう。
先にBloombergは、アップルがiPhoneスマートフォンに人工知能(AI)技術を導入する分野でOpenAIと契約を結んだと書いた。同社は6月に開催される年次開発者会議(Worldwide Developers Conference)で、アップルの新機種に搭載されるAI機能を発表する予定だ。
コメントを残す