OpenAI 发布了一个新的生成式人工智能旗舰模型,名为 GPT-4o,其中 "o "代表 omni。开发人员称,该模型可以处理文本、语音和视频,并将在几周内向用户提供。
OpenAI 的技术总监表示 GPT-4o 它提供了 "GPT-4 级智能"(该公司以前的语言模型),但在与用户和周围世界的互动方面提高了能力。他称之为 "人机交互的未来"。
GPT-4o 显著改善了与基于人工智能的露天聊天机器人 ChatGPT 的合作体验。长期以来,该平台一直提供语音模式,将聊天机器人的回复从文本转换为语音,但 GPT-4o 允许人们像与真正的对话者一样与它交流。
例如,用户可以提出基于 GPT-4o 的 ChatGPT 问题,并在回答时打断 ChatGPT。从演示中可以看出,该模型的响应速度几乎是实时的,甚至可以捕捉到用户声音中的细微差别,从而生成 "多种不同情感风格 "的声音(包括唱歌)。
此外,基于 GPT-4o 的 ChatGPT 还能通过手机摄像头 "看到 "周围的世界,描述和分析周围发生的事情。据 Murat 称,这些功能将在未来开发。GPT-4o 现在可以查看其他语言的菜单图像并进行翻译,而在未来,它将可以让 ChatGPT "观看 "体育比赛转播,并即时向用户解释比赛规则。
此前,彭博社曾撰文称,苹果公司已与 OpenAI 达成协议,将人工智能(AI)技术引入 iPhone 智能手机领域。该公司将在 6 月举行的年度全球开发者大会上宣布新款苹果设备将具备的人工智能功能。
发表回复