OpenAI 發表了一個新的生成式人工智慧旗艦模型,名為 GPT-4o,其中「o」代表 omni。開發人員聲稱,該模型可以處理文字、語音和視訊,並將在幾週內提供給使用者。
根據 OpenAI 技術總監的說法、 GPT-4o 提供「GPT-4 等級的智慧」(該公司之前的語言模型),但在與使用者及周遭世界互動的能力上有所提升。他稱之為「人機互動的未來」。
GPT-4o 大幅改善了與以人工智慧為基礎的 Open air 聊天機器人 ChatGPT 合作的體驗。該平台早已提供語音模式,可將聊天機器人的回應從文字轉換為語音,但 GPT-4o 可讓人們像與真正的對話者一樣與它溝通。
例如,使用者可以提出基於 GPT-4o 的 ChatGPT 問題,並在回答時中斷 ChatGPT。從示範來看,該模型幾乎可以即時提供回應,甚至可以捕捉使用者語音中的細微差異,以回應產生「多種不同情感風格」(包括歌唱)的聲音。
此外,基於 GPT-4o 的 ChatGPT 將能夠透過手機相機真實「看見」周遭的世界,描述並分析周遭發生的事情。據 Murat 所說,這些功能將在未來開發。GPT-4o 現在可以查看其他語言的菜單圖像並進行翻譯,而在未來,它將能夠允許 ChatGPT,例如,「觀看 」體育比賽的轉播,並隨時向用戶解釋其規則。
較早前,彭博社撰文指出,蘋果已與 OpenAI 達成協議,在 iPhone 智慧型手機領域導入人工智慧 (AI) 技術。該公司將於 6 月舉行的年度全球開發者大會上,宣佈新款蘋果裝置機型所搭載的 AI 功能。
發佈留言