A OpenAI anunciou um novo modelo emblemático de inteligência artificial generativa chamado GPT-4o, em que "o" significa omni. Os criadores afirmam que o modelo pode processar texto, voz e vídeo e estará disponível para os utilizadores dentro de algumas semanas.
De acordo com o diretor técnico da OpenAI, GPT-4o fornece "inteligência de nível GPT-4" (o anterior modelo de linguagem da empresa), mas melhora as suas capacidades em termos de interação com o utilizador e o mundo que o rodeia. Chamou-lhe "o futuro da interação homem-máquina".
O GPT-4o melhora significativamente a experiência de trabalho com o chatbot ao ar livre baseado em inteligência artificial, o ChatGPT. A plataforma oferece há muito tempo um modo de voz que converte as respostas do chatbot de texto em voz, mas o GPT-4o permite que as pessoas comuniquem com ele como com um interlocutor real.
Por exemplo, os utilizadores podem fazer uma pergunta ao ChatGPT baseada no GPT-4o e interromper o ChatGPT enquanto respondem. A julgar pelas demonstrações, o modelo responde quase em tempo real e pode até captar nuances na voz do utilizador, em resposta à geração de vozes em "vários estilos emocionais diferentes" (incluindo o canto).
Além disso, o ChatGPT baseado no GPT-4o poderá literalmente "ver" o mundo à sua volta através da câmara de um telemóvel, descrever e analisar o que está a acontecer à sua volta. De acordo com Murat, estas funções serão desenvolvidas no futuro. Embora o GPT-4o possa agora olhar para a imagem do menu noutra língua e traduzi-la, no futuro poderá permitir ao ChatGPT, por exemplo, "ver" uma transmissão de um jogo desportivo e explicar as suas regras ao utilizador em tempo real.
Anteriormente, a Bloomberg escreveu que a Apple celebrou um acordo com a OpenAI no domínio da introdução de tecnologias de inteligência artificial (IA) nos smartphones iPhone. A empresa vai anunciar as funcionalidades de IA que estarão disponíveis no novo modelo de dispositivo da Apple em junho, na Worldwide Developers Conference anual.
Deixe um comentário