- OpenAI apresentou o novo modelo ChatGPT-4o
- É mais rápido, pode conversar com você e processar imagens, texto e vídeo
- Estará disponível para todos, incluindo usuários não pagantes
OpenAI apresentou novidades hoje. Na verdade, uma novidade, mas boa, nomeadamente ChatGPT-4o (não é quarenta, mas quatro-o – o, como “omni”). Ela estará disponível rapidamente e para todos. Os clientes pagantes receberão primeiro, mas os usuários não pagantes também deverão recebê-lo. Já me ofereceram enquanto escrevia o artigo. O objetivo da missão da OpenAI é, nas suas próprias palavras, levar as possibilidades da inteligência artificial a toda a humanidade.
Conteúdo do artigo
Processamento de imagem
Tirar uma foto e enviá-la para o chat? Já passou! Na apresentação, tivemos a oportunidade de observar como o moderador escreve o verbete da equação no papel e grava em vídeo. Ao mesmo tempo, o ChatGPT-4o respondeu imediatamente às entradas de voz. O moderador pediu ao ChatGPT-4o que não lhe contasse a solução diretamente, mas que o guiasse até ela, e de fato ele o fez.
Apenas as equações são chatas. O ChatGPT-4o consegue reconhecer o que está na imagem? Claro, e isso inclui a reação de surpresa e lisonja!
Loja para todos
A loja de modelos personalizados agora está disponível para todos gratuitamente. Você pode criar seu próprio modelo e compartilhá-lo na loja.
Modelo de voz
No ChatGPT-4, o modo de voz funciona assim: o modo de voz é um canal de três modelos separados: um modelo simples transcreve áudio em texto, o GPT-4 aceita texto e responde também em formato de texto, e um terceiro modelo simples converte este texto de volta ao áudio. Este processo faz com que a principal fonte de inteligência, GPT-4, perca muitas informações – não consegue observar diretamente o tom, os sons de fundo e não consegue rir, cantar ou expressar emoções.
Com o GPT-4o, um novo modelo é treinado de ponta a ponta em texto, imagem e áudio, o que significa que todas as entradas e saídas são processadas pela mesma rede neural. Ao contrário do ChatGPT-4, que respondeu em média 5 segundos, ChatGPT-4o responde em média 320 milissegundos que corresponde à reação de uma pessoa em uma conversa normal.
Na apresentação, ChatGPT-4o foi convidado a contar uma história sobre um robô. Incentivamos você a assistir à apresentação e, claro, experimentá-la quando o ChatGPT-4o estiver disponível. Os apresentadores forçaram gradativamente a modelo a mudar a entonação, aumentar o drama e finalmente para uma voz de máquina e até mesmo uma entrega cantada.
Aplicativo de desktop
Está disponível recentemente aplicativo de desktop. Foi apresentada uma versão para Mac, não houve menção específica de disponibilidade para outras plataformas. Por exemplo, o aplicativo pode monitorar o conteúdo do monitor e trabalhar com ele. Ela reconheceu o código do programa na demonstração e descreveu o que ele fazia. Imediatamente, ela conseguiu reconhecer o que estava no gráfico exibido e encontrar nele, por exemplo, os valores máximos.
Tradução em tempo real
O que me acalmou completamente foi observar o apresentador e o apresentador conversando. Ela italiana, ele inglês. Ao mesmo tempo, ChatGPT-4o traduziu para que quando um deles terminasse, traduzisse o texto para o outro idioma. Ao mesmo tempo, a tradução não foi servil, mas incluiu entonação e transmissão de sentimentos! Além disso, a tradução não foi 1:1, mas no estilo “ele diz que…” Se estiver disponível para o tcheco, poderá ser o evento do ano para nós.
Mostre uma pessoa
Isso também foi ótimo. ChatGPT-4o foi encarregado de descrever a pessoa que ele estava vendo. Que esta é uma demonstração real ao vivo ficou conhecido, por exemplo, pelo fato de ChatGPT-4o ter começado a descrever o tampo da mesa de madeira. Ele começou bem cedo, antes mesmo de o apresentador mudar para a câmera selfie 🙂 Posteriormente, ele descreveu corretamente a pessoa como uma pessoa simpática, sorridente e de bom humor.
Disponibilidade do modelo
Os recursos do GPT-4o serão implementados iterativamente. Os recursos de texto e imagem do GPT-4o começam a ser publicados hoje. O GPT-4o está disponível na versão gratuita e para usuários Plus com limites de mensagens até 5x maiores. Nas próximas semanas, uma nova versão do modo de voz com GPT-4o será lançada em alfa no ChatGPT Plus.
Os desenvolvedores agora também podem acessar o GPT-4o na API como modelo textual e visual. O GPT-4o é 2x mais rápido, custa a metade do preço e tem limites de velocidade 5x mais altos em comparação ao GPT-4 Turbo. Nas próximas semanas, está planejado o lançamento do suporte para novos recursos de áudio e vídeo GPT-4o para um pequeno grupo de parceiros de API confiáveis.
Você deixará o ChatGPT-4o contar histórias para dormir?
Se você perdeu a transmissão ao vivo da apresentação do noticiário, poderá reproduzi-la a partir da gravação. Slides da apresentação também são usados.