O incrível modelo de clonagem de voz da OpenAI funciona com apenas 15 segundos de áudio

A OpenAI está oferecendo acesso limitado a uma plataforma de geração de texto para voz desenvolvida por ela, chamada Voice Engine, que pode criar uma voz sintética baseada em um clipe de 15 segundos da voz de alguém. A voz gerada por IA pode ler instruções de texto sob comando no mesmo idioma do locutor ou em vários outros idiomas. “Essas implantações em pequena escala estão ajudando a informar nossa abordagem, salvaguardas e pensamento sobre como o Voice Engine poderia ser usado para o bem em vários setores”, OpenAI disse em sua postagem no blog.

As empresas com acesso incluem a empresa de tecnologia educacional Age of Learning, a plataforma de narrativa visual HeyGen, o fabricante de software de saúde de linha de frente Dimagi, o criador do aplicativo de comunicação de IA Livox e o sistema de saúde Lifespan.

Nestes exemplos postados pela OpenAI, você pode ouvir o que Era da Aprendizagem tem feito com a tecnologia para gerar conteúdo de narração pré-roteirizado, bem como ler “respostas personalizadas em tempo real” para os alunos escritas pelo GPT-4.

Primeiro, o áudio de referência em inglês:

E aqui estão três clipes de áudio gerados por IA com base nessa amostra,

A OpenAI disse que começou a desenvolver o Voice Engine no final de 2022 e que a tecnologia já alimentou vozes predefinidas para a API de conversão de texto em fala e o recurso Read Aloud do ChatGPT. Em entrevista com TechCrunch, Jeff Harris, membro da equipe de produto da OpenAI para Voice Engine, disse que o modelo foi treinado em “uma combinação de dados licenciados e disponíveis publicamente”. A OpenAI disse à publicação que o modelo estará disponível apenas para cerca de 10 desenvolvedores.

A geração de texto para áudio por IA é uma área da IA generativa que continua a evoluir. Embora a maioria se concentre em sons instrumentais ou naturais, poucos se concentram na geração de voz, em parte devido às questões citadas pela OpenAI. Alguns nomes no espaço incluem empresas como Podcastle e ElevenLabs, que fornecem tecnologia e ferramentas de clonagem de voz de IA Vergecast explorado no ano passado.

De acordo com a OpenAI, seus parceiros concordaram em cumprir suas políticas de uso que afirmam que não usarão a Geração de Voz para se passar por pessoas ou organizações sem o seu consentimento. Também exige que os parceiros obtenham o “consentimento explícito e informado” do orador original, não criem formas para os utilizadores individuais criarem as suas próprias vozes e divulguem aos ouvintes que as vozes são geradas por IA. A OpenAI também adicionou marcas d’água aos clipes de áudio para rastrear sua origem e monitorar ativamente como o áudio é usado.

A OpenAI sugeriu várias etapas que acredita que poderiam limitar os riscos em torno de ferramentas como essas, incluindo a eliminação progressiva da autenticação baseada em voz para acessar contas bancárias, políticas para proteger o uso da voz das pessoas na IA, maior educação sobre deepfakes de IA e desenvolvimento de sistemas de rastreamento de conteúdo de IA.