O mundo da IA ainda está descobrindo como lidar com a incrível demonstração de destreza que é a capacidade de DALL-E 2 de desenhar/pintar/imaginar praticamente qualquer coisa… mas o OpenAI não é o único trabalhando em algo assim. O Google Research se apressou em divulgar um modelo semelhante em que está trabalhando – que afirma ser ainda melhor.
Imagen (entendeu?) é um gerador baseado em difusão de texto para imagem construído em grandes modelos de linguagem de transformador que… ok, vamos desacelerar e descompactar isso bem rápido.
Modelos de texto para imagem usam entradas de texto como “um cachorro em uma bicicleta” e produzem uma imagem correspondente, algo que foi feito há anos, mas recentemente viu grandes saltos em qualidade e acessibilidade.
Parte disso é usar técnicas de difusão, que basicamente começam com uma imagem de ruído puro e a refinam lentamente, pouco a pouco, até que o modelo pense que não pode fazê-la parecer mais com um cachorro em uma bicicleta do que já parece. Esta foi uma melhoria em relação aos geradores de cima para baixo que poderiam errar hilariamente no primeiro palpite, e outros que poderiam ser facilmente desviados.
A outra parte é a compreensão aprimorada da linguagem por meio de grandes modelos de linguagem usando a abordagem do transformador, cujos aspectos técnicos não vou (e não posso) abordar aqui, mas isso e alguns outros avanços recentes levaram a modelos de linguagem convincentes como GPT-3 e outros.
Créditos da imagem: Pesquisa do Google
O Imagen começa gerando uma imagem pequena (64 × 64 pixels) e, em seguida, faz duas passagens de “super resolução” para trazê-la para 1024 × 1024. No entanto, isso não é como o upscaling normal, pois a super-resolução da IA cria novos detalhes em harmonia com a imagem menor, usando o original como base.
Digamos, por exemplo, que você tenha um cachorro em uma bicicleta e o olho do cachorro tenha 3 pixels de diâmetro na primeira imagem. Não há muito espaço para expressão! Mas na segunda imagem, tem 12 pixels de diâmetro. De onde vem o detalhe necessário para isso? Bem, a IA sabe como é o olho de um cachorro, então gera mais detalhes à medida que desenha. Então isso acontece novamente quando o olho é feito novamente, mas com 48 pixels de diâmetro. Mas em nenhum momento a IA teve que puxar 48 por qualquer pixel de olho de cachorro de seu… digamos, saco mágico. Como muitos artistas, começou com o equivalente a um esboço áspero, preencheu-o em um estudo e depois realmente foi para a cidade na tela final.
Isso não é inédito e, de fato, os artistas que trabalham com modelos de IA já usam essa técnica para criar peças muito maiores do que a IA pode manipular de uma só vez. Se você dividir uma tela em várias partes e super-resolução de todas elas separadamente, você acabará com algo muito maior e mais detalhadamente detalhado; você pode até fazê-lo repetidamente. Um exemplo interessante de um artista que conheço:
Os avanços que os pesquisadores do Google afirmam com o Imagen são vários. Eles dizem que os modelos de texto existentes podem ser usados para a parte de codificação de texto e que sua qualidade é mais importante do que simplesmente aumentar a fidelidade visual. Isso faz sentido intuitivamente, já que uma imagem detalhada do absurdo é definitivamente pior do que uma imagem um pouco menos detalhada do que você pediu.
Por exemplo, no artigo que descreve o Imagen, eles comparam os resultados para ele e DALL-E 2 fazendo “um panda fazendo latte art”. Em todas as imagens deste último, é latte art de um panda; na maioria dos Imagen é um panda fazendo a arte. (Nenhum dos dois foi capaz de renderizar um cavalo montado em um astronauta, mostrando o contrário em todas as tentativas. É um trabalho em andamento.)

Créditos da imagem: Pesquisa do Google
Nos testes do Google, o Imagen saiu na frente em testes de avaliação humana, tanto em precisão quanto em fidelidade. Isso é bastante subjetivo, obviamente, mas até mesmo igualar a qualidade percebida do DALL-E 2, que até hoje era considerado um grande salto à frente de todo o resto, é bastante impressionante. Só acrescentarei que, embora seja muito bom, nenhuma dessas imagens (de qualquer gerador) resistirá a mais do que um exame minucioso antes que as pessoas percebam que foram geradas ou tenham sérias suspeitas.
O OpenAI está um ou dois passos à frente do Google de algumas maneiras. DALL-E 2 é mais do que um trabalho de pesquisa, é um beta privado com pessoas usando, assim como usaram seu antecessor e GPT-2 e 3. Ironicamente, a empresa com “aberto” em seu nome se concentrou em produzir seu texto pesquisa -to-image, enquanto o gigante da internet fabulosamente lucrativo ainda não tentou.
Isso fica mais do que claro pela escolha que os pesquisadores do DALL-E 2 fizeram, de selecionar o conjunto de dados de treinamento com antecedência e remover qualquer conteúdo que possa violar suas próprias diretrizes. O modelo não poderia fazer algo NSFW se tentasse. A equipe do Google, no entanto, usou alguns grandes conjuntos de dados conhecidos por incluir material impróprio. Em uma seção perspicaz no site Imagen descrevendo “Limitações e Impacto Social”, os pesquisadores escrevem:
As aplicações a jusante de modelos de texto para imagem são variadas e podem impactar a sociedade de maneiras complexas. Os riscos potenciais de uso indevido levantam preocupações em relação ao código aberto responsável e demos. Neste momento, decidimos não liberar código ou uma demonstração pública.
Os requisitos de dados dos modelos de texto para imagem levaram os pesquisadores a confiar fortemente em grandes conjuntos de dados extraídos da Web, em sua maioria sem curadoria. Embora essa abordagem tenha permitido rápidos avanços algorítmicos nos últimos anos, conjuntos de dados dessa natureza geralmente refletem estereótipos sociais, pontos de vista opressivos e associações depreciativas ou prejudiciais a grupos de identidade marginalizados. Embora um subconjunto de nossos dados de treinamento tenha sido filtrado para remover ruído e conteúdo indesejável, como imagens pornográficas e linguagem tóxica, também utilizamos o conjunto de dados LAION-400M, que é conhecido por conter uma ampla variedade de conteúdo impróprio, incluindo imagens pornográficas, insultos racistas e estereótipos sociais nocivos. O Imagen conta com codificadores de texto treinados em dados em escala da Web sem curadoria e, portanto, herda os preconceitos e limitações sociais de grandes modelos de linguagem. Como tal, existe o risco de que o Imagen tenha codificado estereótipos e representações prejudiciais, o que orienta nossa decisão de não liberar o Imagen para uso público sem outras salvaguardas em vigor
Embora alguns possam criticar isso, dizendo que o Google teme que sua IA não seja politicamente correta o suficiente, essa é uma visão pouco caridosa e míope. Um modelo de IA é tão bom quanto os dados em que é treinado, e nem toda equipe pode gastar o tempo e o esforço necessários para remover as coisas realmente terríveis que esses raspadores pegam enquanto montam milhões de imagens ou vários bilhões de conjuntos de dados de palavras.
Tais vieses devem aparecer durante o processo de pesquisa, o que expõe como os sistemas funcionam e fornece um campo de testes irrestrito para identificar essas e outras limitações. De que outra forma saberíamos que uma IA não pode desenhar penteados comuns entre negros – penteados que qualquer criança poderia desenhar? Ou que, quando solicitada a escrever histórias sobre ambientes de trabalho, a IA invariavelmente torna o chefe um homem? Nesses casos, um modelo de IA está funcionando perfeitamente e conforme projetado – ele aprendeu com sucesso os preconceitos que permeiam a mídia na qual é treinado. Não ao contrário das pessoas!
Mas enquanto desaprender o viés sistêmico é um projeto vitalício para muitos humanos, uma IA tem mais facilidade e seus criadores podem remover o conteúdo que fez com que ele se comportasse mal em primeiro lugar. Talvez algum dia haja a necessidade de uma IA escrever no estilo de um comentarista racista e sexista dos anos 50, mas por enquanto os benefícios de incluir esses dados são pequenos e os riscos grandes.
De qualquer forma, o Imagen, como os outros, ainda está claramente na fase experimental, não pronto para ser empregado em outra coisa que não seja de maneira estritamente humana. Quando o Google conseguir tornar seus recursos mais acessíveis, tenho certeza de que aprenderemos mais sobre como e por que ele funciona.