O campo de geração de imagens se move rapidamente. Embora os modelos de difusão usados por ferramentas populares como Midjourney e Stable Diffusion possam parecer os melhores que temos, a próxima coisa está sempre chegando – e OpenAI pode ter acertado com “modelos de consistência”, que já podem fazer tarefas simples e ordem de magnitude mais rápido do que os gostos de DALL-E.
O jornal foi colocado online como uma pré-impressão no mês passado e não foi acompanhado pela fanfarra discreta que a OpenAI reserva para seus principais lançamentos. Isso não é surpresa: este é definitivamente apenas um trabalho de pesquisa e é muito técnico. Mas os resultados dessa técnica inicial e experimental são interessantes o suficiente para serem observados.
Os modelos de consistência não são particularmente fáceis de explicar, mas fazem mais sentido em contraste com os modelos de difusão.
Na difusão, um modelo aprende como subtrair gradualmente o ruído de uma imagem inicial feita inteiramente de ruído, aproximando-a passo a passo do prompt de destino. Essa abordagem permitiu as imagens de IA mais impressionantes de hoje, mas, fundamentalmente, depende da execução de dez a milhares de etapas para obter bons resultados. Isso significa que é caro para operar e também lento o suficiente para que os aplicativos em tempo real sejam impraticáveis.
O objetivo dos modelos de consistência era criar algo que obtivesse resultados decentes em uma única etapa de computação, ou no máximo duas. Para fazer isso, o modelo é treinado, como um modelo de difusão, para observar o processo de destruição da imagem, mas aprende a obter uma imagem em qualquer nível de obscurecimento (ou seja, com pouca ou muita informação ausente) e gerar uma imagem de origem completa em apenas um passo.
Mas apresso-me a acrescentar que esta é apenas a descrição mais vaga do que está acontecendo. É este tipo de papel:
Um trecho representativo do documento de consistência.
A imagem resultante não é alucinante – muitas das imagens dificilmente podem ser chamadas de boas. Mas o que importa é que eles foram gerados em uma única etapa, e não em cem ou mil. Além disso, o modelo de consistência se generaliza para diversas tarefas, como colorir, aumentar a escala, interpretar esboços, preencher e assim por diante, também com uma única etapa (embora frequentemente aprimorada em um segundo).

Quer a imagem seja principalmente ruído ou principalmente dados, os modelos de consistência vão direto para o resultado final.
Isso é importante, primeiro, porque o padrão na pesquisa de aprendizado de máquina geralmente é que alguém estabelece uma técnica, outra pessoa encontra uma maneira de fazê-la funcionar melhor e, em seguida, outros a ajustam ao longo do tempo enquanto adicionam computação para produzir resultados drasticamente melhores do que você começou. Foi mais ou menos assim que chegamos aos modelos de difusão modernos e ao ChatGPT. Este é um processo autolimitado porque praticamente você só pode dedicar tanta computação a uma determinada tarefa.
O que acontece a seguir, porém, é uma técnica nova e mais eficiente identificada que pode fazer o que o modelo anterior fazia, muito pior no início, mas também muito mais eficiente. Os modelos de consistência demonstram isso, embora ainda seja cedo o suficiente para que não possam ser comparados diretamente aos de difusão.
Mas é importante em outro nível porque indica como a OpenAI, facilmente a empresa de pesquisa de IA mais influente do mundo no momento, está olhando ativamente além da difusão nos casos de uso da próxima geração.
Sim, se você quiser fazer 1.500 iterações em um ou dois minutos usando um cluster de GPUs, poderá obter resultados impressionantes de modelos de difusão. Mas e se você quiser executar um gerador de imagens no telefone de alguém sem esgotar a bateria ou fornecer resultados ultrarrápidos em, digamos, uma interface de bate-papo ao vivo? A difusão é simplesmente a ferramenta errada para o trabalho, e os pesquisadores da OpenAI estão procurando ativamente a certa – incluindo Ilya Sutskever, um nome bem conhecido no campo, para não subestimar as contribuições dos outros autores, Yang Song, Prafulla Dhariwal e Mark Chen.
Se os modelos de consistência são o próximo grande passo para o OpenAI ou apenas outra flecha em sua aljava – o futuro é quase certamente multimodal e multimodelo – dependerá de como a pesquisa se desenrola. Pedi mais detalhes e atualizarei esta postagem se receber uma resposta dos pesquisadores.