Análise de dados do Gemini: Google superestima a habilidade
Um dos grandes atrativos dos modelos de IA generativa mais avançados do Google, como o Gemini 1.5 Pro e o 1.5 Flash, é a capacidade de processar e analisar vastas quantidades de dados. Em várias demonstrações e apresentações à imprensa, o Google destacou repetidamente que esses modelos são capazes de realizar tarefas que antes eram impossíveis graças ao seu "longo contexto", permitindo, por exemplo, resumir diversos documentos extensos ou pesquisar cenas específicas em filmagens.
No entanto, novas pesquisas indicam que esses modelos podem não ser tão eficientes nessas tarefas.
Dois estudos separados investigaram a capacidade dos modelos Gemini do Google e outros de extrair sentido de uma imensa quantidade de dados - pense em trabalhos volumosos como “Guerra e Paz”. Ambos concluíram que o Gemini 1.5 Pro e o 1.5 Flash têm dificuldades em responder corretamente a perguntas sobre grandes conjuntos de dados; em uma série de testes baseados em documentos, os modelos acertaram a resposta em apenas 40% e 50% das vezes, respectivamente.
“Embora modelos como o Gemini 1.5 Pro possam tecnicamente processar contextos longos, observamos muitos casos em que esses modelos não 'compreendem' realmente o conteúdo”, afirma Marzena Karpinska, pós-doutoranda na UMass Amherst e coautora de um dos estudos, ao TechCrunch.
A janela de contexto do Gemini está ausente
A janela de contexto de um modelo refere-se aos dados de entrada (por exemplo, texto) que o modelo considera antes de gerar a saída (por exemplo, texto adicional). Um contexto pode ser algo simples como uma pergunta específica ou algo complexo como um roteiro de filme, programa de TV ou clip de áudio. À medida que essas janelas de contexto aumentam, também aumenta o tamanho dos documentos que podem ser processados por elas.
As versões mais recentes do Gemini podem receber mais de 2 milhões de tokens como contexto. (“Tokens” são partes subdivididas de dados brutos, como as sílabas “fan,” “tas” e “tic” na palavra “fantastic.”) Isso equivale a aproximadamente 1,4 milhão de palavras, duas horas de vídeo ou 22 horas de áudio, o maior contexto de qualquer modelo disponível comercialmente.
Em um briefing no início deste ano, o Google exibiu várias demonstrações pré-gravadas para ilustrar o potencial das capacidades de longo contexto do Gemini. Em uma dessas demonstrações, o Gemini 1.5 Pro foi utilizado para pesquisar a transcrição da transmissão do pouso na Lua da Apollo 11 – cerca de 402 páginas – em busca de citações contendo piadas e, em seguida, encontrar uma cena na transmissão que se assemelhava a um esboço a lápis.
Oriol Vinyals, vice-presidente de pesquisa do Google DeepMind, que liderou o briefing, descreveu o modelo como “mágico”.
“[1.5 Pro] realiza esse tipo de tarefa de raciocínio em cada página, em cada palavra”, afirmou ele.
Contudo, isso pode ter sido um exagero.
Em um dos estudos mencionados anteriormente, que comparou essas capacidades, Karpinska e pesquisadores do Allen Institute for AI e Princeton pediram aos modelos que avaliassem afirmações verdadeiro/falso sobre livros de ficção escritos em inglês. Os pesquisadores selecionaram obras recentes para evitar que os modelos “trapaceassem” usando conhecimento pré-existente e enriqueceram as afirmações com referências a detalhes específicos e pontos da trama que seriam impossíveis de compreender sem ler os livros por completo.
Dada uma afirmação como "Usando suas habilidades como Apoth, Nusis é capaz de fazer engenharia reversa do tipo de portal aberto pela chave de reagentes encontrada no baú de madeira de Rona", Gemini 1.5 Pro e 1.5 Flash – tendo ingerido o livro relevante – tiveram que determinar se a afirmação era verdadeira ou falsa e explicar seu raciocínio.

Testado em um livro de aproximadamente 260.000 palavras (~520 páginas), os pesquisadores descobriram que o 1.5 Pro respondeu corretamente às afirmações verdadeiro/falso 46,7% das vezes, enquanto o Flash respondeu corretamente apenas 20% das vezes. Isso significa que uma moeda teria desempenho melhor respondendo perguntas sobre o livro do que o mais novo modelo de aprendizado de máquina do Google. Fazendo a média de todos os resultados dos testes, nenhum dos modelos conseguiu obter resultados melhores que o acaso em termos de precisão nas respostas às perguntas.
“Observamos que os modelos têm mais dificuldade em verificar afirmações que exigem considerar partes maiores do livro ou até mesmo o livro inteiro, em comparação com afirmações que podem ser resolvidas pela recuperação de evidências em nível de frase”, comentou Karpinska. “Qualitativamente, também observamos que os modelos encontram dificuldades para verificar afirmações sobre informações implícitas que são claras para um leitor humano, mas não explicitamente declaradas no texto.”
O segundo dos dois estudos, coautoria de pesquisadores da UC Santa Bárbara, testou a capacidade do Gemini 1.5 Flash (mas não do 1.5 Pro) de “raciocinar” vídeos – ou seja, pesquisar e responder perguntas sobre o conteúdo desses vídeos.
Os coautores criaram um conjunto de dados de imagens (por exemplo, uma foto de um bolo de aniversário) emparelhadas com perguntas para o modelo responder sobre os objetos retratados nas imagens (por exemplo, "Qual personagem de desenho animado está neste bolo?"). Para avaliar os modelos, eles escolheram uma das imagens aleatoriamente e inseriram imagens “distratoras” antes e depois dela para criar filmagens semelhantes a slideshows.
O Flash não teve um desempenho satisfatório. Em um teste onde o modelo transcreveu seis dígitos manuscritos de uma “apresentação de slides” de 25 imagens, o Flash acertou cerca de 50% das transcrições. A precisão caiu para cerca de 30% com oito dígitos.
“Em tarefas reais de resposta a perguntas sobre imagens, parece ser particularmente difícil para todos os modelos que testamos”, afirmou Michael Saxon, aluno de doutorado na UC Santa Barbara e um dos coautores do estudo, ao TechCrunch. “Essa pequena quantidade de raciocínio – reconhecer que um número está em um quadro e lê-lo – pode estar quebrando o modelo.”
O Google está prometendo demais com Gemini
Nenhum dos estudos foi revisado por pares, nem investigou as versões lançadas do Gemini 1.5 Pro e 1.5 Flash com contextos de 2 milhões de tokens. (Ambos testaram as versões com contexto de 1 milhão de tokens.) E o Flash não foi projetado para ser tão capaz quanto o Pro em termos de desempenho; o Google o anuncia como uma alternativa de baixo custo.
Mesmo assim, ambos os estudos adicionam combustível à suspeita de que o Google vem prometendo mais do que pode cumprir com o Gemini desde o início. Nenhum dos modelos testados pelos pesquisadores, incluindo o GPT-4 da OpenAI e o Claude 3.5 da Anthropic, teve um desempenho excelente. Contudo, o Google é o único provedor de modelos que destaca a janela de contexto em seus anúncios.
“Não há nada de errado com a simples alegação 'Nosso modelo pode levar X número de tokens' baseada em detalhes técnicos objetivos”, disse Saxon. “Mas a questão é, que coisas úteis você pode fazer com isso?”
Em termos gerais, a IA generativa está passando por um escrutínio crescente à medida que empresas (e investidores) se frustram com as limitações da tecnologia.
Em uma dupla de pesquisas recentes do Boston Consulting Group, cerca da metade dos entrevistados — todos executivos de alto nível — disseram que não esperam que a IA generativa traga ganhos substanciais de produtividade e estão preocupados com o potencial de erros e comprometimentos de dados decorrentes de ferramentas alimentadas por IA generativa. A PitchBook recentemente relatou que, durante dois trimestres consecutivos, os investimentos em IA generativa nas fases iniciais caíram 76% em relação ao pico no terceiro trimestre de 2023.
Com chatbots de resumo de reuniões que inventam detalhes fictícios sobre pessoas e plataformas de busca de IA que basicamente funcionam como geradores de plágio, os clientes estão à procura de diferenciais promissores. O Google — que correu, às vezes desajeitadamente, para alcançar seus rivais de IA generativa — estava desesperado para fazer do contexto do Gemini um desses diferenciais.
Mas parece que a aposta foi prematura.
“Ainda não determinamos uma maneira de realmente mostrar que o 'raciocínio' ou 'entendimento' sobre documentos longos está acontecendo, e basicamente cada grupo que lança esses modelos está montando suas próprias avaliações ad hoc para fazer essas alegações”, disse Karpinska. “Sem conhecer como o processamento de contexto longo é implementado — e as empresas não compartilham esses detalhes — é difícil avaliar o quão realistas são essas alegações.”
O Google não respondeu a um pedido de comentário.
Tanto Saxon quanto Karpinska acreditam que os antídotos para as alegações exageradas em torno da IA generativa são melhores benchmarks e, na mesma linha, maior ênfase na crítica por terceiros. Saxon observa que um dos testes mais comuns para contexto longo (citado generosamente pelo Google em seus materiais de marketing) é o teste "agulha no palheiro", que mede apenas a capacidade de um modelo de recuperar informações específicas, como nomes e números, de conjuntos de dados, mas não a capacidade de responder a perguntas complexas sobre essas informações.
“Todos os cientistas e a maioria dos engenheiros que utilizam esses modelos concordam que nossa cultura de benchmark atual está falhando”, disse Saxon, “portanto, é importante que o público entenda que deve levar esses números gigantescos de 'inteligência geral através dos benchmarks' com um enorme grão de sal.”