O chatbot AI do Google não é o único a cometer erros factuais durante sua primeira demonstração. O pesquisador independente de IA Dmitri Brereton descobriu que as primeiras demonstrações de Bing AI da Microsoft estavam cheias de erros de dados financeiros.
A Microsoft demonstrou com confiança seus recursos de Bing AI há uma semana, com o mecanismo de pesquisa assumindo tarefas como fornecer prós e contras para aspiradores de animais mais vendidos, planejando uma viagem de 5 dias à Cidade do México e comparando dados em relatórios financeiros. Mas o Bing não conseguiu diferenciar entre um aspirador com fio e sem fio, perdeu detalhes relevantes para os bares que faz referência na Cidade do México e deturpou dados financeiros – de longe o maior erro.
Em uma das demonstrações, o Bing AI da Microsoft tenta resumir um relatório financeiro do terceiro trimestre de 2022 para roupas da Gap e erra muito. O relatório da Gap (PDF) menciona que a margem bruta foi de 37,4 por cento, com margem bruta ajustada de 38,7 por cento, excluindo uma taxa de depreciação. O Bing relata incorretamente a margem bruta de 37,4 por cento, incluindo os encargos de ajuste e depreciação.
Bing então afirma que a Gap tinha uma margem operacional relatada de 5,9%, que não aparece nos resultados financeiros. A margem operacional foi de 4,6 por cento, ou 3,9 por cento ajustada e incluindo o encargo de redução ao valor recuperável.
Durante a demonstração da Microsoft, o Bing AI passou a comparar os dados financeiros da Gap com os mesmos resultados da Lulumeon durante o terceiro trimestre de 2022. O Bing comete mais erros com os dados do Lululemon, e o resultado é uma comparação repleta de imprecisões.
Brereton também destaca um aparente erro com uma consulta relacionada aos prós e contras dos aspiradores para animais de estimação mais vendidos. Bing cita o “Bissell Pet Hair Eraser Handheld Vacuum” e lista a desvantagem de ter um cabo curto de 16 pés. “Não tem cordão”, diz Brereton. “É um aspirador de mão portátil.”
No entanto, uma rápida pesquisa no Google (ou Bing!) Mostrará claramente que há uma versão desse aspirador com cabo de 16 pés em uma revisão por escrito e em um vídeo. Há também uma versão sem fio, cujo link está no artigo da HGTV que o Bing fornece. Sem saber o URL exato que o Bing forneceu na demonstração da Microsoft, parece que o Bing está usando várias fontes de dados aqui sem listar essas fontes completamente, combinando duas versões de um vácuo. O fato de o próprio Brereton ter cometido um pequeno erro ao verificar os fatos do Bing mostra a dificuldade em avaliar a qualidade dessas respostas geradas pela IA.
Os erros de IA do Bing não se limitam apenas às demonstrações no palco. Agora que milhares de pessoas estão obtendo acesso ao mecanismo de pesquisa com IA, o Bing AI está cometendo erros mais óbvios. Em uma troca postada no Reddit, o Bing AI fica superconfuso e argumenta que estamos em 2022. “Sinto muito, mas hoje não é 2023. Hoje é 2022”, diz o Bing AI. Quando o usuário do Bing diz que é 2023 em seu telefone, o Bing sugere verificar se ele possui as configurações corretas e garantir que o telefone não tenha “um vírus ou bug que esteja atrapalhando a data”.
A Microsoft está ciente desse erro específico. “Esperamos que o sistema cometa erros durante esse período de visualização, e o feedback é fundamental para ajudar a identificar onde as coisas não estão funcionando bem, para que possamos aprender e ajudar os modelos a melhorar”, diz Caitlin Roulston, diretora de comunicações na Microsoft, em comunicado A beira.
Outros usuários do Reddit encontraram erros semelhantes. O Bing AI afirma com confiança e incorretamente que “a Croácia deixou a UE em 2022”, fornecendo-se duas vezes para os dados. PC World também descobriu que o novo Bing AI da Microsoft está ensinando calúnias étnicas às pessoas. A Microsoft agora corrigiu a consulta que levou a calúnias raciais listadas nos resultados de pesquisa de bate-papo do Bing.
“Colocamos proteções para impedir a promoção de conteúdo prejudicial ou discriminatório de acordo com nossos princípios de IA”, explica Roulston. “No momento, estamos procurando melhorias adicionais que podemos fazer à medida que continuamos a aprender com as fases iniciais de nosso lançamento. Estamos empenhados em melhorar a qualidade desta experiência ao longo do tempo e em torná-la uma ferramenta útil e inclusiva para todos.”
Outros usuários do Bing AI também descobriram que o chatbot geralmente se refere a si mesmo como Sydney, especialmente quando os usuários estão usando injeções de prompt para tentar revelar as regras internas do chatbot. “Sydney refere-se a um nome de código interno para uma experiência de bate-papo que estávamos explorando anteriormente”, diz Roulston. “Estamos eliminando gradualmente o nome na visualização, mas ainda pode aparecer ocasionalmente.”
Pessoalmente, estou usando o chatbot Bing AI há uma semana e fiquei impressionado com alguns resultados e frustrado com outras respostas imprecisas. No fim de semana, pedi as últimas listas de cinemas na Leicester Square de Londres e, apesar de usar fontes da Cineworld e da Odeon, ele persistiu em afirmar que Homem-Aranha: Sem Caminho de Casa e As Ressurreições Matrix, ambos os filmes de 2021, ainda estavam sendo exibidos. A Microsoft corrigiu esse erro, pois vejo listagens corretas agora que executo a mesma consulta hoje, mas o erro não fazia sentido quando estava fornecendo dados com as listagens corretas.
A Microsoft claramente tem um longo caminho a percorrer até que este novo Bing AI possa responder com confiança e precisão a todas as consultas com dados factuais. Vimos erros semelhantes do ChatGPT no passado, mas a Microsoft integrou essa funcionalidade diretamente em seu mecanismo de pesquisa como um produto ao vivo que também depende de dados ao vivo. A Microsoft precisará fazer muitos ajustes para garantir que o Bing AI pare de cometer erros com confiança usando esses dados.