No início da pandemia, vários pesquisadores, startups e instituições desenvolveram sistemas de IA que, segundo eles, podiam diagnosticar o COVID-19 a partir do som da tosse de uma pessoa. Na época, nós mesmos estávamos entusiasmados com a perspectiva da IA que poderia ser usada como uma arma contra o vírus; em uma manchete, endossamos a IA de exame de tosse como “promissora”.
Mas um estudo recente (relatado pela primeira vez pelo The Register) sugere que alguns algoritmos de análise de tosse são menos precisos do que nós – e o público – fomos levados a acreditar. Ele serve como um alerta para a tecnologia de aprendizado de máquina na área da saúde, cujas falhas nem sempre são imediatamente aparentes.
Pesquisadores do Alan Turing Institute e da Royal Statistical Society, encomendados pela Agência de Segurança de Saúde do Reino Unido, conduziram uma revisão independente da tecnologia de IA baseada em áudio como uma ferramenta de triagem do COVID-19. Juntamente com membros da Universidade de Oxford, King’s College London, Imperial College London e University College London, eles descobriram que mesmo o modelo de detecção de tosse mais preciso teve um desempenho pior do que um modelo baseado em sistemas relatados pelo usuário e dados demográficos, como idade e gênero.
“As implicações são que os modelos de IA usados por muitos aplicativos agregam pouco ou nenhum valor além da precisão preditiva oferecida pelos sintomas relatados pelo usuário”, disseram os coautores do relatório ao TechCrunch em uma entrevista por e-mail.
Para o estudo, os pesquisadores examinaram dados de mais de 67.000 pessoas recrutadas por meio dos programas Test and Trace e REACT-1 do Serviço Nacional de Saúde, que pediram aos participantes que enviassem resultados de testes de swab de nariz e garganta para COVID-19, juntamente com gravações deles tossindo, respirando e falando. Usando as gravações de áudio e os resultados dos testes, os pesquisadores treinaram um modelo de IA, tentando ver se a tosse poderia servir como um biomarcador preciso.
Por fim, eles descobriram que não podiam. A precisão do diagnóstico do modelo de IA não foi muito melhor do que o acaso ao controlar os fatores de confusão.
Em parte, o viés de recrutamento no sistema Test and Trace, que exigia que os participantes tivessem pelo menos um sintoma de COVID-19 para participar. Mas o professor Chris Holmes, principal autor do estudo e diretor do programa de saúde e ciências médicas do Instituto Alan Turing, diz que as descobertas mostram que a tosse é um mau indicador do COVID-19 em geral.
“É decepcionante que essa tecnologia não funcione para o COVID-19”, disse ele ao TechCrunch em um comunicado por e-mail. “Encontrar novas maneiras de diagnosticar rápida e facilmente vírus como o COVID-19 é realmente importante para impedir sua propagação.”
O estudo é um golpe para os esforços comerciais como o Cough in a Box da Fujitsu, um aplicativo financiado pelo Departamento de Saúde e Assistência Social do Reino Unido para coletar e analisar gravações de áudio dos sintomas do COVID-19. E coloca algumas afirmações científicas em dúvida. Um artigo de coautoria de pesquisadores do Instituto de Tecnologia de Massachusetts calculou a precisão de um algoritmo COVID-19 de análise de tosse em 98,5% – uma porcentagem que, em retrospecto, parece duvidosamente alta.
Isso não sugere que o estudo do Turing Institute seja a última palavra na detecção de tosse no que diz respeito ao COVID-19. Holmes deixa em aberto a possibilidade de que a tecnologia funcione para outros vírus respiratórios no futuro.
Mas não seria a primeira vez que a IA de assistência médica superprometeu e não cumpriu.
Em 2018, o STAT relatou que o supercomputador Watson da IBM cuspiu conselhos errôneos sobre o tratamento do câncer, resultado do treinamento em um pequeno número de casos sintéticos. Em um exemplo mais recente, uma auditoria de 2021 do algoritmo de IA do provedor de sistema de saúde Epic para identificar pacientes com sepse perdeu quase 70% dos casos.