Apesar de toda a fanfarra, os modelos de IA geradores de texto, como o GPT-4 da OpenAI, cometem muitos erros – alguns deles prejudiciais. James Vincent, do The Verge, certa vez chamou um desses modelos de “mentiroso emocionalmente manipulador”, o que resume muito bem o estado atual das coisas.
As empresas por trás desses modelos dizem que estão tomando medidas para corrigir os problemas, como a implementação de filtros e equipes de moderadores humanos para corrigir os problemas à medida que são sinalizados. Mas não há uma solução certa. Mesmo os melhores modelos atuais são suscetíveis a vieses, toxicidade e ataques maliciosos.
Em busca de modelos de geração de texto “mais seguros”, a Nvidia lançou hoje o NeMo Guardrails, um kit de ferramentas de código aberto destinado a tornar os aplicativos baseados em IA mais “precisos, apropriados, no tópico e seguros”.
Jonathan Cohen, vice-presidente de pesquisa aplicada da Nvidia, diz que a empresa trabalha no sistema subjacente do Guardrails há “muitos anos”, mas há cerca de um ano percebeu que era uma boa opção para modelos nas linhas de GPT-4 e ChatGPT .
“Desde então, estamos desenvolvendo esse lançamento do NeMo Guardrails”, disse Cohen ao TechCrunch por e-mail. “As ferramentas de segurança do modelo de IA são essenciais para a implantação de modelos para casos de uso corporativo.”
Guardrails inclui código, exemplos e documentação para “adicionar segurança” a aplicativos de IA que geram texto e fala. A Nvidia afirma que o kit de ferramentas foi projetado para funcionar com a maioria dos modelos de linguagem generativa, permitindo que os desenvolvedores criem regras usando algumas linhas de código.
Especificamente, o Guardrails pode ser usado para impedir – ou pelo menos tentar impedir – que os modelos se desviem do tópico, respondam com informações imprecisas ou linguagem tóxica e façam conexões com fontes externas “inseguras”. Pense em impedir que um assistente de atendimento ao cliente responda a perguntas sobre o clima, por exemplo, ou que um chatbot de mecanismo de pesquisa crie links para periódicos acadêmicos de má reputação.
“Em última análise, os desenvolvedores controlam o que está fora dos limites de seu aplicativo com Guardrails”, disse Cohen. “Eles podem desenvolver guarda-corpos muito largos ou, inversamente, muito estreitos para o seu caso de uso.”
Uma correção universal para as deficiências dos modelos de linguagem parece boa demais para ser verdade – e de fato é. Enquanto empresas como a Zapier estão usando Guardrails para adicionar uma camada de segurança a seus modelos generativos, a Nvidia reconhece que o kit de ferramentas não é imperfeito; não vai pegar tudo, em outras palavras.
Cohen também observa que o Guardrails funciona melhor com modelos que são “suficientemente bons em seguir instruções”, à la ChatGPT, e que usam a popular estrutura LangChain para criar aplicativos baseados em IA. Isso desqualifica algumas das opções de código aberto existentes.
E – eficácia da tecnologia à parte – deve ser enfatizado que a Nvidia não está necessariamente lançando Guardrails por bondade. Faz parte da estrutura NeMo da empresa, que está disponível por meio do pacote de software de IA empresarial da Nvidia e seu serviço de nuvem totalmente gerenciado NeMo. Qualquer empresa pode implementar o lançamento de código aberto do Guardrails, mas a Nvidia certamente preferiria pagar pela versão hospedada.
Portanto, embora provavelmente não haja danos no Guardrails, lembre-se de que não é uma bala de prata – e tenha cuidado se a Nvidia afirmar o contrário.