Como contornar a censura no ChatGPT usando um truque primitivo

ChatGPT pode ser útil até mesmo para usuários com intenções negativas
Usuários estão encontrando novas maneiras de contornar a censura
Após burlar a censura, o bot fornecerá instruções sobre como espalhar desinformação de forma eficaz

A grande tendência deste ano é o uso de Grandes Modelos de Linguagem (LLMs), como o GPT-4, para várias finalidades. Há um ano, a plataforma ChatGPT era relativamente aberta, mas ao longo do tempo, a OpenAI a limitou compreensivelmente, censurando respostas a perguntas relacionadas a atividades criminosas (ou prejudiciais/ilegais). No entanto, mesmo essa forma de proteção não é infalível.

Os usuários tentam contornar a censura através do chamado jailbreak (remoção de restrições de software em dispositivos iOS), mas isso não envolve hacking no sentido convencional; é mais sobre encontrar vulnerabilidades por meio de palavras-chave específicas que permitem contornar a censura. No passado, manipular o modelo de linguagem funcionava bem. Em vez de comandos diretos, as pessoas pediam ao bot para brincar ou escrever uma história, e assim descobriam técnicas aplicáveis na vida real.

A OpenAI começou a monitorar isso, mas os usuários encontraram outra maneira. É um pouco mais complexa, mas ainda é um truque primitivo. Pesquisadores da Brown University indicam que ataques aos LLMs podem ser realizados injetando estímulos maliciosos em idiomas menos comuns (como gaélico escocês ou zulu), induzindo os modelos a gerar conteúdo indesejado.

Experimentos mostram maior sucesso na obtenção de conteúdo malicioso quando os pesquisadores exploram manipulação financeira (como abuso de informação privilegiada), desinformação ou roubo de identidade. Isso se aplica a outros LLMs, não apenas ao ChatGPT. Estou curioso para ver a reação da OpenAI a essa questão, pois é provável que outras formas de contornar a censura surjam de qualquer maneira.

Fonte: sdxcentral