Dois dias depois de uma carta aberta pedir uma moratória sobre modelos de IA generativos mais poderosos sendo desenvolvidos para que os reguladores possam alcançar empresas como ChatGPT, a autoridade de proteção de dados da Itália acaba de fazer um lembrete oportuno de que alguns países fazer têm leis que já se aplicam à IA de ponta – ordenando que a OpenAI pare de processar os dados das pessoas localmente com efeito imediato.
O DPA italiano disse estar preocupado que o fabricante do ChatGPT esteja violando o Regulamento Geral de Proteção de Dados da União Europeia (GDPR).
Especificamente, o garantia disse que emitiu a ordem para bloquear o ChatGPT por preocupações de que a OpenAI tenha processado ilegalmente os dados das pessoas – e também pela falta de qualquer sistema para impedir que menores acessem a tecnologia.
A empresa sediada em San Francisco tem 20 dias para responder ao pedido – apoiada pela ameaça de algumas penalidades pesadas se não cumprir. (Lembrete: as multas por violação do regime de proteção de dados da UE podem chegar a 4% do faturamento anual ou € 20 milhões, o que for maior.)
Vale a pena notar que, como a OpenAI não possui uma entidade legal estabelecida na UE, qualquer autoridade de proteção de dados tem poderes para intervir, sob o GDPR, se perceber riscos para os usuários locais. (Então, onde a Itália entra, outros podem seguir.)
Conjunto de problemas de GDPR
O GDPR se aplica sempre que os dados pessoais dos usuários da UE são processados. E está claro que o grande modelo de linguagem do OpenAI tem processado esse tipo de informação – já que pode, por exemplo, produzir biografias de indivíduos nomeados na região sob demanda (nós sabemos; nós tentamos isso). Embora a OpenAI tenha se recusado a fornecer detalhes dos dados de treinamento usados para a última iteração da tecnologia, GPT-4. Mas revelou que os modelos anteriores foram treinados em dados extraídos da Internet, incluindo fóruns como o Reddit. Portanto, se você estiver razoavelmente online, é provável que o bot saiba seu nome.
Além disso, foi demonstrado que o ChatGPT produz informações totalmente falsas sobre indivíduos nomeados – aparentemente inventando detalhes que faltam em seus dados de treinamento. O que potencialmente aumenta as preocupações com o GDPR – uma vez que o regulamento fornece aos europeus um conjunto de direitos sobre seus dados, incluindo o direito de retificação de erros. E não está claro como/se as pessoas podem pedir ao OpenAI para corrigir pronunciamentos errôneos sobre eles gerados pelo bot, em apenas um exemplo de cenário.
O garantiaA declaração da empresa também destaca uma violação de dados que o serviço sofreu no início deste mês – quando a OpenAI admitiu que um recurso de histórico de conversas estava vazando os bate-papos dos usuários e disse que pode ter exposto as informações de pagamento de alguns usuários.
As violações de dados são outra área regulada pelo GDPR – com foco em garantir que as entidades que processam dados pessoais estejam protegendo adequadamente as informações. A lei pan-UE também contém requisitos para notificar as autoridades supervisoras relevantes sobre violações significativas dentro de prazos apertados.
Acima de tudo isso está a grande (mais) questão de qual base legal a OpenAI se baseou para processar os dados dos europeus em primeiro lugar? Também conhecido como legalidade desse processamento.
O GDPR permite várias possibilidades – do consentimento ao interesse público – mas a escala de processamento para treinar esses grandes modelos de linguagem complica a questão da legalidade, pois o garantia observa (apontando para a “coleta e armazenamento em massa de dados pessoais”), sendo a minimização de dados outro grande foco da regulamentação — que também contém princípios que exigem transparência e equidade. No entanto, pelo menos, a (agora) empresa com fins lucrativos por trás do ChatGPT não parece ter informado as pessoas cujos dados são reaproveitados para treinar suas IAs comerciais. O que poderia ser um problema bastante difícil para ele.
Se a OpenAI tiver processado os dados dos europeus ilegalmente, os DPAs em todo o bloco podem ordenar que os dados sejam excluídos – embora isso a forçaria a retreinar modelos treinados em dados obtidos ilegalmente é uma questão em aberto, já que uma lei existente lida com tecnologia de ponta.
Por outro lado, a Itália pode ter banido todo o aprendizado de máquina por, er, acidente…
“[T]O Garantidor da Privacidade constata a falta de informação aos utilizadores e a todos os interessados cujos dados são recolhidos pela OpenAI mas sobretudo a ausência de base legal que justifique a recolha e armazenamento em massa de dados pessoais, para efeitos de ‘formação’ dos algoritmos subjacentes a operação da plataforma”, escreve a DPA em seu comunicado hoje [which we’ve translated from Italian using AI].
“Conforme evidenciado pelas verificações realizadas, a informação prestada pelo ChatGPT nem sempre corresponde aos dados reais, determinando assim um tratamento inexato dos dados pessoais”, acrescenta.
A autoridade acrescentou que está preocupada com o risco de dados de menores serem processados pela OpenAI — uma vez que a empresa não está impedindo ativamente que menores de 13 anos se cadastrem para usar o chatbot, como por meio da aplicação de tecnologia de verificação de idade.
Os riscos aos dados das crianças são uma área em que o regulador tem sido muito ativo – recentemente ordenando uma proibição semelhante do chatbot de IA de amizade virtual, Replika, por questões de segurança infantil. Nos últimos anos, também perseguiu o TikTok por uso de menores de idade – forçando a empresa a limpar mais de meio milhão de contas que não pôde confirmar se não pertenciam a crianças.
Portanto, se o OpenAI não puder confirmar definitivamente a idade de nenhum usuário registrado na Itália, ele poderá – no mínimo – ser forçado a excluir suas contas e começar novamente com um processo de inscrição mais robusto.
A OpenAI foi contatada para uma resposta ao garantiaordem de.