O xAI de Elon Musk lançou seu Grok grande modelo de linguagem como “código aberto” no fim de semana. O bilionário claramente espera colocar sua empresa em conflito com a rival OpenAI, que apesar do nome não é particularmente aberta. Mas será que liberar o código para algo como Grok realmente contribui para a comunidade de desenvolvimento de IA? Sim e não.
Grok é um chatbot treinado pela xAI para preencher a mesma função vagamente definida de algo como ChatGPT ou Claude: você pergunta, ele responde. Esse LLM, porém, ganhou um tom atrevido e acesso extra aos dados do Twitter como forma de diferenciá-lo dos demais.
Como sempre, esses sistemas são quase impossíveis de avaliar, mas o consenso geral parece ser que eles são competitivos com modelos de tamanho médio de última geração, como o GPT-3.5. (Se você decidir que isso é impressionante, dado o curto período de desenvolvimento, ou decepcionante, dado o orçamento e o bombástico em torno do xAI, depende inteiramente de você.)
De qualquer forma, Grok é um LLM moderno e funcional de tamanho e capacidade significativos, e quanto mais acesso a comunidade de desenvolvedores tiver às entranhas de tais coisas, melhor. O problema está em definir “aberto” de uma forma que faça mais do que permitir que uma empresa (ou bilionário) reivindique uma posição moral elevada.
Esta não é a primeira vez que os termos “aberto” e “código aberto” são questionados ou abusados no mundo da IA. E não estamos falando apenas de um problema técnico, como escolher uma licença de uso que não seja tão aberta quanto outra (Grok é Apache 2.0, se você está se perguntando).
Para começar, os modelos de IA são diferentes de outros softwares quando se trata de torná-los “código aberto”.
Se você estiver fazendo, digamos, um processador de texto, é relativamente simples torná-lo de código aberto: você publica todo o seu código publicamente e deixa a comunidade propor melhorias ou criar sua própria versão. Parte do que torna o conceito de código aberto valioso é que cada aspecto do aplicativo é original ou creditado ao seu criador original – essa transparência e adesão à atribuição correta não é apenas um subproduto, mas é fundamental para o próprio conceito de abertura.
Com a IA, isso provavelmente não é possível, porque a forma como os modelos de aprendizado de máquina são criados envolve um processo amplamente desconhecido, pelo qual uma enorme quantidade de dados de treinamento é destilada em uma representação estatística complexa, cuja estrutura nenhum ser humano realmente dirigiu, ou mesmo entende. . Esse processo não pode ser inspecionado, auditado e melhorado como o código tradicional pode — portanto, embora ainda tenha um valor imenso em certo sentido, ele nunca poderá ser realmente aberto. (A comunidade de padrões nem sequer definiu o que será aberto neste contexto, mas são discutindo ativamente isso.)
Isso não impediu os desenvolvedores de IA e as empresas de conceberem e reivindicarem os seus modelos como “abertos”, um termo que perdeu muito do seu significado neste contexto. Alguns chamam seu modelo de “aberto” se houver uma interface ou API voltada ao público. Alguns chamam de “aberto” se publicam um artigo descrevendo o processo de desenvolvimento.
Indiscutivelmente, o mais próximo do “código aberto” que um modelo de IA pode estar é quando seus desenvolvedores lançam seu pesos, ou seja, os atributos exatos dos inúmeros nós de suas redes neurais, que realizam operações matemáticas vetoriais na ordem precisa para completar o padrão iniciado pela entrada de um usuário. Mas mesmo modelos de “pesos abertos” como o LLaMa-2 excluem outros dados importantes, como o conjunto de dados e o processo de treinamento – que seriam necessários para recriá-lo do zero. (Alguns projetos vão além, é claro.)
Tudo isto sem sequer mencionar o facto de que são necessários milhões de dólares em recursos informáticos e de engenharia para criar ou replicar estes modelos, restringindo efectivamente quem pode criá-los e replicá-los a empresas com recursos consideráveis.
Então, onde o lançamento do Grok do xAI se enquadra nesse espectro?
Como modelo de peso aberto, está pronto para qualquer um baixar, usar, modificar, refinar ou destilar. Isso é bom! Parece estar entre os maiores modelos que alguém pode acessar livremente desta forma, em termos de parâmetros – 314 bilhões – o que dá aos engenheiros curiosos muito com que trabalhar se quiserem testar seu desempenho após várias modificações.
O tamanho do modelo apresenta sérias desvantagens: você precisará de centenas de gigabytes de RAM de alta velocidade para usá-lo nesta forma bruta. Se você ainda não possui, digamos, uma dúzia de Nvidia H100s em um equipamento de inferência de IA de seis dígitos, não se preocupe em clicar no link de download.
E embora Grok seja indiscutivelmente competitivo com alguns outros modelos modernos, também é muito, muito maior do que eles, o que significa que requer mais recursos para realizar a mesma coisa. Sempre há uma hierarquia de tamanho, eficiência e outras métricas, e ainda é valiosa, mas é mais matéria-prima do que produto final. Também não está claro se esta é a melhor e mais recente versão do Grok, como a versão claramente ajustada à qual alguns têm acesso via X.
No geral, é bom divulgar esses dados, mas não é uma mudança de jogo como alguns esperavam que fosse.
Também é difícil não perguntar por que Musk está fazendo isso. Sua nascente empresa de IA está realmente dedicada ao desenvolvimento de código aberto? Ou isso é apenas lama nos olhos da OpenAI, com a qual Musk está atualmente buscando uma briga de nível bilionário?
Se eles estiverem realmente dedicados ao desenvolvimento de código aberto, este será o primeiro de muitos lançamentos, e esperamos que levem em consideração o feedback da comunidade, divulguem outras informações cruciais, caracterizem o processo de dados de treinamento e expliquem melhor sua abordagem. Se não forem, e isso for feito apenas para que Musk possa apontar isso em argumentos on-line, ainda será valioso – apenas não é algo em que alguém no mundo da IA confiará ou prestará muita atenção após os próximos meses, enquanto brincam. o modelo.