O que são tokens ChatGPT e como funcionam?

O que são tokens ChatGPT e como funcionam?

Grandes modelos de linguagem como o que alimenta o ChatGPT podem gerar milhares de palavras em um único minuto.  Da mesma forma, eles podem entender rapidamente entradas longas.  Isto pode parecer magia, mas ao contrário dos humanos, o chatbot não processa texto como frases individuais ou mesmo palavras.  Em vez disso, o ChatGPT usa tokens para decodificar e produzir idiomas humanos como inglês, espanhol e outros.  Portanto, neste artigo, vamos responder ao básico, ou seja, como funcionam os tokens ChatGPT, por que são necessários e como afetam sua experiência de bate-papo.

O que são tokens ChatGPT?  Janela de contexto explicada

Calvin Wankhede / Autoridade Android

Os tokens representam os blocos básicos de qualquer resposta de texto ChatGPT.  Embora tendamos a agrupar o texto com base no número de palavras, o modelo de linguagem GPT não funciona da mesma maneira.  Em vez disso, procura combinações previsíveis de letras e agrupa-as para formar um token.

Os tokens ChatGPT podem parecer um conceito abstrato, então vamos entender como funciona com um exemplo.  A palavra “ar” é uma palavra usada com frequência na linguagem cotidiana.  O modelo provavelmente se deparou com isso várias vezes ao verificar seus dados de treinamento.  Ambos os fatores significam que “ar” forma um único token.

Uma única palavra em inglês pode ocupar de 1 a 3 tokens.

No entanto, se você usar uma palavra mais longa e comparativamente menos comum como “companhia aérea”, descobrirá que o modelo de linguagem trata “aéreo” e “linha” como dois tokens independentes.

Os tokens não importam para a maioria dos usuários do chatbot, mas desempenham um papel na determinação do limite de caracteres do ChatGPT.  Além disso, o modelo de linguagem também tem uma limitação no número de tokens que pode conter na memória.  Portanto, se você contar um fato ao ChatGPT no início de uma conversa, ele acabará esquecendo-o após processar alguns milhares de tokens.  Isso é conhecido como “janela de contexto” do modelo de linguagem.

Como contar tokens no ChatGPT?

É mais provável que palavras comuns no dicionário de inglês correspondam a um único token.  No entanto, palavras complexas não recebem o mesmo tratamento e podem, na verdade, consistir em vários tokens ao mesmo tempo.  Aqui está uma tabela rápida que ilustra como você pode contar o número de tokens para um determinado trecho de texto:

Número de tokensExemplos

Palavras com menos de quatro caracteres

Número de tokens

1

Exemplos

Ar, terceiro, este, texto

Palavras mais longas ou menos comuns

Número de tokens

1 a 3

Exemplos

Comoção, companhia aérea, entenda

Pontuação e números

Número de tokens

1

Exemplos

. , ! / 3 9

Espaço

Número de tokens

1

Exemplos

Emoji

Número de tokens

1 a 3

Exemplos

?️

Embora a tabela acima sirva como uma orientação aproximada, nem sempre é possível prever quantos tokens uma determinada palavra ou frase conterá.  Veja os números, por exemplo.  Grupos comuns como “123” e “333” corresponderão apenas a um token.  No entanto, sequências mais longas de números serão divididas em vários tokens.

Como regra geral, o criador do ChatGPT, OpenAI, diz que 100 tokens equivalerão aproximadamente a 75 palavras.  No entanto, essa correlação entre o comprimento da palavra e a contagem de tokens só é válida para palavras em inglês.

Palavras em línguas estrangeiras, especialmente as menos comuns, ocuparão mais fichas.  Por exemplo, os 17 caracteres do texto vietnamita “Bãi đậu xe ở đâu?”  corresponde a surpreendentes 13 tokens.

Se você quiser verificar quantos tokens há em um determinado trecho de texto, confira a ferramenta Tokenizer gratuita da OpenAI.  Ele destaca diferentes tokens em um determinado trecho de texto.

Qual é o limite de token no ChatGPT?