Um dos principais fatores que tornam viável a aplicação de
modelos grandes de linguagem (LLMs) é o controle do espaço de
probabilidade de tokens através da redução de dimensionalidade
do vocabulário, sem perda da capacidade de reconstruir qualquer
token válido da linguagem sendo modelada.
Considerando esse objetivo, dois algoritmos que podem ser
utilizados para esse fim são: