Considere-se a aplicação de um modelo grande de linguagem
(LLM) com 3 bilhões de parâmetros, distribuído em formato não
quantizado, meia-precisão.
A quantidade mínima de memória necessária para carregar os
pesos do modelo para inferência (sem gradientes), considerando
apenas o espaço ocupado pelos pesos, é: