Desempenho de modelos de IA em várias referências (benchmarks) de 1998 a 2024

Em aprendizado de máquina, uma lei de escala neural é uma lei de escala empírica que descreve como o desempenho de uma rede neural muda conforme fatores principais são aumentados ou reduzidos. Esses fatores incluem tipicamente o número de parâmetros, o tamanho do conjunto de dados de treinamento,[1][2] e o custo de treinamento. Alguns modelos também exibem ganhos de desempenho ao escalar a inferência por meio do aumento do computo em tempo de teste (test-time compute, TTC), estendendo as leis de escala neural além do treinamento para a fase de implantação.[3]

Introdução

editar

Em geral, um modelo de aprendizado profundo pode ser caracterizado por quatro parâmetros: tamanho do modelo, tamanho do conjunto de dados de treinamento, custo de treinamento e a taxa de erro pós-treinamento (por exemplo, a taxa de erro no conjunto de teste). Cada uma dessas variáveis pode ser definida como um número real, geralmente escrito como (respectivamente: contagem de parâmetros, tamanho do conjunto de dados, custo computacional e perda).

Uma lei de escala neural é uma lei estatística empírica ou teórica entre esses parâmetros. Existem também outros parâmetros com outras leis de escala.

Tamanho do modelo

editar

Na maioria dos casos, o tamanho do modelo é simplesmente o número de parâmetros. No entanto, surge uma complicação com o uso de modelos esparsos, como modelos de mistura de especialistas.[4] Em modelos esparsos, durante a inferência, apenas uma fração de seus parâmetros é utilizada. Em comparação, a maioria dos outros tipos de redes neurais, como os modelos transformadores, sempre usa todos os seus parâmetros durante a inferência.

Tamanho do conjunto de dados de treinamento

editar

O tamanho do conjunto de dados de treinamento geralmente é quantificado pelo número de pontos de dados contidos nele. Conjuntos de dados maiores são tipicamente preferidos, pois fornecem uma fonte de informação mais rica e diversificada a partir da qual o modelo pode aprender. Isso pode levar a um melhor desempenho de generalização quando o modelo é aplicado a dados novos e não vistos.[5] No entanto, aumentar o tamanho do conjunto de dados de treinamento também aumenta os recursos computacionais e o tempo necessários para o treinamento do modelo.

Com o método "pré-treinar e depois ajustar fino" (pretrain, then finetune) usado para a maioria dos modelos de linguagem grandes, existem dois tipos de conjunto de dados de treinamento: o conjunto de dados de pré-treinamento e o conjunto de dados de ajuste fino. Seus tamanhos têm efeitos diferentes no desempenho do modelo. Geralmente, o conjunto de dados de ajuste fino tem menos de 1% do tamanho do conjunto de dados de pré-treinamento.[6]

Em alguns casos, uma pequena quantidade de dados de alta qualidade é suficiente para o ajuste fino, e mais dados não melhoram necessariamente o desempenho.[6]

Muitas leis de escala, devido à sua natureza inerente de retornos decrescentes, valorizam os dados com base em uma função submodular de conjunto (submodular set function), conforme mostrado em um artigo[7] sobre este tópico.

Custo de treinamento

editar
Custo amortizado de hardware e energia para treinar modelos de IA de fronteira ao longo do tempo

O custo de treinamento é tipicamente medido em termos de tempo (quanto tempo leva para treinar o modelo) e recursos computacionais (quanta capacidade de processamento e memória são necessárias). É importante notar que o custo do treinamento pode ser significativamente reduzido com algoritmos de treinamento eficientes, bibliotecas de software otimizadas e computação paralela em hardware especializado, como GPUs ou TPUs.

O custo de treinamento de um modelo de rede neural é uma função de vários fatores, incluindo tamanho do modelo, tamanho do conjunto de dados de treinamento, complexidade do algoritmo de treinamento e os recursos computacionais disponíveis.[5] Em particular, dobrar o tamanho do conjunto de dados de treinamento não necessariamente dobra o custo do treinamento, porque pode-se treinar o modelo várias vezes sobre o mesmo conjunto de dados (cada uma sendo uma "época").

Desempenho

editar
Desempenho no MMLU versus escala da IA como uma sigmoide
Desempenho no BIG-Bench (difícil)[8] versus escala da IA como uma sigmoide
Desempenho em várias referências versus perda de log-verossimilhança negativa (com removido), ajustado como funções sigmoides[9]

O desempenho de um modelo de rede neural é avaliado com base em sua capacidade de prever com precisão a saída dados alguns dados de entrada. As métricas comuns para avaliar o desempenho do modelo incluem:[5]

O desempenho pode ser melhorado usando mais dados, modelos maiores, diferentes algoritmos de treinamento, regularizando o modelo para evitar sobreajuste e parada antecipada usando um conjunto de validação.

Quando o desempenho é um número limitado ao intervalo , como acurácia, precisão, etc., ele frequentemente escala como uma função sigmoide do custo, como visto nas figuras.

Exemplos

editar

(Hestness, Narang, et al, 2017)

editar

O artigo de 2017[2] é um ponto de referência comum para leis de escala neural ajustadas por análise estatística em dados experimentais. Trabalhos anteriores antes dos anos 2000, conforme citados no artigo, eram teóricos ou ordens de magnitude menores em escala. Enquanto trabalhos anteriores geralmente encontravam o expoente de escala como , com , o artigo descobriu que .

Dos fatores que variaram, apenas a tarefa pode alterar o expoente . Alterar os otimizadores, regularizadores e funções de perda da arquitetura alteraria apenas o fator de proporcionalidade, não o expoente. Por exemplo, para a mesma tarefa, uma arquitetura pode ter enquanto outra pode ter . Eles também descobriram que, para uma determinada arquitetura, o número de parâmetros necessário para atingir os níveis mais baixos de perda, dado um tamanho fixo do conjunto de dados, cresce como para outro expoente .

Eles estudaram tradução automática com LSTM (), modelagem de linguagem generativa com LSTM (), classificação ImageNet com ResNet () e reconhecimento de fala com duas arquiteturas híbridas (LSTMs complementadas por CNNs ou um decodificador de atenção) ().

(Henighan, Kaplan, et al, 2020)

editar

Uma análise de 2020[12] estudou relações estatísticas entre em uma ampla gama de valores e encontrou leis de escala semelhantes, na faixa de , , e em várias modalidades (texto, vídeo, imagem, texto para imagem, etc.).[12]

Em particular, as leis de escala encontradas são (Tabela 1 de[12]):

  • Para cada modalidade, eles fixaram um dos dois e variaram o outro ( é variado junto usando ), a perda de teste alcançável satisfazonde é a variável variada, e são parâmetros a serem encontrados por ajuste estatístico. O parâmetro é o mais importante.
    • Quando é a variável variada, varia de a dependendo da modalidade do modelo. Isso corresponde ao do artigo de escala Chinchilla.
    • Quando é a variável variada, varia de a dependendo da modalidade do modelo. Isso corresponde ao do artigo de escala Chinchilla.
  • Dado um orçamento computacional fixo, a contagem ideal de parâmetros do modelo é consistentemente em torno deO parâmetro varia por um fator de até 10 para diferentes modalidades. O parâmetro expoente varia de a para diferentes modalidades. Esse expoente corresponde ao do artigo de escala Chinchilla.
  • É "fortemente sugerido" (mas não verificado estatisticamente) que . Esse expoente corresponde ao do artigo de escala Chinchilla.

A lei de escala de foi confirmada durante o treinamento do GPT-3 (Figura 3.1[13]).

Escala Chinchilla (Hoffmann, et al, 2022)

editar
Proporção ideal de tokens de treinamento para parâmetros do modelo para a lei de escala Chinchilla. Mostra que, em geral, a escala "ótima Chinchilla" é , e é significativamente diferente de (Hoffmann et al., 2022). Análise de dados por Epoch AI.[14]

Uma lei de escala particular ("escala Chinchilla") afirma que, para um modelo de linguagem grande (LLM) treinado autoregressivamente por uma época, com um agendamento de taxa de aprendizado cosseno, temos:[15]onde as variáveis são

  • é o custo de treinamento do modelo, medido em operações de ponto flutuante (FLOPs).
  • é o número de tokens no conjunto de treinamento.
  • é a perda média de log-verossimilhança negativa por token (nats/token), alcançada pelo LLM treinado no conjunto de dados de teste.
    • representa a perda de um processo generativo ideal nos dados de teste.
    • captura o fato de que um modelo de linguagem Transformer com parâmetros tem desempenho inferior ao processo generativo ideal.
    • captura o fato de que o modelo treinado em tokens tem desempenho inferior ao processo generativo ideal.

e os parâmetros estatísticos são

  • , significando que custa 6 FLOPs por parâmetro para treinar em um token. Isso foi estimado por Kaplan et al.[16] Observe que o custo de treinamento é muito maior do que o custo de inferência, pois o treinamento envolve passes diretos e retropropagação, enquanto a inferência custa de 1 a 2 FLOPs por parâmetro para inferir em um token.
  • .

Embora Besiroglu et al.[17] afirmem que a estimativa estatística está ligeiramente incorreta e deveria ser .

As leis estatísticas foram ajustadas a dados experimentais com .

Como existem 4 variáveis relacionadas por 2 equações, impor 1 restrição adicional e 1 objetivo de otimização adicional permite resolver todas as quatro variáveis. Em particular, para qualquer fixo, podemos resolver exclusivamente todas as 4 variáveis que minimizam . Isso nos fornece o ideal para qualquer fixo:Inserindo os valores numéricos, obtemos o tamanho do modelo e o tamanho do conjunto de dados de treinamento "eficiente Chinchilla", bem como a perda de teste alcançável:Da mesma forma, podemos encontrar o tamanho ideal do conjunto de dados de treinamento e o orçamento computacional de treinamento para qualquer tamanho fixo de parâmetro do modelo, e assim por diante.

Existem outras estimativas para o tamanho do modelo e tamanho do conjunto de dados de treinamento "eficiente Chinchilla". O acima é baseado em um modelo estatístico de . Também se pode ajustar diretamente uma lei estatística para sem passar pelo desvio, para o qual se obtém:ou conforme tabelado:

/ FLOP / FLOPs do treinamento do Gopher
400 milhões 1,92e+19 1/29968 8,0 bilhões
1 bilhão 1,21e+20 1/5706 20,2 bilhões
10 bilhões 1,23e+22 1/2819 205,1 bilhões
67 bilhões 5,76e+23 1 1,5 trilhão
175 bilhões 3,85e+24 6,7 3,7 trilhões
280 bilhões 9,90e+24 17,2 5,9 trilhões
520 bilhões 3,43e+25 59,5 11,0 trilhões
1 trilhão 1,27e+26 221,3 21,2 trilhões
10 trilhões 1,30e+28 22515,9 216,2 trilhões

Discrepância

editar

A análise da lei de escala Chinchilla para treinamento de modelos de linguagem transformadores sugere que, para um dado orçamento de computação de treinamento (), para atingir a perda de pré-treinamento mínima para esse orçamento, o número de parâmetros do modelo () e o número de tokens de treinamento () devem ser escalonados em proporções iguais, . Essa conclusão difere da análise conduzida por Kaplan et al.,[16] que descobriu que deve ser aumentado mais rapidamente do que , .

Essa discrepância pode ser atribuída principalmente ao fato de os dois estudos usarem métodos diferentes para medir o tamanho do modelo. Kaplan et al.:[18]

  • não contaram os parâmetros na camada de embedding de token, o que, quando analisado em tamanhos de modelo menores, leva a coeficientes enviesados;
  • estudaram modelos menores do que o grupo Chinchilla, amplificando o efeito;
  • assumiram que .

Efeitos secundários também surgem devido a diferenças no ajuste de hiperparâmetros e nos agendamentos de taxa de aprendizado. Kaplan et al.:[19]

  • usaram um agendamento de aquecimento muito longo para modelos menores, tornando-os aparentemente menos eficientes;
  • não ajustaram completamente os hiperparâmetros de otimização.

Além da escala Chinchilla

editar

Como a escala Chinchilla tem sido o ponto de referência para muitas execuções de treinamento em grande escala, houve um esforço concomitante para ir "além da escala Chinchilla", ou seja, modificar parte do pipeline de treinamento para obter a mesma perda com menos esforço, ou deliberadamente treinar por mais tempo do que o "ótimo Chinchilla".

Geralmente, o objetivo é tornar o expoente da lei de escala maior, o que significa que a mesma perda pode ser treinada com muito menos computação. Por exemplo, filtrar dados pode tornar o expoente da lei de escala maior.[20]

Outra vertente de pesquisa estuda como lidar com dados limitados, pois, de acordo com as leis de escala Chinchilla, o tamanho do conjunto de dados de treinamento para os maiores modelos de linguagem já se aproxima do que está disponível na internet.[21] Descobriu-se que aumentar o conjunto de dados com uma mistura de "objetivos de denoising" construídos a partir do conjunto de dados melhora o desempenho.[22] estuda a escala ideal quando todos os dados disponíveis já estão esgotados (como em línguas raras), de modo que se deve treinar várias épocas sobre o mesmo conjunto de dados (enquanto a escala Chinchilla requer apenas uma época). A série Phi de pequenos modelos de linguagem foi treinada em dados semelhantes a livros didáticos gerados por grandes modelos de linguagem, para os quais os dados são limitados apenas pela quantidade de computação disponível.[23]

A otimalidade Chinchilla foi definida como "ótima para computação de treinamento", enquanto em modelos reais de qualidade de produção, haverá muita inferência após o treinamento estar completo. "Sobretreinar" durante o treinamento significa melhor desempenho durante a inferência.[24] Os modelos LLaMA foram sobretreinados por esse motivo. Estudos subsequentes descobriram leis de escala no regime de sobretreinamento, para tamanhos de conjunto de dados até 32 vezes maiores que o ótimo Chinchilla.[25]

Leis de escala neurais quebradas (BNSL)

editar

Uma análise de 2022[26] descobriu que muitos comportamentos de escala de redes neurais artificiais seguem uma forma funcional de lei de potência suavemente quebrada:

em que se refere à quantidade que está sendo escalada (isto é, , , , número de etapas de treinamento, número de etapas de inferência ou tamanho da entrada do modelo) e se refere à métrica de avaliação de desempenho a jusante (ou montante) de interesse (por exemplo, erro de predição, entropia cruzada, erro de calibração, AUROC, pontuação BLEU percentual, pontuação F1, recompensa, classificação Elo, taxa de resolução ou pontuação FID) em configurações zero-shot, com prompt ou ajuste fino. Os parâmetros são encontrados por ajuste estatístico.

Em um gráfico log-log, quando não é muito grande e é subtraído do eixo y, essa forma funcional se parece com uma série de segmentos lineares conectados por arcos; as transições entre os segmentos são chamadas de "quebras" (breaks), daí o nome leis de escala neurais quebradas (broken neural scaling laws, BNSL).

Os cenários em que os comportamentos de escala das redes neurais artificiais foram encontrados para seguir essa forma funcional incluem visão em grande escala, linguagem, áudio, vídeo, difusão, modelagem generativa, aprendizado multimodal, aprendizado contrastivo, alinhamento de IA, capacidades de IA, robótica, generalização fora da distribuição (OOD), aprendizado contínuo, aprendizado por transferência, estimação de incerteza / calibração, detecção fora da distribuição, robustez adversarial, destilação, esparsidade, recuperação, quantização, poda, justiça, moléculas, programação/codificação de computador, problemas matemáticos de palavras, aritmética, habilidades emergentes, dupla descida, aprendizado supervisionado, aprendizado não supervisionado/auto-supervisionado e aprendizado por reforço profundo (agente único e multiagente).

As arquiteturas para as quais os comportamentos de escala das redes neurais artificiais foram encontrados para seguir essa forma funcional incluem redes neurais residuais, transformadores, MLPs, MLP-mixers, redes neurais recorrentes, redes neurais convolucionais, redes neurais de grafos, U-nets, modelos codificador-decodificador (e apenas codificador) (e apenas decodificador), ensembles (e não ensembles), modelos MoE (mistura de especialistas) (e não MoE) e modelos podados esparsos (e não podados não esparsos).

Escala de inferência

editar
A classificação Elo de vários agentes AlphaZero treinados para jogar o jogo de tabuleiro Hex com computação variável no tempo de treinamento e no tempo de teste

Além de aumentar a computação de treinamento, também se pode aumentar a computação de inferência (ou "computação em tempo de teste"[3]). Como exemplo, a classificação Elo do AlphaGo melhora continuamente à medida que ele pode gastar mais tempo em sua Busca em Árvore de Monte Carlo por jogada.[27] Para o AlphaGo Zero, aumentar o Elo em 120 requer o dobro do tamanho do modelo e do treinamento, ou o dobro da busca em tempo de teste.[28] Da mesma forma, um modelo de linguagem para resolver desafios de codificação em nível de competição, AlphaCode, melhorou consistentemente (log-linearmente) em desempenho com mais tempo de busca.[29]

Para o Hex, 10 vezes a computação de tempo de treinamento troca por 15 vezes a computação de tempo de teste.[10] Para o Libratus para no-limit Texas hold 'em frente a frente, e Cicero para Diplomacy, e muitos outros jogos abstratos de informação parcial, a busca em tempo de inferência melhora o desempenho em uma proporção de troca semelhante, por até 100.000 vezes o aumento efetivo na computação de tempo de treinamento.[28]

Em 2024, o relatório do OpenAI o1 documentou que o desempenho do o1 melhorou consistentemente com o aumento da computação em tempo de treinamento e em tempo de teste, e forneceu inúmeros exemplos de escala de computação em tempo de teste em matemática, raciocínio científico e tarefas de codificação.[30][31]

Um método para aumentar a computação em tempo de teste é a supervisão baseada em processo, onde um modelo gera uma cadeia de raciocínio passo a passo para responder a uma pergunta, e outro modelo (humano ou IA) fornece uma pontuação de recompensa em algumas das etapas intermediárias, não apenas na resposta final. A supervisão baseada em processo pode ser escalada arbitrariamente usando pontuação de recompensa sintética sem outro modelo, por exemplo, executando rollouts de Monte Carlo e pontuando cada etapa no raciocínio de acordo com a probabilidade de levar à resposta correta. Outro método é por modelos de revisão, que são modelos treinados para resolver um problema várias vezes, cada vez revisando a tentativa anterior.[32]

Outros exemplos

editar

Transformadores de visão

editar

Transformadores de visão, semelhantes aos transformadores de linguagem, exibem leis de escala. Uma pesquisa de 2022 treinou transformadores de visão, com contagens de parâmetros , em conjuntos de imagens de tamanhos , para computação (em unidades de TPUv3-core-dias).[33]

Após treinar o modelo, ele é ajustado fino no conjunto de treinamento ImageNet. Seja a probabilidade de erro do modelo ajustado fino classificando o conjunto de teste ImageNet. Eles descobriram .

Tradução automática neural

editar

Ghorbani, Behrooz et al.[34] estudaram leis de escala para tradução automática neural (especificamente, inglês como fonte e alemão como alvo) em modelos Transformer codificador-decodificador, treinados até a convergência nos mesmos conjuntos de dados (portanto, não ajustaram leis de escala para custo computacional ou tamanho do conjunto de dados ). Eles variaram . Encontraram três resultados:

  • é uma função de lei de escala de , onde são a contagem de parâmetros do codificador e decodificador. Não é simplesmente uma função da contagem total de parâmetros . A função tem a forma , onde são parâmetros ajustados. Eles descobriram que minimiza a perda se for mantido fixo.
  • "satura" (isto é, atinge ) para modelos menores quando os conjuntos de dados de treinamento e teste são "fonte-naturais" do que "alvo-naturais". Um ponto de dados "fonte-natural" significa um par de frases inglês-alemão, e o modelo é solicitado a traduzir a frase em inglês para alemão, e a frase em inglês é escrita por um escritor de inglês natural, enquanto a frase em alemão é traduzida da frase em inglês por um tradutor automático.[35] Para construir os dois tipos de conjuntos de dados, os autores coletaram frases naturais em inglês e alemão online e depois usaram tradução automática para gerar suas traduções.
  • À medida que os modelos crescem, os modelos treinados em conjuntos de dados fonte-originais podem atingir baixa perda, mas pontuação BLEU ruim. Em contraste, os modelos treinados em conjuntos de dados alvo-originais atingem baixa perda e boa pontuação BLEU em conjunto (Figura 10, 11[34]).

Os autores hipotetizam que conjuntos de dados fonte-naturais têm frases alvo uniformes e monótonas, e assim um modelo treinado para prever as frases alvo rapidamente se sobreajustaria.

[36] treinaram Transformers para traduções automáticas com tamanhos em tamanhos de conjunto de dados . Eles descobriram que a lei de escala de Kaplan et al. (2020)[16] se aplicava à tradução automática: . Eles também descobriram que a pontuação BLEU escala como .

Aprendizado por transferência

editar

Hernandez, Danny et al.[37] estudaram leis de escala para aprendizado por transferência em modelos de linguagem. Eles treinaram uma família de Transformers de três maneiras:

  • pré-treinamento em inglês, ajuste fino em Python;
  • pré-treinamento em uma mistura igual de inglês e Python, ajuste fino em Python;
  • treinamento em Python.

A ideia é que o pré-treinamento em inglês deve ajudar o modelo a atingir baixa perda em um conjunto de teste de texto Python. Suponha que o modelo tenha contagem de parâmetros , e após ser ajustado fino em tokens Python, atinja alguma perda . Dizemos que sua "contagem de tokens transferidos" é , se outro modelo com o mesmo atingir o mesmo após treinar em tokens Python.

Eles descobriram para pré-treinamento em texto inglês, e para pré-treinamento em inglês e código não-Python.

Precisão

editar

Kumar et al.[38] estudam leis de escala para precisão numérica no treinamento de modelos de linguagem. Eles treinam uma família de modelos de linguagem com pesos, ativações e cache KV em precisão numérica variável, tanto em tipo inteiro quanto em ponto flutuante, para medir os efeitos na perda em função da precisão. Para o treinamento, sua lei de escala considera a menor precisão agrupando os efeitos da precisão em uma "contagem efetiva de parâmetros" geral que governa a escala da perda, usando a parametrização . Isso ilustra como o treinamento em menor precisão degrada o desempenho ao reduzir a capacidade real do modelo de uma maneira que varia exponencialmente com os bits.

Para inferência, eles descobrem que o sobretreinamento extremo de modelos de linguagem além da otimalidade Chinchilla pode levar os modelos a serem mais sensíveis à quantização, uma técnica padrão para aprendizado profundo eficiente. Isso é demonstrado observando que a degradação na perda devido à quantização de pesos aumenta como uma lei de potência aproximada na proporção token/parâmetro vista durante o pré-treinamento, de modo que modelos pré-treinados em orçamentos de token extremos podem ter pior desempenho em termos de perda de validação do que aqueles treinados em orçamentos de token mais modestos se a quantização pós-treinamento for aplicada. Outros trabalhos que examinam os efeitos do sobretreinamento incluem Sardana et al.[39] e Gadre et al.[40]

Leis de densificação (Densing laws)

editar

Xiao et al.[9] consideraram a eficiência de parâmetros ("densidade") dos modelos ao longo do tempo. A ideia é que, com o tempo, os pesquisadores descobririam modelos que usam seus parâmetros de forma mais eficiente, no sentido de que modelos com o mesmo desempenho podem ter menos parâmetros.

Um modelo pode ter uma contagem real de parâmetros , definida como o número real de parâmetros no modelo, e uma contagem de parâmetros "efetiva" , definida como quantos parâmetros um modelo bem conhecido anteriormente teria levado para atingir o mesmo desempenho em algumas referências, como MMLU. não é medido diretamente, mas sim medindo o desempenho real do modelo e depois inserindo-o de volta em uma lei de escala previamente ajustada, como a lei de escala Chinchilla, para obter qual seria necessário para atingir esse desempenho , de acordo com essas leis de escala previamente ajustadas.

Uma lei de densificação afirma que , onde é o tempo real, medido em dias.

Ver também

editar

Referências

editar
  1. Bahri, Yasaman; Dyer, Ethan; Kaplan, Jared; Lee, Jaehoon; Sharma, Utkarsh (2024). «Explaining neural scaling laws». Proceedings of the National Academy of Sciences. 121 (27). Bibcode:2024PNAS..12111878B. PMC 11228526Acessível livremente. PMID 38913889. arXiv:2102.06701Acessível livremente. doi:10.1073/pnas.2311878121Acessível livremente 
  2. a b Hestness, Joel; Narang, Sharan; Ardalani, Newsha; Diamos, Gregory; Jun, Heewoo; Kianinejad, Hassan; Patwary, Md Mostofa Ali; Yang, Yang; Zhou, Yanqi (1 de dezembro de 2017). «Deep Learning Scaling is Predictable, Empirically». arXiv:1712.00409Acessível livremente [cs.LG] 
  3. a b Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; Chen, Mark; Jun, Heewoo; Kaiser, Lukasz; Plappert, Matthias; Tworek, Jerry; Hilton, Jacob (18 de novembro de 2021). «Training Verifiers to Solve Math Word Problems». arXiv:2110.14168Acessível livremente 
  4. Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (28 de junho de 2022). «DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale». PMLR. Proceedings of the 39th International Conference on Machine Learning (em inglês): 18332–18346. arXiv:2201.05596Acessível livremente 
  5. a b c Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  6. a b Zhou, Chunting; Liu, Pengfei; Xu, Puxin; Iyer, Srini; Sun, Jiao; Mao, Yuning; Ma, Xuezhe; Efrat, Avia; Yu, Ping; Yu, Lili; Zhang, Susan; Ghosh, Gargi; Lewis, Mike; Zettlemoyer, Luke; Levy, Omer (1 de maio de 2023). «LIMA: Less Is More for Alignment». arXiv:2305.11206Acessível livremente [cs.CL] 
  7. Bilmes, Jeff; Bhatt, Gantavya; Das, Arnav (28 de maio de 2026). «How Much Is a Dataset Worth? Scaling Laws, the Vendi Score, and Matrix Spectral Functions». arxiv 
  8. «google/BIG-bench». Google. 24 de setembro de 2024. Consultado em 25 de setembro de 2024 
  9. a b Xiao, Chaojun; Cai, Jie; Zhao, Weilin; Zeng, Guoyang; Lin, Biyuan; Zhou, Jie; Zheng, Zhi; Han, Xu; Liu, Zhiyuan (6 de dezembro de 2024). «Densing Law of LLMs». arXiv:2412.04315Acessível livremente 
  10. a b Jones, Andy L. (2021). «Scaling Scaling Laws with Board Games». arXiv:2104.03113Acessível livremente [cs.LG] 
  11. LMSYS Chatbot leaderboard
  12. a b c Henighan, Tom; Kaplan, Jared; Katz, Mor; Chen, Mark; Hesse, Christopher; Jackson, Jacob; Heewoo, Jun; Brown, Tom B.; Dhariwal, Prafulla; Mann, Chris; Radford, Alec; Ramesh, Aditya; Ryder, Nick; Ziegler, Daniel M.; Schulman, John; Gray, Scott; Hallacy, Chris; Amodei, Dario; McCandlish, Sam (27 de outubro de 2020). «Scaling Laws for Autoregressive Generative Modeling». OCLC 1228442047. arXiv:2010.14701Acessível livremente  Parâmetros não válidos no arXiv (ajuda)
  13. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, J.; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, T.; Child, Rewon (28 de maio de 2020). «Language Models are Few-Shot Learners». arXiv:2005.14165Acessível livremente [cs.CL] 
  14. Besiroglu, Tamay (17 de abril de 2024). «Chinchilla Scaling: A Replication Attempt». Epoch AI (em inglês). Consultado em 24 de setembro de 2024 
  15. Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (29 de março de 2022). «Training Compute-Optimal Large Language Models». arXiv:2203.15556Acessível livremente [cs.CL] 
  16. a b c Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). «Scaling Laws for Neural Language Models». CoRR. abs/2001.08361. arXiv:2001.08361Acessível livremente 
  17. Besiroglu, Tamay; Erdil, Ege; Barnett, Matthew; You, Josh (15 de abril de 2024). «Chinchilla Scaling: A replication attempt». arXiv:2404.10102Acessível livremente [cs.AI] 
  18. Pearce, Tim; Song, Jinyeop (2024). «Reconciling Kaplan and Chinchilla Scaling Laws». arXiv:2406.12907Acessível livremente 
  19. Porian, Tomer; Wortsman, Mitchell; Jitsev, Jenia; Schmidt, Ludwig; Carmon, Yair (25 de julho de 2024). «Resolving Discrepancies in Compute-Optimal Scaling of Language Models». arXiv:2406.19146Acessível livremente 
  20. Sorscher, Ben; Geirhos, Robert; Shekhar, Shashank; Ganguli, Surya; Morcos, Ari S. (21 de abril de 2023). «Beyond neural scaling laws: beating power law scaling via data pruning». arXiv:2206.14486Acessível livremente [cs.LG] 
  21. Tay, Yi; Wei, Jason; Chung, Hyung Won; Tran, Vinh Q.; So, David R.; Shakeri, Siamak; Garcia, Xavier; Zheng, Huaixiu Steven; Rao, Jinfeng (16 de novembro de 2022). «Transcending Scaling Laws with 0.1% Extra Compute». arXiv:2210.11399Acessível livremente [cs.CL] 
  22. Muennighoff, Niklas; Rush, Alexander; Barak, Boaz; Le Scao, Teven; Tazi, Nouamane; Piktus, Aleksandra; Pyysalo, Sampo; Wolf, Thomas; Raffel, Colin A. (15 de dezembro de 2023). «Scaling Data-Constrained Language Models». Advances in Neural Information Processing Systems (em inglês). 36: 50358–50376. arXiv:2305.16264Acessível livremente 
  23. Li, Yuanzhi; Bubeck, Sébastien; Eldan, Ronen; Del Giorno, Allie; Gunasekar, Suriya; Lee, Yin Tat (11 de setembro de 2023). «Textbooks Are All You Need II: phi-1.5 technical report». arXiv:2309.05463Acessível livremente [cs.CL] 
  24. Sardana, Nikhil; Frankle, Jonathan (31 de dezembro de 2023). «Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws». arXiv:2401.00448Acessível livremente [cs.LG] 
  25. Gadre, Samir Yitzhak; Smyrnis, Georgios; Shankar, Vaishaal; Gururangan, Suchin; Wortsman, Mitchell; Shao, Rulin; Mercat, Jean; Fang, Alex; Li, Jeffrey (13 de março de 2024). «Language models scale reliably with over-training and on downstream tasks». arXiv:2403.08540Acessível livremente [cs.CL] 
  26. Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). «Broken Neural Scaling Laws». arXiv:2210.14891Acessível livremente [cs.LG] 
  27. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; van den Driessche, George; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, John; Kalchbrenner, Nal; Sutskever, Ilya (janeiro de 2016). «Mastering the game of Go with deep neural networks and tree search». Nature (em inglês). 529 (7587): 484–489. Bibcode:2016Natur.529..484S. ISSN 1476-4687. PMID 26819042. doi:10.1038/nature16961  Verifique o valor de |url-access=subscription (ajuda)
  28. a b Noam, Brown (17 de setembro de 2024). Parables on the Power of Planning in AI: From Poker to Diplomacy: Noam Brown (OpenAI) (Vídeo) (em inglês). Consultado em 24 de setembro de 2024 – via YouTube  Palestra na Paul G. Allen School na quinta-feira, 23 de maio de 2024, 15:30
  29. Li, Yujia; Choi, David; Chung, Junyoung; Kushman, Nate; Schrittwieser, Julian; Leblond, Rémi; Eccles, Tom; Keeling, James; Gimeno, Felix; Dal Lago, Agustin; Hubert, Thomas; Choy, Peter; de Masson d'Autume, Cyprien; Babuschkin, Igor; Chen, Xinyun (9 de dezembro de 2022). «Competition-level code generation with AlphaCode». Science (em inglês). 378 (6624): 1092–1097. Bibcode:2022Sci...378.1092L. ISSN 0036-8075. PMID 36480631. arXiv:2203.07814Acessível livremente. doi:10.1126/science.abq1158 
  30. Villalobos, Pablo (28 de julho de 2023). «Trading Off Compute in Training and Inference». Epoch AI (em inglês). Consultado em 24 de setembro de 2024 
  31. «Learning to Reason with LLMs». OpenAI. Consultado em 16 de setembro de 2024 
  32. Snell, Charlie; Lee, Jaehoon; Xu, Kelvin; Kumar, Aviral (6 de agosto de 2024). «Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters». arXiv:2408.03314Acessível livremente 
  33. Zhai, Xiaohua; Kolesnikov, Alexander; Houlsby, Neil; Beyer, Lucas (2022). «Scaling Vision Transformers». CVPR (em inglês): 12104–12113 
  34. a b Ghorbani, Behrooz; Firat, Orhan; Freitag, Markus; Bapna, Ankur; Krikun, Maxim; Garcia, Xavier; Chelba, Ciprian; Cherry, Colin (1 de setembro de 2021). «Scaling Laws for Neural Machine Translation». arXiv:2109.07740Acessível livremente [cs.LG] 
  35. Chen, Mia Xu; Firat, Orhan; Bapna, Ankur; Johnson, Melvin; Macherey, Wolfgang; Foster, George; Jones, Llion; Schuster, Mike; Shazeer, Noam; Parmar, Niki; Vaswani, Ashish; Uszkoreit, Jakob; Kaiser, Lukasz; Chen, Zhifeng; Wu, Yonghui (julho de 2018). «The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation». Melbourne, Austrália: Association for Computational Linguistics. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers): 76–86. arXiv:1804.09849Acessível livremente. doi:10.18653/v1/P18-1008 
  36. Gordon, Mitchell A; Duh, Kevin; Kaplan, Jared (2021). «Data and Parameter Scaling Laws for Neural Machine Translation». Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, EUA: Association for Computational Linguistics. pp. 5915–5922. doi:10.18653/v1/2021.emnlp-main.478Acessível livremente 
  37. Hernandez, Danny; Kaplan, Jared; Henighan, Tom; McCandlish, Sam (1 de fevereiro de 2021). «Scaling Laws for Transfer». arXiv:2102.01293Acessível livremente [cs.LG] 
  38. Kumar, Tanishq; Ankner, Zachary; Spector, Benjamin F.; Bordelon, Blake; Muennighoff, Niklas; Paul, Mansheej; Pehlevan, Cengiz; Ré, Christopher; Raghunathan, Aditi (30 de novembro de 2024). «Scaling Laws for Precision». arXiv:2411.04330Acessível livremente 
  39. Sardana, Nikhil; Portes, Jacob; Doubov, Sasha; Frankle, Jonathan (18 de julho de 2024). «Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws». arXiv:2401.00448Acessível livremente 
  40. Gadre, Samir Yitzhak; Smyrnis, Georgios; Shankar, Vaishaal; Gururangan, Suchin; Wortsman, Mitchell; Shao, Rulin; Mercat, Jean; Fang, Alex; Li, Jeffrey (14 de junho de 2024). «Language models scale reliably with over-training and on downstream tasks». arXiv:2403.08540Acessível livremente