Transformer (aprendizado profundo) 📖 Wikipedia

Este artigo ou parte dele incorpora textos gerados por inteligência artificial.

No aprendizado profundo, o transformer ou transformador é uma arquitetura de rede neural artificial baseada no mecanismo de atenção multicabeça (multi-head), em que o texto é convertido em representações numéricas chamadas tokens, e cada token é convertido num vetor através da procura numa tabela de embedding de palavras.^[1] Em cada camada, cada token é então contextualizado dentro do escopo da janela de contexto com outros tokens (não mascarados) através de um mecanismo de atenção multicabeça paralelo, permitindo que o sinal dos tokens-chave seja amplificado e o dos tokens menos importantes seja diminuído.

Os transformers têm a vantagem de não terem unidades recorrentes, necessitando por isso de menos tempo de treinamento do que as arquiteturas neurais recorrentes (RNNs) anteriores, como a LSTM.^[2] Variações posteriores têm sido amplamente adotadas para o treinamento de grandes modelos de linguagem (LLMs) em grandes conjuntos de dados (de linguagem).^[3]

A versão moderna do transformer foi proposta no artigo de 2017 "Attention Is All You Need" por investigadores da Google.^[1] Os antecessores dos transformers foram desenvolvidos como uma melhoria em relação às arquiteturas anteriores para tradução automática,^[4]^[5] mas desde então têm encontrado muitas aplicações. São utilizados no processamento de linguagem natural em larga escala, em visão computacional (Transformer de Visão), na aprendizagem por reforço,^[6]^[7] em áudio,^[8] na aprendizagem multimodal, na robótica,^[9] e para jogar xadrez.^[10] Também levaram ao desenvolvimento de sistemas pré-treinados, tais como os transformers pré-treinados generativos (GPTs)^[11] e o BERT^[12] (representações de codificador bidirecional de transformers).

História

editar

Antecessores

editar

Durante muitos anos, a modelagem e geração de sequências foi feita usando redes neurais recorrentes (RNNs) simples. Um exemplo inicial muito citado foi a Rede de Elman (1990). Em teoria, a informação de um token pode propagar-se arbitrariamente ao longo da sequência, mas, na prática, o problema do desvanecimento do gradiente deixa o estado do modelo, no final de uma frase longa, sem informações precisas e extraíveis sobre os tokens anteriores.

Um avanço fundamental foi a LSTM (1995),^{[nota 1]} uma RNN que utilizou várias inovações para superar o problema do desvanecimento do gradiente, permitindo a aprendizagem eficiente na modelagem de sequências longas. Uma inovação fundamental foi o uso de um mecanismo de atenção que utilizava neurônios que multiplicam as saídas de outros neurônios, as chamadas unidades multiplicativas.^[13] Redes neurais usando unidades multiplicativas foram mais tarde chamadas de redes sigma-pi^[14] ou redes de ordem superior.^[15] A LSTM tornou-se a arquitetura padrão para modelagem de sequências longas até à publicação dos transformers em 2017. No entanto, a LSTM ainda usava processamento sequencial, como a maioria das outras RNNs.^{[nota 2]} Especificamente, as RNNs operam um token de cada vez, do primeiro ao último; elas não podem operar em paralelo sobre todos os tokens de uma sequência.

Os transformers modernos superam este problema, mas, ao contrário das RNNs, exigem um tempo de computação que é uma função quadrática do tamanho da janela de contexto. O controlador de pesos rápidos de escala linear (1992) aprende a calcular uma matriz de pesos para processamento adicional, dependendo da entrada.^[16] Uma das suas duas redes tem "pesos rápidos" ou "links dinâmicos" (1981).^[17]^[18]^[19] Uma rede neural lenta aprende por descida de gradiente a gerar chaves e valores para calcular as mudanças de peso da rede neural rápida que calcula respostas a consultas.^[16] Mais tarde, demonstrou-se que isso era equivalente ao transformer linear não normalizado.^[20]^[21]

Atenção com seq2seq

editar

A ideia de transdução de sequência codificador-decodificador foi desenvolvida no início da década de 2010; comumente citados como os originadores que produziram seq2seq estão dois artigos publicados simultaneamente em 2014.^[22]^[23]

Um modelo de 380 milhões de parâmetros para tradução automática utiliza duas memórias curtas de longo prazo (LSTM).^[23] A sua arquitetura consiste em duas partes. O codificador é uma LSTM que recebe uma sequência de tokens e transforma-a num vetor. O decodificador é outra LSTM que converte o vetor numa sequência de tokens. Da mesma forma, outro modelo de 130 milhões de parâmetros utilizou unidades recorrentes bloqueadas (GRU) em vez de LSTM.^[22] Pesquisas posteriores mostraram que as GRUs não são nem melhores nem piores do que as LSTMs para seq2seq.^[24]^[25]

Estes primeiros modelos seq2seq não possuíam mecanismo de atenção e o vetor de estado só é acessível após o processamento da última palavra do texto de origem. Embora, em teoria, esse vetor retenha a informação sobre toda a frase original, na prática a informação é mal preservada. Isso ocorre porque a entrada é processada sequencialmente por uma rede recorrente num vetor de saída de tamanho fixo, que é então processado por outra rede recorrente numa saída. Se a entrada for longa, o vetor de saída não seria capaz de conter todas as informações relevantes, degradando a saída. Como evidência, a inversão da frase de entrada melhorou a tradução seq2seq.^[26]

O modelo RNN search introduziu um mecanismo de atenção ao seq2seq para a tradução automática, a fim de resolver o problema de estrangulamento (bottleneck) (do vetor de saída de tamanho fixo), permitindo ao modelo processar dependências de longa distância com mais facilidade. O nome deve-se ao fato de que ele "emula a pesquisa através de uma frase de origem durante a decodificação de uma tradução".^[4]

Os desempenhos relativos foram comparados entre as arquiteturas do modelo de atenção global (a do RNN search) e local (janela deslizante) para tradução automática, concluindo-se que a atenção mista apresentava maior qualidade do que a atenção global, ao passo que a atenção local reduzia o tempo de tradução.^[27]

Em 2016, o Google Tradutor foi remodelado para a Tradução Automática Neural do Google, o que substituiu o modelo anterior baseado na tradução automática estatística. O novo modelo era um modelo seq2seq em que o codificador e o decodificador eram ambos compostos por 8 camadas de LSTM bidirecional.^[28] Demorou nove meses a ser desenvolvido, e superou a abordagem estatística, que demorou dez anos a ser desenvolvida.^[29]

Paralelizando a atenção

editar

Os modelos seq2seq com atenção (incluindo a autoatenção) continuavam a sofrer do mesmo problema das redes recorrentes: são difíceis de paralelizar, o que os impedia de serem acelerados em GPUs. Em 2016, a atenção decomponível aplicou um mecanismo de autoatenção às redes feedforward, que são fáceis de paralelizar, e alcançou um resultado no estado da arte em implicação textual com uma ordem de grandeza de parâmetros menor do que as LSTMs.^[30] Um de seus autores, Jakob Uszkoreit, suspeitava que a atenção sem recorrência seria suficiente para a tradução de idiomas, daí o título "a atenção é tudo o que você precisa".^[31] Essa hipótese ia contra o conhecimento convencional da época, e até o seu pai, Hans Uszkoreit, um linguista computacional conhecido, estava cético.^[31] No mesmo ano, propôs-se a autoatenção (chamada intra-atenção ou atenção intra-frase) para LSTMs.^[32]

Em 2017, o modelo original codificador-decodificador de transformer (de tamanho 100M) foi proposto no artigo "Attention Is All You Need". Na altura, o foco da pesquisa incidia sobre a melhoria da seq2seq para a tradução automática, removendo a sua recorrência para processar todos os tokens em paralelo, mas preservando o seu mecanismo de atenção de produto escalar (dot-product) para manter o seu desempenho no processamento de texto.^[1] Isso levou à introdução de um modelo de atenção multicabeça (multi-head) que era mais fácil de paralelizar devido ao uso de cabeças independentes e à ausência de recorrência. A sua capacidade de paralelização foi um fator importante para o seu uso generalizado em grandes redes neurais.^[33]

Era do boom da IA

editar

Já na primavera de 2017, mesmo antes de o pré-print "Attention is all you need" ser publicado, um dos coautores aplicou a variação "somente-decodificador" (decoder-only) da arquitetura para gerar artigos fictícios da Wikipédia.^[34] A arquitetura Transformer é agora usada juntamente com muitos modelos generativos que contribuem para o atual boom da IA.

Na modelagem de linguagem, o ELMo (2018) era uma LSTM bidirecional que produzia embeddings de palavras contextualizados, melhorando a linha de pesquisa a partir de saco de palavras e word2vec. Foi seguido pelo BERT (2018), um modelo transformer apenas de codificador.^[35] Em outubro de 2019, o Google começou a utilizar o BERT para processar consultas de pesquisa.^[36] Em 2020, o Google Tradutor substituiu o modelo anterior de codificador RNN-decodificador RNN por um modelo codificador transformer-decodificador RNN.^[37]

A partir de 2018, a série GPT da OpenAI, de transformers apenas decodificadores, tornou-se o estado da arte em geração de linguagem natural. No final de 2022, um chatbot baseado no GPT-3, o ChatGPT, tornou-se inesperadamente^[38] popular, desencadeando um boom em torno de grandes modelos de linguagem.^[39]^[40]

Desde 2020, os transformers têm sido aplicados em modalidades além do texto, incluindo o transformer de visão,^[41] reconhecimento de fala,^[42] robótica^[6] e de forma multimodal.^[43] O transformer de visão, por sua vez, estimulou novos desenvolvimentos nas redes neurais convolucionais.^[44] Geradores de imagem e vídeo como DALL-E (2021), Stable Diffusion 3 (2024)^[45] e Sora (2024), usam transformers para analisar dados de entrada (como prompts de texto) ao dividi-los em "tokens" e, em seguida, calculando a relevância entre cada token usando autoatenção, o que ajuda o modelo a compreender o contexto e os relacionamentos dentro dos dados.

Treinamento

editar

Métodos para estabilizar o treinamento

editar

A arquitetura transformer simples tinha dificuldade em convergir. No artigo original,^[1] os autores recomendaram o uso de aquecimento (warmup) da taxa de aprendizagem. Ou seja, a taxa de aprendizagem deve aumentar linearmente de 0 até ao valor máximo durante a primeira parte do treinamento (geralmente recomendado como sendo **2%** do número total de passos de treinamento), antes de decair novamente.

Um artigo de 2020 descobriu que o uso de normalização de camada antes (em vez de depois) da atenção multicabeça e das camadas feedforward estabiliza o treinamento, não exigindo o aquecimento da taxa de aprendizagem.^[46] Este é o "Transformer pre-LN" e é mais comumente usado, em comparação com o original "Transformer post-LN".

Pré-treinamento e ajuste fino

editar

Os transformers são normalmente pré-treinados primeiro por aprendizagem autosupervisionada num grande conjunto de dados genérico, seguido por um ajuste fino supervisionado num pequeno conjunto de dados específico da tarefa. O conjunto de dados de pré-treinamento é normalmente um grande corpus não rotulado, como The Pile. As tarefas para pré-treinamento e ajuste fino incluem frequentemente:

O relatório do transformer T5^[47] documenta um grande número de tarefas de pré-treinamento em linguagem natural. Alguns exemplos são:

restauração ou reparação de texto incompleto ou corrompido. Por exemplo, a entrada, "Obrigado ___ mim para a sua festa ___ semana", poderia gerar a saída, "Obrigado por convidar-mim para a sua festa na última semana".
tradução entre linguagens naturais (tradução automática)
julgar a aceitabilidade pragmática da linguagem natural. Por exemplo, a seguinte frase pode ser julgada como "não aceitável",^[48] porque, mesmo sendo sintaticamente bem formada, é improvável no uso humano comum: O curso está a saltar bem.

Note que, embora cada uma destas tarefas seja trivial ou óbvia para falantes nativos humanos do idioma (ou idiomas), elas normalmente provaram ser desafiadoras para as gerações anteriores de arquiteturas de aprendizado de máquina.

Tarefas

editar

Em geral, existem 3 classes de tarefas de modelagem de linguagem: "mascarada" (masked),^[49] "autorregressiva",^[50] e "prefixLM".^[51] Estas classes são independentes de uma arquitetura de modelagem específica, como o transformer, mas são frequentemente discutidas no contexto do transformer.

Numa tarefa mascarada,^[49] um ou mais dos tokens são mascarados, e o modelo produziria uma distribuição de probabilidade prevendo quais são os tokens mascarados com base no contexto. A função de perda para a tarefa é tipicamente a soma das log-perplexidades para os tokens mascarados: ${\text{Perda}}=-\sum _{t\in {\text{tokens mascarados}}}\ln({\text{probabilidade de }}t{\text{ condicionada ao seu contexto}})$ e o modelo é treinado para minimizar esta função de perda. A série de modelos BERT é treinada para a previsão de tokens mascarados e para uma outra tarefa.

Numa tarefa autorregressiva,^[50] toda a sequência é mascarada no início, e o modelo produz uma distribuição de probabilidade para o primeiro token. Depois, o primeiro token é revelado e o modelo prevê o segundo token, e assim por diante. A função de perda para a tarefa continua a ser tipicamente a mesma. A série de modelos GPT é treinada por tarefas autorregressivas.

Numa tarefa prefixLM,^[51] a sequência é dividida em duas partes. A primeira parte é apresentada como contexto, e o modelo prevê o primeiro token da segunda parte. Depois, este seria revelado, e o modelo prevê o segundo token, e assim por diante. A função de perda para a tarefa continua a ser tipicamente a mesma. A série de modelos T5 é treinada por tarefas prefixLM.

Note que "mascarada" (masked) como em "modelagem de linguagem mascarada" não é "mascarada" como em "atenção mascarada", e "prefixLM" como em "modelagem de linguagem de prefixo" não é "prefixLM" como em "modelo de linguagem de prefixo".

Arquitetura

editar

Todos os transformers têm os mesmos componentes principais:

Tokenizadores (Tokenizers), que convertem texto em tokens.
Camada de embedding, que converte tokens e as posições dos tokens em representações vetoriais.
Camadas do transformer, que realizam transformações repetidas nas representações vetoriais, extraindo cada vez mais informações linguísticas. Estas consistem em camadas alternadas de atenção e feedforward (alimentação direta). Existem dois tipos principais de camadas de transformer: camadas codificadoras (encoder) e camadas decodificadoras (decoder), com outras variantes.
Camada de des-embedding (Un-embedding), que converte as representações vetoriais finais de volta numa distribuição de probabilidade sobre os tokens.

A descrição a seguir segue exatamente o transformer conforme descrito no artigo original. Existem variantes, descritas na seção seguinte.

Por convenção, escrevemos todos os vetores como vetores linha. Por exemplo, passar um vetor por uma camada linear significa multiplicá-lo por uma matriz de pesos à direita, como $xW$ .

Tokenização

editar

Como a arquitetura transformer consiste nativamente em operações sobre números (multiplicações de matrizes, produtos escalares, funções de ativação) em vez de texto, deve haver primeiro um mapeamento de qualquer texto de entrada para alguma representação numérica. Isso ocorre em três etapas.

Primeiro, o texto de entrada é tratado por um pré-processador, que realiza transformações textuais e divide o texto em segmentos de granulação grossa chamados pré-tokens. Este último processo é referido como pré-tokenização. Em segundo lugar, cada pré-token é segmentado ainda mais em tokens por um tokenizador que espera ver apenas pré-tokens emitidos pelo seu pré-processador. Cada token que ele produz é uma cadeia (string) de um ou mais caracteres pertencentes a um conjunto finito de cadeias chamado de vocabulário $V$ . Em terceiro lugar, como o vocabulário é finito e conhecido de antemão, cada token pode receber um identificador inteiro, e este mapeamento é aplicado à sequência de tokens para representar qualquer texto de entrada como uma sequência numérica. Como este mapeamento é bijetivo, o lado de saída pode produzir uma sequência de identificadores inteiros que podem então ser transformados de volta em tokens. Após desfazer parte do pré-processamento, o resultado é novamente um texto legível.

Treinar um tokenizador (às vezes referido como vocabularização) significa encontrar um vocabulário adequado $V$ , mas também aprender como usá-lo, uma vez que qualquer cadeia $s$ dada de comprimento $|s|$ tem $2^{|s|-1}$ segmentações hipotéticas, algumas das quais contendo segmentos que não estão no vocabulário. O hiperparâmetro mais importante durante a vocabularização é o tamanho do vocabulário $|V|$ : quando é pequeno, o vocabulário aprendido geralmente consiste em caracteres e cadeias menores, e as palavras serão segmentadas em muitos tokens. Em tamanhos maiores, torna-se acessível dedicar tokens a palavras completas, embora, dependendo do pré-processador e do tokenizador, não seja necessariamente o caso de que grandes vocabulários usarão sempre o(s) maior(es) token(s) disponível(eis) para segmentar uma palavra.

Como os tokens nem sempre são palavras completas, eles também podem ser chamados de subpalavras (subwords) e os algoritmos de tokenização podem ser referidos como tokenizadores de subpalavras. Isso também serve para diferenciar estes sistemas da terminologia tradicional usada em sistemas mais antigos de recuperação de informação e processamento de linguagem natural, onde a "tokenização" era usada para denotar o que hoje é chamado de "pré-tokenização" (muito rudemente: divisão em palavras). Nos tokenizadores que produzem tokens que não fazem parte do vocabulário, um token especial que pertence ao vocabulário é usado como um substituto genérico, escrito como "[UNK]" para "unknown" (desconhecido). Em princípio, qualquer cadeia poderia ser ocultada por um [UNK] desse tipo. De fato, na recuperação de informação, os pré-tokenizadores eram eles próprios usados como tokenizadores (e também chamados de "tokenizadores") com um vocabulário ao nível da palavra que continha um [UNK].

Os algoritmos de tokenização de subpalavras comumente usados são a codificação de pares de bytes (BPE) e o modelo de linguagem unigrama (ULM), que incluem, cada um, um algoritmo de vocabularização e um algoritmo de segmentação dedicado. Também existem vários algoritmos de segmentação que não requerem aprendizagem e podem ser aplicados dado um vocabulário (produzido por BPE ou ULM, por exemplo), como reconhecer gulosamente (greedily) tokens num pré-token movendo-se através dele da esquerda para a direita. Implementações de software bem conhecidas de tokenizadores de subpalavras são o pacote Python tokenizers da Hugging Face implementado em Rust, e o pacote Python sentencepiece implementado em C++. Este último pacote tem esse nome porque uma das suas opções de configuração permite desativar o pré-tokenizador integrado, tornando efetivamente frases inteiras um pré-token e, assim, fazendo com que o tokenizador veja frases inteiras, em vez de palavras individuais.

Embedding

editar

Cada identificador de token inteiro é convertido num vetor de embedding através de uma tabela de pesquisa (lookup table). De forma equivalente, multiplica uma representação one-hot do identificador do token por uma matriz de embedding $M$ . Por exemplo, se o identificador do token de entrada é $3$ , então a representação one-hot é $[0,0,0,1,0,0,\dots ]$ , e o seu vetor de embedding é: $\mathrm {Embed} (3)=[0,0,0,1,0,0,\dots ]M$ Os vetores de embedding de tokens são adicionados aos seus respetivos vetores de codificação posicional (ver abaixo), produzindo a sequência de vetores de entrada.

A dimensão de um vetor de embedding é chamada de tamanho oculto (hidden size) ou tamanho do embedding e escrita como $d_{\text{emb}}$ .^[35] Este tamanho é escrito como $d_{\text{model}}$ no artigo original do transformer.^[1]

Des-embedding

editar

Uma camada de des-embedding (un-embedding) é quase o inverso de uma camada de embedding. Enquanto uma camada de embedding converte um identificador de token num vetor, uma camada de des-embedding converte um vetor numa distribuição de probabilidade sobre os tokens.

A camada de des-embedding é uma camada linear-softmax: $\mathrm {UnEmbed} (x)=\mathrm {softmax} (xW+b)$ A matriz tem formato $(d_{\text{emb}},|V|)$ . Algumas arquiteturas usam a transposta da matriz de embedding $M$ como a matriz de des-embedding $W$ para evitar a necessidade de duplicar a quantidade de parâmetros relacionados com o embedding e para evitar a divergência durante o treinamento. Esta prática é chamada de amarração de pesos (weight tying).^[52]

Codificação posicional

editar

Uma codificação posicional é uma representação vetorial de tamanho fixo das posições relativas dos tokens dentro de uma sequência: ela fornece ao modelo transformer informações sobre onde as palavras estão na sequência de entrada. Isso induz um viés indutivo em relação à ordem da sequência de entrada, de modo que, por exemplo, a sequência de entrada "o cão morde o homem" é processada de forma diferente de "o homem morde o cão".

A codificação posicional é definida como uma função do tipo $f:\mathbb {R} \to \mathbb {R} ^{d}$ , onde $d$ é um inteiro positivo e par. A codificação posicional completa definida no artigo original^[1] é: $(f(t)_{2k},f(t)_{2k+1})=(\sin(\theta ),\cos(\theta ))\quad \forall k\in \{0,1,\ldots ,d/2-1\}$ onde $\theta ={\frac {t}{r^{k}}},r=N^{2/d}$ .

Aqui, $N$ é um parâmetro livre que deve ser significativamente maior do que o maior $k$ que seria inserido na função de codificação posicional. O artigo original usa $N=10000$ .

A função fica numa forma mais simples quando escrita como uma função complexa do tipo $f:\mathbb {R} \to \mathbb {C} ^{d/2}$ $f(t)=\left(e^{it/r^{k}}\right)_{k=0,1,\ldots ,{\frac {d}{2}}-1}$ onde $r=N^{2/d}$ .

A principal razão para usar esta função de codificação posicional é que, com ela, os deslocamentos (shifts) são transformações lineares: $f(t+\Delta t)=\mathrm {diag} (f(\Delta t))f(t)$ onde $\Delta t\in \mathbb {R}$ é a distância que se deseja deslocar. Isso permite que o transformer pegue em qualquer posição codificada e encontre a codificação da posição n-passos-à-frente ou n-passos-atrás, através de uma multiplicação de matrizes.

Ao fazer uma soma linear, qualquer convolução também pode ser implementada como transformações lineares: $\sum _{j}c_{j}f(t+\Delta t_{j})=\left(\sum _{j}c_{j}\,\mathrm {diag} (f(\Delta t_{j}))\right)f(t)$ para quaisquer constantes $c_{j}$ . Isso permite que o transformer pegue em qualquer posição codificada e encontre uma soma linear das localizações codificadas dos seus vizinhos. Esta soma de posições codificadas, quando alimentada no mecanismo de atenção, criaria pesos de atenção nos seus vizinhos, de forma muito semelhante ao que acontece num modelo de linguagem de rede neural convolucional. Nas palavras dos autores, "nós hipotetizámos que isso permitiria ao modelo aprender facilmente a atender por posição relativa."

Em implementações típicas, todas as operações são feitas sobre os números reais, não os números complexos, mas como a multiplicação complexa pode ser implementada como multiplicação de matrizes reais 2 por 2, esta é uma mera diferença notacional.

Codificador-decodificador (visão geral)

editar

Como os modelos seq2seq anteriores, o modelo transformer original usava uma arquitetura de codificador-decodificador. O codificador consiste em camadas de codificação que processam todos os tokens de entrada juntos, uma camada após a outra, enquanto o decodificador consiste em camadas de decodificação que processam iterativamente a saída do codificador e os tokens de saída do decodificador até ao momento.

O propósito de cada camada codificadora é criar representações contextualizadas dos tokens, onde cada representação corresponde a um token que "mistura" informações de outros tokens de entrada através do mecanismo de autoatenção. Cada camada decodificadora contém duas subcamadas de atenção: (1) atenção cruzada (cross-attention) para incorporar a saída do codificador (representações contextualizadas de tokens de entrada), e (2) autoatenção (self-attention) para "misturar" informações entre os tokens de entrada para o decodificador (ou seja, os tokens gerados até ao momento durante o tempo de inferência).^[53]^[54]

Tanto as camadas do codificador quanto as do decodificador possuem uma rede neural feedforward para processamento adicional das suas saídas e contêm conexões residuais e etapas de normalização de camada.^[54] Estas camadas feedforward contêm a maior parte dos parâmetros num modelo transformer.

Rede feedforward

editar

Os módulos de rede feedforward (FFN) num transformer são perceptrons multicamadas de 2 camadas: $\mathrm {FFN} (x)=\phi (xW^{(1)}+b^{(1)})W^{(2)}+b^{(2)}$ onde $W^{(1)}$ e $W^{(2)}$ são matrizes de pesos e $b^{(1)}$ e $b^{(2)}$ são vetores de viés (bias), e $\phi$ é a sua função de ativação. O transformer original usou a ativação ReLU.

O número de neurônios na camada intermediária é chamado de tamanho intermediário (GPT),^[55] tamanho do filtro (BERT),^[35] ou tamanho do feedforward (BERT).^[35] Ele é tipicamente maior que o tamanho do embedding. Por exemplo, tanto na série GPT-2 quanto na série BERT, o tamanho intermediário de um modelo é 4 vezes o seu tamanho de embedding: $d_{\text{ffn}}=4d_{\text{emb}}$ .

Atenção de produto escalar escalonado

editar

Cabeça de atenção

editar

O mecanismo de atenção usado na arquitetura transformer são unidades de atenção de produto escalar escalonado. Para cada unidade, o modelo transformer aprende três matrizes de pesos: os pesos de consulta (query) $W^{Q}$ , os pesos de chave (key) $W^{K}$ e os pesos de valor (value) $W^{V}$ .

O módulo recebe três sequências: uma sequência de consulta, uma sequência de chave e uma sequência de valor. A sequência de consulta é uma sequência de comprimento $\ell _{\text{seq, query}}$ , e cada entrada é um vetor de dimensão $d_{\text{emb, query}}$ . O mesmo se aplica às sequências de chave e de valor.

Para cada vetor $x_{i,{\text{query}}}$ na sequência de consulta, ele é multiplicado por uma matriz $W^{Q}$ para produzir um vetor de consulta $q_{i}=x_{i,{\text{query}}}W^{Q}$ . A matriz de todos os vetores de consulta é a matriz de consulta: $Q=X_{\text{query}}W^{Q}$ Da mesma forma, construímos a matriz de chaves $K=X_{\text{key}}W^{K}$ e a matriz de valores $V=X_{\text{value}}W^{V}$ .

Geralmente, todos os $W^{Q},W^{K},W^{V}$ são matrizes quadradas, o que significa que $d_{\text{emb, query}}=d_{\text{query}}$ , etc.

Os pesos de atenção são calculados usando os vetores de consulta e chave: o peso de atenção $a_{ij}$ do token $i$ para o token $j$ é o produto escalar entre $q_{i}$ e $k_{j}$ . Os pesos de atenção são divididos pela raiz quadrada da dimensão dos vetores de chave, ${\sqrt {d_{k}}}$ , o que estabiliza os gradientes durante o treinamento, e passados por uma softmax que normaliza os pesos. O facto de que $W^{Q}$ e $W^{K}$ são matrizes diferentes permite que a atenção seja não simétrica: se o token $i$ atende ao token $j$ (ou seja, $q_{i}\cdot k_{j}$ é grande), isso não significa necessariamente que o token $j$ atenderá ao token $i$ (ou seja, $q_{j}\cdot k_{i}$ pode ser pequeno). A saída da unidade de atenção para o token $i$ é a soma ponderada dos vetores de valor de todos os tokens, ponderada por $a_{ij}$ , a atenção do token $i$ para cada token.

O cálculo de atenção para todos os tokens pode ser expresso como um grande cálculo de matriz usando a função softmax, o que é útil para o treinamento devido a otimizações de operações matriciais computacionais que calculam rapidamente as operações de matriz. As matrizes $Q$ , $K$ e $V$ são definidas como as matrizes onde as $i$ -ésimas linhas são os vetores $q_{i}$ , $k_{i}$ e $v_{i}$ , respetivamente. Então podemos representar a atenção como: ${\begin{aligned}{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\end{aligned}}$

onde a softmax é aplicada sobre cada uma das linhas da matriz.

O número de dimensões num vetor de consulta é o tamanho da consulta $d_{\text{query}}$ e da mesma forma para o tamanho da chave $d_{\text{key}}$ e tamanho do valor $d_{\text{value}}$ . A dimensão de saída de uma cabeça de atenção é a sua dimensão da cabeça $d_{\text{head}}$ . O mecanismo de atenção requer que as seguintes três igualdades sejam válidas: $\ell _{\text{seq, key}}=\ell _{\text{seq, value}},\;d_{\text{query}}=d_{\text{key}},\;d_{\text{value}}=d_{\text{head}}$ mas de resto não tem restrições.

Se a cabeça de atenção for usada no modo de autoatenção, então $X_{\text{query}}=X_{\text{key}}=X_{\text{value}}$ . Se a cabeça de atenção for usada no modo de atenção cruzada, então geralmente $X_{\text{query}}\neq X_{\text{key}}=X_{\text{value}}$ . É teoricamente possível que os três sejam diferentes, mas isso raramente acontece na prática.

Atenção multicabeça

editar

Um conjunto de matrizes $\left(W^{Q},W^{K},W^{V}\right)$ é chamado de cabeça de atenção (attention head), e cada camada num modelo transformer possui múltiplas cabeças de atenção. Enquanto cada cabeça de atenção atende aos tokens que são relevantes para cada token, múltiplas cabeças de atenção permitem que o modelo faça isso para diferentes definições de "relevância". Especificamente, as matrizes de projeção de consulta e chave, $W^{Q}$ e $W^{K}$ , que estão envolvidas no cálculo da pontuação de atenção, definem a "relevância". Entretanto, a matriz de projeção de valor $W^{V}$ , em combinação com a parte da matriz de projeção de saída $W^{O}$ , determina como os tokens atendidos influenciam quais informações são passadas para as camadas subsequentes e, finalmente, para os logits de saída. Além disso, o escopo da atenção, ou a gama de relacionamentos entre tokens capturada por cada cabeça de atenção, pode expandir-se à medida que os tokens passam por camadas sucessivas. Isso permite que o modelo capture dependências mais complexas e de longo alcance em camadas mais profundas. Muitas cabeças de atenção do transformer codificam relações de relevância que são significativas para os humanos. Por exemplo, algumas cabeças de atenção podem atender principalmente à próxima palavra, enquanto outras atendem principalmente de verbos para os seus objetos diretos.^[56] Os cálculos para cada cabeça de atenção podem ser realizados em paralelo, o que permite um processamento rápido. As saídas da camada de atenção são concatenadas para passar para as camadas da rede neural feedforward.

Concretamente, sejam as múltiplas cabeças de atenção indexadas por $i$ , então temos: ${\text{MultiheadAttention}}(Q,K,V)={\text{Concat}}_{i\in [n_{\text{heads}}]}({\text{Attention}}(XW_{i}^{Q},XW_{i}^{K},XW_{i}^{V}))W^{O}$ onde a matriz $X$ é a concatenação de embeddings de palavras, e as matrizes $W_{i}^{Q},W_{i}^{K},W_{i}^{V}$ são "matrizes de projeção" pertencentes à cabeça de atenção individual $i$ , e $W^{O}$ é uma matriz de projeção final pertencente a toda a cabeça de atenção multicabeça.

É teoricamente possível que cada cabeça de atenção tenha uma dimensão de cabeça $d_{\text{head}}$ diferente, mas isso raramente acontece na prática.

Como exemplo, no menor modelo GPT-2, existem apenas mecanismos de autoatenção. Ele tem as seguintes dimensões: $d_{\text{emb}}=768,n_{\text{head}}=12,d_{\text{head}}=64$ Como $12\times 64=768$ , a sua matriz de projeção de saída $W^{O}\in \mathbb {R} ^{(12\times 64)\times 768}$ é uma matriz quadrada.

Atenção mascarada

editar

A arquitetura transformer é construída para calcular tokens de saída iterativamente. Assumindo que $t=0$ refere-se ao cálculo do primeiro token de saída $i=0$ , para o passo $t>0$ , o token de saída $i=0$ deve permanecer constante. Isso garante propriedades do modelo semelhantes aos modelos autorregressivos.^[1] Portanto, em cada passo de tempo $t$ , o cálculo para todas as saídas $i$ não deve ter acesso a tokens na posição $j$ para $j\geq i$ (como é naturalmente o caso para o passo de tempo $t=i$ , quando os tokens $j>t$ ainda não foram calculados). Esse comportamento pode ser alcançado antes do estágio softmax adicionando uma matriz de máscara $M$ que é $-\infty$ nas entradas onde o link de atenção deve ser cortado, e $0$ em outros lugares: ${\begin{aligned}{\text{MaskedAttention}}(Q,K,V)={\text{softmax}}\left(M+{\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\end{aligned}}$ A seguinte matriz é comumente usada em módulos de autoatenção do decodificador, chamada de "mascaramento causal" (causal masking): $M_{\text{causal}}={\begin{bmatrix}0&-\infty &-\infty &\dots &-\infty \\0&0&-\infty &\dots &-\infty \\0&0&0&\dots &-\infty \\\vdots &\vdots &\vdots &\ddots &\vdots \\0&0&0&\dots &0\end{bmatrix}}$

Em palavras, isso significa que cada token pode prestar atenção a si mesmo, e a todos os tokens antes dele, mas não a nenhum depois dele. Um módulo de atenção não mascarado pode ser pensado como um módulo de atenção mascarado onde a máscara tem todas as entradas iguais a zero. Como exemplo de um uso incomum de matriz de máscara, o XLNet considera todas as máscaras da forma $PM_{\text{causal}}P^{-1}$ , onde $P$ é uma matriz de permutação aleatória.^[57]

Codificador

editar

Um codificador consiste numa camada de embedding, seguida por múltiplas camadas codificadoras.

Cada camada codificadora consiste em dois componentes principais: um mecanismo de autoatenção e uma camada feedforward. Ele recebe uma entrada como uma sequência de vetores de entrada, aplica o mecanismo de autoatenção para produzir uma sequência intermediária de vetores, depois aplica a camada feedforward para cada vetor individualmente. Esquematicamente, temos: ${\begin{aligned}{\text{dados os vetores de entrada }}&h_{0},h_{1},\dots \\{\text{combiná-los numa matriz }}H&={\begin{bmatrix}h_{0}\\h_{1}\\\vdots \end{bmatrix}}\\{\text{EncoderLayer}}(H)&={\begin{bmatrix}{\text{FFN}}({\text{MultiheadAttention}}(H,H,H)_{0})\\{\text{FFN}}({\text{MultiheadAttention}}(H,H,H)_{1})\\\vdots \end{bmatrix}}\\\end{aligned}}$

onde ${\text{FFN}}$ significa "rede feedforward". Podemos escrevê-lo de forma mais sucinta como: ${\text{EncoderLayer}}(H)={\text{FFN}}({\text{MultiheadAttention}}(H,H,H))$ com a convenção implícita de que a ${\text{FFN}}$ é aplicada a cada linha da matriz individualmente.

As camadas codificadoras são empilhadas. A primeira camada codificadora obtém a sequência de vetores de entrada da camada de embedding, produzindo uma sequência de vetores. Essa sequência de vetores é processada pelo segundo codificador, e assim por diante. A saída da camada codificadora final é então usada pelo decodificador.

Como o codificador processa toda a entrada de uma só vez, cada token pode atender a todos os outros tokens (atenção todos-para-todos), de modo que não há necessidade de mascaramento causal.

Decodificador

editar

Um decodificador consiste numa camada de embedding, seguida por múltiplas camadas decodificadoras, seguidas por uma camada de des-embedding.

Cada decodificador consiste em três componentes principais: um mecanismo de autoatenção mascarado causalmente, um mecanismo de atenção cruzada e uma rede neural feedforward. O decodificador funciona de forma semelhante ao codificador, mas um mecanismo de atenção adicional é inserido, o qual extrai informações relevantes das codificações geradas pelos codificadores. Esse mecanismo também pode ser chamado de atenção codificador-decodificador.^[1]^[54]

Assim como o primeiro codificador, o primeiro decodificador recebe informações posicionais e embeddings da sequência de saída como sua entrada, em vez de codificações. O transformer não deve usar a saída atual ou futura para prever uma saída, portanto, a sequência de saída deve ser parcialmente mascarada para evitar esse fluxo reverso de informações.^[1] Isso permite a geração de texto autorregressiva. Para a decodificação, a atenção todos-para-todos é inadequada, pois um token não pode atender a tokens ainda não gerados. Assim, o módulo de autoatenção no decodificador é mascarado causalmente.

Em contraste, o mecanismo de atenção cruzada atende aos vetores de saída do codificador, que são calculados antes de o decodificador começar a decodificar. Consequentemente, não há necessidade de mascaramento no mecanismo de atenção cruzada.

Esquematicamente, temos: ${\begin{aligned}H'&={\text{MaskedMultiheadAttention}}(H,H,H)\\{\text{DecoderLayer}}(H)&={\text{FFN}}({\text{MultiheadAttention}}(H',H^{E},H^{E}))\end{aligned}}$ onde $H^{E}$ é a matriz com linhas sendo os vetores de saída do codificador.

O último decodificador é seguido por uma camada de des-embedding final para produzir as probabilidades de saída sobre o vocabulário. Então, um dos tokens é amostrado de acordo com a probabilidade, e o decodificador pode ser executado novamente para produzir o próximo token, etc., gerando o texto de saída autorregressivamente.

Arquitetura completa do transformer

editar

Subcamadas

editar

Cada camada codificadora contém 2 subcamadas: a autoatenção (self-attention) e a rede feedforward. Cada camada decodificadora contém 3 subcamadas: a autoatenção mascarada causalmente, a atenção cruzada (cross-attention) e a rede feedforward.

Os pontos finais de detalhe são as conexões residuais e a normalização de camada (denotada como "LayerNorm", ou "LN" no texto a seguir), que embora conceitualmente desnecessárias, são necessárias para a estabilidade numérica e convergência.

A conexão residual, que é introduzida para evitar problemas de desvanecimento do gradiente e estabilizar o processo de treinamento, pode ser expressa da seguinte forma: y = F(x) + x. A expressão indica que uma saída y é a soma da transformação da entrada x (F(x)) e da própria entrada (x). Adicionar a entrada x pode preservar a informação de entrada e evitar problemas quando o gradiente de F(x) está próximo de zero.

De forma semelhante à maneira como os módulos de rede feedforward são aplicados individualmente a cada vetor, a LayerNorm também é aplicada individualmente a cada vetor.

Existem duas convenções comuns em uso: a convenção post-LN (pós-LN) e a pre-LN (pré-LN). Na convenção post-LN, a saída de cada subcamada é $\mathrm {LayerNorm} (x+\mathrm {Sublayer} (x))$ onde $\mathrm {Sublayer} (x)$ é a função implementada pela própria subcamada.

Na convenção pre-LN, a saída de cada subcamada é $x+\mathrm {Sublayer} (\mathrm {LayerNorm} (x))$ O transformer original de 2017 usava a convenção post-LN. Era difícil de treinar e exigia um ajuste cuidadoso de hiperparâmetros e um "aquecimento" (warm-up) na taxa de aprendizagem, onde esta começa pequena e aumenta gradualmente. A convenção pre-LN, proposta várias vezes em 2018,^[58] revelou-se mais fácil de treinar, não exigindo aquecimento, levando a uma convergência mais rápida.^[46]

Pseudocódigo

editar

A seguir está o pseudocódigo para um transformer codificador-decodificador pre-LN padrão, adaptado de Formal Algorithms for Transformers^[59]

 '''input:''' Entrada do codificador t_e
        Entrada do decodificador t_d
 '''output:''' Matriz de distribuições de probabilidade, com formato (tamanho do vocabulário do decodificador x comprimento(sequência de saída do decodificador))

 /* codificador */
 z_e ← encoder.tokenizer(t_e)

 '''for''' '''each''' t '''in''' 1:length(z_e) '''do'''
     z_e[t] ← encoder.embedding(z_e[t]) + encoder.positional_embedding(t)

 '''for''' '''each''' l '''in''' 1:length(encoder.layers) '''do'''
     layer ← encoder.layers[l]

     /* primeira subcamada */
     z_e_copy ← copy(z_e)
     '''for each''' t '''in''' 1:length(z_e) '''do'''
         z_e[t] ← layer.layer_norm(z_e[t])
     z_e ← layer.multihead_attention(z_e, z_e, z_e)
     '''for each''' t '''in''' 1:length(z_e) '''do'''
         z_e[t] ← z_e[t] + z_e_copy[t]

     /* segunda subcamada */
     z_e_copy ← copy(z_e)
     '''for each''' t '''in''' 1:length(z_e) '''do'''
         z_e[t] ← layer.layer_norm(z_e[t])
     z_e ← layer.feedforward(z_e)
     '''for each''' t '''in''' 1:length(z_e) '''do'''
         z_e[t] ← z_e[t] + z_e_copy[t]

 '''for each''' t '''in''' 1:length(z_e) '''do'''
     z_e[t] ← encoder.final_layer_norm(z_e[t])

 /* decodificador */
 z_d ← decoder.tokenizer(t_d)

 '''for''' '''each''' t '''in''' 1:length(z_d) '''do'''
     z_d[t] ← decoder.embedding(z_d[t]) + decoder.positional_embedding(t)

 '''for''' '''each''' l '''in''' 1:length(decoder.layers) '''do'''
         layer ← decoder.layers[l]

         /* primeira subcamada */
         z_d_copy ← copy(z_d)
         '''for each''' t '''in''' 1:length(z_d) '''do'''
             z_d[t] ← layer.layer_norm(z_d[t])
         z_d ← layer.masked_multihead_attention(z_d, z_d, z_d)
         '''for each''' t '''in''' 1:length(z_d) '''do'''
             z_d[t] ← z_d[t] + z_d_copy[t]

         /* segunda subcamada */
         z_d_copy ← copy(z_d)
         '''for each''' t '''in''' 1:length(z_d) '''do'''
             z_d[t] ← layer.layer_norm(z_d[t])
         z_d ← layer.multihead_attention(z_d, z_e, z_e)
         '''for each''' i '''in''' 1:length(z_d) '''do'''
             z_d[t] ← z_d[t] + z_d_copy[t]

         /* terceira subcamada */
         z_d_copy ← copy(z_d)
         '''for each''' t '''in''' 1:length(z_d) '''do'''
             z_d[t] ← layer.layer_norm(z_d[t])
         z_d ← layer.feedforward(z_d)
         '''for each''' t '''in''' 1:length(z_d) '''do'''
             z_d[t] ← z_d[t] + z_d_copy[t]

 z_d ← decoder.final_layer_norm(z_d)

 output_distributions ← []
 '''for each''' t '''in''' 1:length(z_d) '''do'''
     output_distributions.append(decoder.unembed(z_d[t]))

 '''return''' output_distributions

Terminologia

editar

A arquitetura transformer, por ser modular, permite variações. Diversas variações comuns são descritas aqui.^[60]

Um transformer "somente-codificador" (encoder-only) aplica o codificador para mapear um texto de entrada numa sequência de vetores que representam esse texto de entrada. Isso é normalmente usado para embedding de texto e aprendizado de representação para aplicações posteriores (downstream). O BERT é somente-codificador. Eles são menos usados atualmente, pois descobriu-se que não são significativamente melhores do que treinar um transformer codificador-decodificador e depois usar apenas o codificador.^[51] Eles também são referidos como "all-to-all" (todos-para-todos) ou "tipo BERT".

Um transformer "somente-decodificador" (decoder-only) não é literalmente apenas um decodificador, uma vez que, sem um codificador, o mecanismo de atenção cruzada não tem nada a que atender. Assim, as camadas decodificadoras num transformer somente-decodificador são compostas por apenas duas subcamadas: a autoatenção mascarada causalmente e a rede feedforward. Isso é normalmente usado para geração de texto e para o seguimento de instruções. Os modelos da série GPT e da série Chinchilla são somente-decodificadores. Eles também são referidos como "autorregressivos" ou "causais".

Um transformer "codificador-decodificador" é geralmente igual ao transformer original, com 2 subcamadas por camada codificadora e 3 subcamadas por camada decodificadora, etc. Eles podem ter pequenas melhorias arquitetônicas, como funções de ativação alternativas, mudança do local de normalização, etc. Isso também é normalmente usado para geração de texto e seguimento de instruções. Os modelos na série T5 são codificador-decodificador.^[60]

Um "prefixLM" (modelo de linguagem de prefixo) é uma arquitetura somente-decodificador, mas com mascaramento de prefixo, que é diferente do mascaramento causal. Especificamente, ele tem uma máscara da forma^[60]^: $M_{\text{prefixLM}}={\begin{bmatrix}\mathbf {0} &-\infty \\\mathbf {0} &M_{\text{causal}}\end{bmatrix}}$ onde as primeiras colunas correspondem ao "prefixo" e as colunas subsequentes correspondem ao texto gerado autorregressivamente com base no prefixo. Eles assemelham-se a modelos codificador-decodificador, mas têm menos "esparsidade" (sparsity). Tais modelos são raramente usados, embora sejam citados como possibilidades teóricas e em comparações de benchmark.^[51]

Também existem modelos seq2seq mistos. Por exemplo, em 2020, o Google Tradutor substituiu o modelo anterior de codificador RNN-decodificador RNN por um modelo codificador transformer-decodificador RNN, pois os decodificadores baseados em transformer não pareciam aumentar significativamente a qualidade, ao contrário do codificador, enquanto o decodificador RNN era muito mais rápido.^[37]

Trabalhos subsequentes

editar

Funções de ativação alternativas

editar

O transformer original usa a função de ativação ReLU. Outras funções de ativação foram desenvolvidas. A série Llama e o PaLM usaram SwiGLU;^[61] tanto o GPT-1 quanto o BERT^[35] usaram GELU.^[62]

As funções de ativação alternativas são frequentemente usadas em combinação com unidades lineares bloqueadas (Gated Linear Units) no módulo feedforward.^[61]

Normalizações alternativas

editar

A normalização usada no transformer pode ser diferente da LayerNorm. Um exemplo é a RMSNorm,^[63] que é usada na série Llama. Outros exemplos incluem CapsuleNorm,^[64] ScaleNorm,^[65] ou FixNorm.^[65]

Codificações posicionais alternativas

editar

Os transformers podem usar outros métodos de codificação posicional que não sejam os sinusoidais.^[66]

O artigo original do transformer relatou o uso de uma codificação posicional aprendida,^[67] mas concluiu que não era superior à sinusoidal.^[1] Mais tarde,^[68] descobriram que o próprio mascaramento causal fornece sinal suficiente a um decodificador transformer para que ele possa aprender a realizar a codificação posicional absoluta de forma implícita, sem o módulo de codificação posicional.

RoPE

editar

O RoPE (embedding posicional rotativo),^[69] é melhor explicado ao considerar uma lista de vetores bidimensionais $[(x_{1}^{(1)},x_{1}^{(2)}),(x_{2}^{(1)},x_{2}^{(2)}),(x_{3}^{(1)},x_{3}^{(2)}),...]$ . Agora, escolha um ângulo $\theta$ . A codificação RoPE é então: ${\text{RoPE}}{\big (}x_{m}^{(1)},x_{m}^{(2)},m{\big )}={\begin{pmatrix}\cos m\theta &-\sin m\theta \\\sin m\theta &\cos m\theta \end{pmatrix}}{\begin{pmatrix}x_{m}^{(1)}\\x_{m}^{(2)}\\\end{pmatrix}}={\begin{pmatrix}x_{m}^{(1)}\cos m\theta -x_{m}^{(2)}\sin m\theta \\x_{m}^{(2)}\cos m\theta +x_{m}^{(1)}\sin m\theta \\\end{pmatrix}}$ De forma equivalente, se escrevermos os vetores bidimensionais como números complexos $z_{m}:=x_{m}^{(1)}+ix_{m}^{(2)}$ , então a codificação RoPE é apenas uma multiplicação por um ângulo: ${\text{RoPE}}{\big (}z_{m},m{\big )}=e^{im\theta }z_{m}$ Para uma lista de vetores de $2n$ dimensões, um codificador RoPE é definido por uma sequência de ângulos $\theta ^{(1)},...,\theta ^{(n)}$ . Então, a codificação RoPE é aplicada a cada par de coordenadas.

A vantagem do RoPE é que o produto escalar entre dois vetores depende apenas da sua localização relativa: ${\text{RoPE}}{\big (}x,m{\big )}^{T}{\text{RoPE}}{\big (}y,n{\big )}={\text{RoPE}}{\big (}x,m+k{\big )}^{T}{\text{RoPE}}{\big (}y,n+k{\big )}$ para qualquer inteiro $k$ .

ALiBi

editar

O ALiBi (Attention with Linear Biases — Atenção com Vieses Lineares)^[70] não é um substituto para o codificador posicional no transformer original. Em vez disso, é um codificador posicional adicional que está diretamente conectado ao mecanismo de atenção. Especificamente, o mecanismo de atenção ALiBi é: ${\begin{aligned}{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}+sB\right)V\end{aligned}}$ Aqui, $s$ é um número real ("escalar"), e $B$ é a matriz de viés linear definida por: $B={\begin{pmatrix}0&1&2&3&\cdots \\-1&0&1&2&\cdots \\-2&-1&0&1&\cdots \\-3&-2&-1&0&\cdots \\\vdots &\vdots &\vdots &\vdots &\ddots \\\end{pmatrix}}$ em outras palavras, $B_{i,j}=j-i$ . A ideia é que a matriz de viés linear seja uma máscara suavizada. Assim como $0$ representa atenção total prestada, e $-\infty$ representa nenhuma atenção prestada, a matriz de viés linear aumenta a atenção prestada numa direção e diminui a atenção prestada na outra direção.

O ALiBi permite o pré-treinamento em janelas de contexto curtas, seguido por um ajuste fino (fine-tuning) em janelas de contexto mais longas. Como está diretamente conectado ao mecanismo de atenção, ele pode ser combinado com qualquer codificador posicional que esteja conectado na "base" de toda a rede (que é onde o codificador sinusoidal do transformer original, bem como o RoPE e muitos outros, estão localizados).

Codificações de Posição Relativa

editar

As Codificações de Posição Relativa^[71] (Relative Position Encodings) são semelhantes ao ALiBi, mas mais genéricas: ${\begin{aligned}{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}+B\right)V\end{aligned}}$ onde $B$ é uma Matriz de Toeplitz, ou seja, $B_{i,j}=B_{i',j'}$ sempre que $i-j=i'-j'$ . Isto contrasta com a codificação posicional sinusoidal original, que é uma "codificação posicional absoluta".^[72]

Implementação eficiente

editar

O modelo transformer foi implementado em frameworks (estruturas de software) padrão de aprendizado profundo, como TensorFlow e PyTorch. Transformers é uma biblioteca produzida pela Hugging Face que fornece arquiteturas baseadas em transformers e modelos pré-treinados.^[11]

Cache de KV

editar

Quando um transformer autorregressivo é usado para inferência, como na geração de texto, o vetor de consulta é diferente a cada passo, mas os vetores de chave e valor já computados são sempre os mesmos. O método de cache de KV guarda os vetores de chave e valor computados em cada bloco de atenção, de modo que eles não sejam recalculados a cada novo token. A PagedAttention aplica a paginação de memória à cache de KV.^[73]^[74]^[75]

Se um transformer for usado com um prompt fixo, como ["Você é um agente de suporte ao cliente..."], então os vetores de chave e valor podem ser calculados para o prompt e guardados em disco. A economia em computação é significativa quando o modelo é usado para muitas interações curtas em tempo real, como em chatbots online.

Geralmente, quando um utilizador usa um transformer autorregressivo para gerar uma continuação para uma sequência de tokens, o modelo primeiro executaria uma passagem à frente (forward-pass) nesta sequência, em que as caches de KV sobre esta sequência são computadas. Isto é chamado de preenchimento prévio (prefilling). Provedores de nuvem em larga escala (hyperscalers) que servem modelos Transformer muito grandes podem usar a inferência desagregada, onde o preenchimento prévio e a decodificação são realizados em hardware especializado separadamente.^[76]

FlashAttention

editar

FlashAttention^[77] é um algoritmo que implementa o mecanismo de atenção do transformer de forma eficiente numa GPU. É um algoritmo que evita a comunicação, o qual realiza multiplicações de matrizes em blocos, de modo que cada bloco caiba na cache de uma GPU e, por meio de um gerenciamento cuidadoso dos blocos, ele minimiza a cópia de dados entre as caches da GPU (visto que a movimentação de dados é lenta). Veja a página sobre a softmax para detalhes.

Uma versão melhorada, FlashAttention-2,^[78]^[79]^[80] foi desenvolvida para atender à crescente procura por modelos de linguagem capazes de lidar com comprimentos de contexto mais longos. Oferece melhorias no particionamento do trabalho e paralelismo, permitindo que alcance até 230 TFLOPs/s em GPUs A100 (FP16/BF16), um aumento de velocidade de 2x em relação ao FlashAttention original.

Os principais avanços no FlashAttention-2 incluem a redução de FLOPs que não são operações de matriz (non-matmul FLOPs), melhor paralelismo sobre a dimensão do comprimento da sequência, melhor particionamento do trabalho entre as threads (warps) da GPU e suporte adicionado para dimensões de cabeça de até 256 e atenção de múltiplas consultas (MQA) e atenção de consultas agrupadas (GQA).^[81]

Benchmarks revelaram que o FlashAttention-2 é até 2x mais rápido do que o FlashAttention e até 9x mais rápido do que uma implementação de atenção padrão em PyTorch. Desenvolvimentos futuros incluem otimização para novos hardwares, como as GPUs H100, e novos tipos de dados, como o FP8.

O FlashAttention-4 foca-se no uso de pipeline para aumentar a taxa de transferência (throughput) de instruções, e foi desenvolvido para ter um desempenho particularmente bom nas GPUs Blackwell.^[82]

Atenção Multi-Query

editar

A Atenção de Múltiplas Consultas (Multi-Query Attention - MQA) altera o mecanismo de Atenção Multicabeça (Multihead Attention).^[83] Embora normalmente se tenha:

${\text{MultiheadAttention}}(Q,K,V)={\text{Concat}}_{i\in [n_{\text{heads}}]}\left({\text{Attention}}(XW_{i}^{Q},XW_{i}^{K},XW_{i}^{V})\right)W^{O}$ com a Atenção Multi-Query, existe apenas um $W^{K},W^{V}$ , resultando em:

${\text{MultiQueryAttention}}(Q,K,V)={\text{Concat}}_{i\in [n_{\text{heads}}]}\left({\text{Attention}}(XW_{i}^{Q},XW^{K},XW^{V})\right)W^{O}$

Isto tem um efeito neutro na qualidade do modelo e na velocidade de treinamento, mas aumenta a velocidade de inferência.

Mais genericamente, a atenção de consultas agrupadas (Grouped-Query Attention - GQA) particiona as cabeças de atenção em grupos, cada um dos quais partilha o par chave-valor. O MQA é o GQA com um único grupo, enquanto a Atenção Multicabeça padrão é o GQA com o número máximo de grupos.^[84]

A Atenção Latente Multicabeça (Multihead Latent Attention - MLA) é uma aproximação de baixo posto à MHA padrão. Especificamente, cada vetor oculto, antes de entrar no mecanismo de atenção, é primeiro projetado em dois espaços de baixa dimensão ("espaço latente"), um para a consulta e outro para chave-valor (vetor KV). Este design minimiza a cache de KV, uma vez que apenas o vetor KV de baixa dimensão precisa ser mantido na cache.^[85]

Decodificação especulativa

editar

A decodificação especulativa^[86]^[87] é um método para acelerar a decodificação de tokens. À semelhança da execução especulativa nas CPUs, os tokens futuros são computados rapidamente e depois verificados. Se os tokens computados rapidamente estiverem incorretos, eles são descartados e computados de forma mais lenta e precisa.

O fator chave na decodificação especulativa é que um decodificador transformer pode verificar mais rápido do que pode decodificar, no seguinte sentido.

Suponha que temos dois modelos de transformer, como o GPT-3 e o GPT-3-small (pequeno), ambos com uma janela de contexto de tamanho 512. Para gerar uma janela de contexto inteira de forma autorregressiva com decodificação gulosa (greedy decoding) usando o GPT-3, ele deve ser executado 512 vezes, gerando a cada vez um token $x_{1},x_{2},...,x_{512}$ , levando um tempo de $512T_{\text{GPT-3}}$ . No entanto, se tivéssemos algum palpite bem fundamentado (educated guess) para os valores desses tokens, poderíamos verificá-los a todos em paralelo, numa única execução do modelo, verificando se cada $x_{t}$ é realmente o token com a maior log-verossimilhança na $t$ -ésima saída.

Na decodificação especulativa, um modelo menor ou alguma outra heurística simples é usada para gerar alguns tokens especulativos que são subsequentemente verificados pelo modelo maior. Por exemplo, suponha que usamos o GPT-3-small para gerar quatro tokens especulativos: ${\tilde {x}}_{1},{\tilde {x}}_{2},{\tilde {x}}_{3},{\tilde {x}}_{4}$ . Isto leva apenas $4T_{\text{GPT-3-small}}$ . Estes tokens são então passados pelo GPT-3 maior de uma só vez. Suponha que ${\tilde {x}}_{1}$ e ${\tilde {x}}_{2}$ sejam verificados pelo GPT-3 como os que ele teria escolhido, então estes são mantidos, mas o ${\tilde {x}}_{3}$ não é; portanto, ${\tilde {x}}_{3},{\tilde {x}}_{4}$ são descartados, e o GPT-3 é executado nestes. Isto levaria $4T_{\text{GPT-3-small}}+3T_{\text{GPT-3}}$ , o que pode ser mais curto do que $4T_{\text{GPT-3}}$ .

Para decodificação não gulosa, aplicam-se ideias semelhantes, exceto que os tokens especulativos são aceites ou rejeitados estocasticamente, de forma a garantir que a distribuição de saída final seja a mesma como se a decodificação especulativa não tivesse sido usada.^[86]^[88]

Na Previsão de Múltiplos Tokens (Multi-Token Prediction), uma única passagem à frente (forward pass) cria um vetor de embedding final, que então é des-embedado para uma probabilidade de token. No entanto, esse vetor pode, em seguida, ser processado por outro bloco transformer para prever o próximo token, e assim por diante por tantos passos quanto se desejar no futuro. Isso troca a precisão por velocidade, já que cada novo token custa apenas mais um bloco transformer, e não a pilha inteira.^[89]^[90]

Transformers subquadráticos

editar

O treinamento de arquiteturas baseadas em transformers pode ser caro, especialmente para entradas longas.^[91] Muitos métodos foram desenvolvidos numa tentativa de resolver a questão. No domínio da imagem, o Swin transformer é uma arquitetura eficiente que realiza a atenção dentro de janelas móveis (shifting windows).^[92] No domínio do áudio, o SepTr desacopla a atenção nos domínios do tempo e da frequência.^[93] O benchmark Long Range Arena (2020)^[94] é um padrão para comparar o comportamento das arquiteturas de transformers em entradas longas.

Grafos de atenção alternativos

editar

O grafo de atenção padrão é quer todos-para-todos quer causal, e ambos escalam como $O(N^{2})$ onde $N$ é o número de tokens numa sequência.

O Reformer (2020)^[91]^[95] reduz a carga computacional de $O(N^{2})$ para $O(N\ln N)$ usando hashing sensível à localidade e camadas reversíveis.^[96]

A atenção esparsa (sparse attention)^[97] usa grafos de atenção que crescem mais lentamente que $O(N^{2})$ . Por exemplo, o BigBird (2020)^[98] usa redes de mundo pequeno (small-world) aleatórias que crescem como $O(N)$ .

Os transformers comuns exigem um tamanho de memória que é quadrático em relação ao tamanho da janela de contexto. Os transformers sem atenção (attention-free transformers)^[99] reduzem isto para uma dependência linear enquanto ainda retêm as vantagens de um transformer ao ligar a chave ao valor.

Atenção de Recurso Aleatório

editar

A Atenção de Recurso Aleatório (Random Feature Attention - 2021)^[100] usa recursos aleatórios de Fourier: $\varphi (x)={\frac {1}{\sqrt {D}}}[\cos \langle w_{1},x\rangle ,\sin \langle w_{1},x\rangle ,\cdots \cos \langle w_{D},x\rangle ,\sin \langle w_{D},x\rangle ]^{T}$ onde $w_{1},...,w_{D}$ são amostras independentes da distribuição normal $N(0,\sigma ^{2}I)$ . Esta escolha de parâmetros satisfaz a propriedade $\mathbb {E} [\langle \varphi (x),\varphi (y)\rangle ]=e^{-{\frac {\|x-y\|^{2}}{2\sigma ^{2}}}}$ , ou $e^{\langle x,y\rangle /\sigma ^{2}}=\mathbb {E} [\langle e^{\|x\|^{2}/2\sigma ^{2}}\varphi (x),e^{\|y\|^{2}/2\sigma ^{2}}\varphi (y)\rangle ]\approx \langle e^{\|x\|^{2}/2\sigma ^{2}}\varphi (x),e^{\|y\|^{2}/2\sigma ^{2}}\varphi (y)\rangle$ Consequentemente, a atenção de uma cabeça, com uma consulta, pode ser escrita como ${\text{Attention}}(q,K,V)={\text{softmax}}\left({\frac {qK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\approx {\frac {\varphi (q)^{T}\sum _{i}e^{\|k_{i}\|^{2}/2\sigma ^{2}}\varphi (k_{i})v_{i}^{T}}{\varphi (q)^{T}\sum _{i}e^{\|k_{i}\|^{2}/2\sigma ^{2}}\varphi (k_{i})}}$ onde $\sigma =d_{K}^{1/4}$ . O mesmo se aplica a consultas múltiplas, e à atenção multicabeça.

Esta aproximação pode ser calculada em tempo linear, já que podemos calcular a matriz $\varphi (k_{i})v_{i}^{T}$ primeiro, e depois multiplicá-la pela consulta. Na essência, conseguimos obter uma versão mais precisa de ${\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\approx Q(K^{T}V/{\sqrt {d_{k}}})$ O Performer (2022)^[101] usa a mesma Atenção de Recurso Aleatório, mas os pesos $w_{1},...,w_{D}$ são primeiro amostrados independentemente da distribuição normal $N(0,\sigma ^{2}I)$ , e então são processados por Gram-Schmidt.

Multimodalidade

editar

Os transformers também podem ser usados/adaptados para modalidades (de entrada ou de saída) para além do mero texto, normalmente através da descoberta de uma forma de "tokenizar" a modalidade em questão.

Modelos multimodais podem ser treinados quer de raiz quer através do ajuste fino (finetuning). Um estudo de 2022 revelou que transformers pré-treinados apenas em linguagem natural podem ser alvo de um ajuste fino em apenas 0,03% dos parâmetros e tornar-se competitivos em relação a modelos LSTMs numa variedade de tarefas lógicas e visuais, o que demonstra a capacidade da aprendizagem por transferência.^[102] O LLaVA consistia num modelo de linguagem visual composto por um modelo de linguagem (Vicuna-13B)^[103] e um modelo de visão (ViT-L/14), ligados por intermédio de uma camada linear. Apenas a camada linear é submetida a um ajuste fino.^[104]

Os transformers de visão^[41] (Vision transformers) adaptam o transformer para a visão computacional ao decompor as imagens de entrada numa série de retalhos (patches), transformando-os em vetores, e tratando-os como um vetor de embedding de tokens num transformer padrão.

O Conformer^[42] e mais tarde o Whisper^[105] seguem o mesmo padrão para o reconhecimento de fala, transformando primeiro o sinal de fala num espectrograma, que é depois tratado como uma imagem, isto é, decomposto numa série de retalhos, transformados em vetores e tratados como um vetor de embedding de tokens num transformer convencional.

Os perceivers^[106]^[107] são uma variante de transformers desenhados para a multimodalidade.

Para a geração de imagens, destacam-se arquiteturas como o DALL-E 1 (2021), o Parti (2022),^[108] o Phenaki (2023)^[109] e o Muse (2023).^[110] Ao contrário dos modelos mais recentes, o DALL-E não é um modelo de difusão. Em vez disso, ele usa um transformer do tipo somente-decodificador que gera um texto de forma autorregressiva, seguido por uma representação por tokens de uma imagem, que é posteriormente convertida num autocodificador variacional para uma imagem.^[111] O Parti é um transformer codificador-decodificador, onde o codificador processa o prompt (estímulo) de texto e o decodificador cria uma representação em formato de tokens de uma imagem.^[112] O Muse é um transformer do tipo somente-codificador que foi treinado para inferir tokens de imagem mascarados a partir de tokens de imagem que não estão mascarados. Ao longo da geração, todos os tokens de entrada são mascarados, e as predições com maior nível de confiança integram a iteração seguinte, até que a totalidade dos tokens tenha sido prevista.^[110] O Phenaki é um modelo de texto para vídeo. Trata-se de um transformer mascarado bidirecional condicionado em relação a tokens de texto precomputados. Os tokens produzidos são subsequentemente decodificados para dar lugar a um vídeo.^[109]

Aplicações

editar

O Transformer obteve grande sucesso no processamento de linguagem natural (PLN). Muitos modelos de linguagem grandes (LLMs), tais como GPT-2, GPT-3, GPT-4, Gemini, AlbertAGPT, Claude, BERT, Grok, XLNet, RoBERTa e ChatGPT, demonstram a capacidade dos Transformers de executar uma ampla variedade de tarefas secundárias relacionadas a PLN e suas aplicações práticas no mundo real, incluindo:

Tradução automática
Previsão de séries temporais
Sumarização de documentos
Geração de documentos
Reconhecimento de entidade mencionada (NER)^[113]
Escrita de código de computador com base em requisitos expressos em linguagem natural
Conversão de fala em texto

Para além do PLN tradicional, a arquitetura Transformer obteve sucesso em diversas outras aplicações, tais como:

Resposta a desastres^[114]
Análise de sequências biológicas
Compreensão de vídeos
Enovelamento de proteínas (como o AlphaFold)
Avaliação de posições em tabuleiros de xadrez. Utilizando apenas a avaliação estática (isto é, sem nenhuma busca por algoritmo Minimax), o Transformer alcançou um rating Elo de 2895, o que o posiciona no nível de um Grande Mestre.^[10]

Notas

↑ As Gated recurrent units (2014) reduziram ainda mais a sua complexidade.
↑ Algumas arquiteturas, como RWKV ou modelos de espaço de estado, evitam o problema.

Referências

editar

↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l Ashish Vaswani; Noam Shazeer; Niki Parmar; Jakob Uszkoreit; Llion Jones; Aidan N. Gomez; Łukasz Kaiser; Illia Polosukhin (2017). Attention Is All You Need (PDF). Advances in Neural Information Processing Systems 30 (NeurIPS 2017). 30. Curran Associates, Inc.
↑ Sepp Hochreiter; Jürgen Schmidhuber (1 de novembro de 1997). «Long Short-Term Memory». Neural Computation. 9 (8): 1735–1780. ISSN 0899-7667. PMID 9377276. doi:10.1162/neco.1997.9.8.1735
↑ ^a ^b «Better Language Models and Their Implications». OpenAI. 14 de fevereiro de 2019. Consultado em 25 de agosto de 2019. Cópia arquivada em 19 de dezembro de 2020
↑ ^a ^b Bahdanau; Cho, Kyunghyun; Bengio, Yoshua (1 de setembro de 2014). «Neural Machine Translation by Jointly Learning to Align and Translate». arXiv:1409.0473 [cs.CL]
↑ Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 de agosto de 2015). «Effective Approaches to Attention-based Neural Machine Translation». arXiv:1508.04025 [cs.CL]
↑ ^a ^b Chen, Lili; Lu, Kevin; Rajeswaran, Aravind; Lee, Kimin; Grover, Aditya; Laskin, Michael; Abbeel, Pieter; Srinivas, Aravind; Mordatch, Igor (24 de junho de 2021). «Decision Transformer: Reinforcement Learning via Sequence Modeling». arXiv:2106.01345
↑ Parisotto, Emilio; Song, Francis; Rae, Jack; Pascanu, Razvan; Gulcehre, Caglar; Jayakumar, Siddhant; Jaderberg, Max; Kaufman, Raphaël Lopez; Clark, Aidan; Noury, Seb; Botvinick, Matthew; Heess, Nicolas; Hadsell, Raia (21 de novembro de 2020). «Stabilizing Transformers for Reinforcement Learning». PMLR. Proceedings of the 37th International Conference on Machine Learning (em inglês): 7487–7498
↑ Radford, Alec; Jong Wook Kim; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). «Robust Speech Recognition via Large-Scale Weak Supervision». arXiv:2212.04356 [eess.AS]
↑ Monastirsky, Maxim; Azulay, Osher; Sintov, Avishai (Fevereiro de 2023). «Learning to Throw With a Handful of Samples Using Decision Transformers». IEEE Robotics and Automation Letters. 8 (2): 576–583. Bibcode:2023IRAL....8..576M. ISSN 2377-3766. doi:10.1109/LRA.2022.3229266
↑ ^a ^b Ruoss, Anian; Delétang, Grégoire; Medapati, Sourabh; Grau-Moya, Jordi; Wenliang, Li; Catt, Elliot; Reid, John; Genewein, Tim (7 de fevereiro de 2024). «Grandmaster-Level Chess Without Search». arXiv:2402.04494v1 [cs.LG]
↑ ^a ^b Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). «Transformers: State-of-the-Art Natural Language Processing». Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. [S.l.: s.n.] pp. 38–45. doi:10.18653/v1/2020.emnlp-demos.6
↑ ^a ^b ^c «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing». Google AI Blog. 2 de novembro de 2018. Consultado em 25 de agosto de 2019. Cópia arquivada em 13 de janeiro de 2021
↑ Feldman, J. A.; Ballard, D. H. (1 de julho de 1982). «Connectionist models and their properties». Cognitive Science. 6 (3): 205–254. ISSN 0364-0213. doi:10.1016/S0364-0213(82)80001-3
↑ Rumelhart, David E.; McClelland, James L.; Hinton, Geoffrey E. (29 de julho de 1987). Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations, Chapter 2 (PDF) (em inglês). Cambridge, Mass: Bradford Books. ISBN 978-0-262-68053-0
↑ Giles, C. Lee; Maxwell, Tom (1 de dezembro de 1987). «Learning, invariance, and generalization in high-order neural networks». Applied Optics (em inglês). 26 (23): 4972–4978. ISSN 0003-6935. PMID 20523475. doi:10.1364/AO.26.004972
↑ ^a ^b Schmidhuber, Jürgen (1992). «Learning to control fast-weight memories: an alternative to recurrent nets.» (PDF). Neural Computation. 4 (1): 131–139. doi:10.1162/neco.1992.4.1.131 Parâmetro desconhecido |link-autor1= ignorado (ajuda)
↑ Christoph von der Malsburg: The correlation theory of brain function. Internal Report 81-2, MPI Biophysical Chemistry, 1981. http://cogprints.org/1380/1/vdM_correlation.pdf Ver Reimpressão em Models of Neural Networks II, capítulo 2, páginas 95–119. Springer, Berlim, 1994.
↑ Jerome A. Feldman, "Dynamic connections in neural networks," Biological Cybernetics, vol. 46, no. 1, pp. 27–39, Dez. 1982.
↑ Hinton, Geoffrey E.; Plaut, David C. (1987). «Using Fast Weights to Deblur Old Memories». Proceedings of the Annual Meeting of the Cognitive Science Society (em inglês). 9
↑ Katharopoulos, Angelos; Vyas, Apoorv; Pappas, Nikolaos; Fleuret, François (2020). Transformers are RNNs: Fast autoregressive Transformers with linear attention. ICML 2020. PMLR. pp. 5156–5165
↑ Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). Linear Transformers Are Secretly Fast Weight Programmers. ICML 2021. Springer. pp. 9355–9366 Parâmetro desconhecido |link-autor3= ignorado (ajuda)
↑ ^a ^b Kyunghyun Cho; Bart van Merriënboer; Caglar Gulcehre; Dzmitry Bahdanau; Fethi Bougares; Holger Schwenk; Yoshua Bengio (2014). Alessandro Moschitti; Bo Pang; Walter Daelemans, eds. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Catar: Association for Computational Linguistics. pp. 1724–1734. arXiv:1406.1078. doi:10.3115/v1/D14-1179
↑ ^a ^b Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (14 de dez. de 2014). «Sequence to sequence learning with neural networks». arXiv:1409.3215 [cs.CL] [primeira versão publicada no arXiv em 10 de set. de 2014]
↑ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). «Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling». arXiv:1412.3555 [cs.NE]
↑ Gruber, N.; Jockisch, A. (2020). «Are GRU cells more specific and LSTM cells more sensitive in motive classification of text?». Frontiers in Artificial Intelligence. 3. PMC 7861254. PMID 33733157. doi:10.3389/frai.2020.00040 Parâmetro desconhecido |numero-artigo= ignorado (ajuda)
↑ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V (2014). «Sequence to Sequence Learning with Neural Networks». Curran Associates, Inc. Advances in Neural Information Processing Systems. 27. arXiv:1409.3215
↑ Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (2015). «Effective Approaches to Attention-based Neural Machine Translation». arXiv:1508.04025 [cs.CL]
↑ Wu, Yonghui; et al. (1 de setembro de 2016). «Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation». arXiv:1609.08144 [cs.CL]
↑ Lewis-Kraus, Gideon (14 de dezembro de 2016). «The Great A.I. Awakening». The New York Times. ISSN 0362-4331. Consultado em 22 de junho de 2023. Cópia arquivada em 24 de maio de 2023
↑ Parikh, Ankur P.; Täckström, Oscar; Das, Dipanjan; Uszkoreit, Jakob (25 de setembro de 2016). «A Decomposable Attention Model for Natural Language Inference». arXiv:1606.01933 [cs.CL]
↑ ^a ^b Levy, Steven. «8 Google Employees Invented Modern AI. Here's the Inside Story». Wired (em inglês). ISSN 1059-1028. Consultado em 6 de agosto de 2024. Cópia arquivada em 20 de mar. de 2024
↑ Jianpeng Cheng; Li Dong; Mirella Lapata (2016). Jian Su; Kevin Duh; Xavier Carreras, eds. Long Short-Term Memory-Networks for Machine Reading. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, Texas: Association for Computational Linguistics. pp. 551–561. doi:10.18653/v1/D16-1053
↑ Peng, Bo; Alcaide, Eric; Anthony, Quentin; Albalak, Alon; Arcadinho, Samuel; Biderman, Stella; Cao, Huanqi; Cheng, Xin; Chung, Michael (10 de dezembro de 2023). «RWKV: Reinventing RNNs for the transformer Era». arXiv:2305.13048
↑ Marche, Stephen (23 de agosto de 2024). «Was Linguistic A.I. Created by Accident?». The New Yorker (em inglês). ISSN 0028-792X. Consultado em 27 de agosto de 2024
↑ ^a ^b ^c ^d ^e Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 de outubro de 2018). «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding». arXiv:1810.04805v2 [cs.CL]
↑ «Google: BERT now used on almost every English query». Search Engine Land. 15 de outubro de 2020. Consultado em 24 de novembro de 2020
↑ ^a ^b Caswell, Isaac; Liang, Bowen (8 de junho de 2020). «Recent Advances in Google Translate». Google Research (em inglês). Consultado em 7 de agosto de 2024. Cópia arquivada em 4 de jul. de 2024
↑ «The inside story of how ChatGPT was built from the people who made it». MIT Technology Review (em inglês). Consultado em 6 de agosto de 2024
↑ «Improving language understanding with unsupervised learning». openai.com. 11 de junho de 2018. Consultado em 18 de março de 2023. Cópia arquivada em 18 de março de 2023
↑ «finetune-transformer-lm». OpenAI. 11 de junho de 2018. Consultado em 1 de maio de 2023
↑ ^a ^b Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (3 de junho de 2021). «An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale». arXiv:2010.11929 [cs.CV]
↑ ^a ^b Gulati, Anmol; Qin, James; Chiu, Chung-Cheng; Parmar, Niki; Zhang, Yu; Yu, Jiahui; Han, Wei; Wang, Shibo; Zhang, Zhengdong; Wu, Yonghui; Pang, Ruoming (2020). «Conformer: Convolution-augmented Transformer for Speech Recognition». arXiv:2005.08100 [eess.AS]
↑ Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz (19 de novembro de 2022). «Rethinking Attention with Performers». arXiv:2009.14794
↑ Liu, Zhuang; Mao, Hanzi; Wu, Chao-Yuan; Feichtenhofer, Christoph; Darrell, Trevor; Xie, Saining (2022). A ConvNet for the 2020s. Conference on Computer Vision and Pattern Recognition (CVPR) (em inglês). pp. 11976–11986
↑ Esser, Patrick; Kulal, Sumith; Blattmann, Andreas; Entezari, Rahim; Müller, Jonas; Saini, Harry; Levi, Yam; Lorenz, Dominik; Sauer, Axel (5 de março de 2024). «Scaling Rectified Flow Transformers for High-Resolution Image Synthesis». arXiv:2403.03206
↑ ^a ^b Xiong, Ruibin; Yang, Yunchang; He, Di; Zheng, Kai; Zheng, Shuxin; Xing, Chen; Zhang, Huishuai; Lan, Yanyan; Wang, Liwei; Liu, Tie-Yan (29 de junho de 2020). «On Layer Normalization in the Transformer Architecture». arXiv:2002.04745 [cs.LG]
↑ Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (1 de janeiro de 2020). «Exploring the limits of transfer learning with a unified text-to-text transformer». The Journal of Machine Learning Research. 21 (1): 140:5485–140:5551. ISSN 1532-4435. arXiv:1910.10683
↑ Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2019). «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer». arXiv:1910.10683 [cs.LG]
↑ ^a ^b «Masked language modeling». huggingface.co. Consultado em 5 de outubro de 2023
↑ ^a ^b «Causal language modeling». huggingface.co. Consultado em 5 de outubro de 2023
↑ ^a ^b ^c ^d Tay, Yi; Dehghani, Mostafa; Tran, Vinh Q.; Garcia, Xavier; Wei, Jason; Wang, Xuezhi; Chung, Hyung Won; Shakeri, Siamak; Bahri, Dara (28 de fevereiro de 2023). «UL2: Unifying Language Learning Paradigms». arXiv:2205.05131
↑ Press, Ofir; Wolf, Lior (21 de fevereiro de 2017). «Using the Output Embedding to Improve Language Models». arXiv:1608.05859
↑ Lintz, Nathan (18 de abril de 2016). «Sequence Modeling with Neural Networks (Part 2): Attention Models». Indico. Consultado em 15 de outubro de 2019. Cópia arquivada em 21 de outubro de 2020
↑ ^a ^b ^c Alammar, Jay. «The Illustrated transformer». jalammar.github.io. Consultado em 15 de outubro de 2019. Cópia arquivada em 18 de outubro de 2020
↑ Team, Keras. «Keras documentation: GPT2Backbone model». keras.io (em inglês). Consultado em 8 de agosto de 2024
↑ Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (Agosto de 2019). «What Does BERT Look at? An Analysis of BERT's Attention». Florença, Itália: Association for Computational Linguistics. Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP: 276–286. arXiv:1906.04341. doi:10.18653/v1/W19-4828. Consultado em 20 de maio de 2020. Cópia arquivada em 21 de outubro de 2020
↑ Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Russ R; Le, Quoc V (2019). «XLNet: Generalized Autoregressive Pretraining for Language Understanding». Curran Associates, Inc. Advances in Neural Information Processing Systems. 32. arXiv:1906.08237
↑ Wang, Qiang; Li, Bei; Xiao, Tong; Zhu, Jingbo; Li, Changliang; Wong, Derek F.; Chao, Lidia S. (4 de junho de 2019). «Learning Deep Transformer Models for Machine Translation». arXiv:1906.01787
↑ Phuong, Mary; Hutter, Marcus (19 de julho de 2022). «Formal Algorithms for Transformers». arXiv:2207.09238
↑ ^a ^b ^c Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer». Journal of Machine Learning Research. 21 (140): 1–67. ISSN 1533-7928. arXiv:1910.10683
↑ ^a ^b Shazeer, Noam (1 de fevereiro de 2020). «GLU Variants Improve Transformer». arXiv:2002.05202 [cs.LG]
↑ Hendrycks, Dan; Gimpel, Kevin (27 de junho de 2016). «Gaussian Error Linear Units (GELUs)» (em inglês). arXiv:1606.08415v5 [cs.LG]
↑ Zhang, Biao; Sennrich, Rico (2019). «Root Mean Square Layer Normalization». Curran Associates, Inc. Advances in Neural Information Processing Systems. 32. arXiv:1910.07467
↑ Tembine, Hamidou, Manzoor Ahmed Khan, and Issa Bamia. 2024. "Mean-Field-Type Transformers" Mathematics 12, no. 22: 3506. https://doi.org/10.3390/math12223506
↑ ^a ^b Toan Q. Nguyen; Julian Salazar (2 de novembro de 2019). Jan Niehues; Rolando Cattoni; Sebastian Stüker; Matteo Negri; Marco Turchi; Thanh-Le Ha; Elizabeth Salesky; Ramon Sanabria; Loïc Barrault, eds. Transformers without Tears: Improving the Normalization of Self-Attention. Proceedings of the 16th International Conference on Spoken Language Translation. Hong Kong: Association for Computational Linguistics. arXiv:1910.05895. doi:10.5281/zenodo.3525484
↑ Dufter, Philipp; Schmitt, Martin; Schütze, Hinrich (6 de junho de 2022). «Position Information in transformers: An Overview». Computational Linguistics. 48 (3): 733–763. ISSN 0891-2017. arXiv:2102.11090. doi:10.1162/coli_a_00445
↑ Gehring, Jonas; Auli, Michael; Grangier, David; Yarats, Denis; Dauphin, Yann N. (17 de julho de 2017). «Convolutional Sequence to Sequence Learning». PMLR. Proceedings of the 34th International Conference on Machine Learning (em inglês): 1243–1252
↑ Haviv, Adi; Ram, Ori; Press, Ofir; Izsak, Peter; Levy, Omer (5 de dezembro de 2022). «Transformer Language Models without Positional Encodings Still Learn Positional Information». arXiv:2203.16634
↑ Su, Jianlin; Lu, Yu; Pan, Shengfeng; Murtadha, Ahmed; Wen, Bo; Liu, Yunfeng (1 de abril de 2021). «RoFormer: Enhanced Transformer with Rotary Position Embedding». arXiv:2104.09864 [cs.CL]
↑ Press, Ofir; Smith, Noah A.; Lewis, Mike (1 de agosto de 2021). «Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation». arXiv:2108.12409 [cs.CL]
↑ Shaw, Peter; Uszkoreit, Jakob; Vaswani, Ashish (2018). «Self-Attention with Relative Position Representations». arXiv:1803.02155 [cs.CL]
↑ Ke, Guolin; He, Di; Liu, Tie-Yan (15 de março de 2021). «Rethinking Positional Encoding in Language Pre-training». arXiv:2006.15595
↑ Kwon, Woosuk; Li, Zhuohan; Zhuang, Siyuan; Sheng, Ying; Zheng, Lianmin; Yu, Cody Hao; Gonzalez, Joseph; Zhang, Hao; Stoica, Ion (23 de outubro de 2023). «Efficient Memory Management for Large Language Model Serving with PagedAttention». Proceedings of the 29th Symposium on Operating Systems Principles. Col: SOSP '23. New York, NY, EUA: Association for Computing Machinery. pp. 611–626. ISBN 979-8-4007-0229-7. arXiv:2309.06180. doi:10.1145/3600006.3613165
↑ «vllm-project/vllm». vLLM. 20 de junho de 2024. Consultado em 20 de junho de 2024
↑ Zhuohan Li, Woosuk Kwon; Zhuang, Siyuan; Sheng, Ying; Zheng, Lianmin; Yu, Cody; Gonzalez, Joey; Zhang, Hao; Stoica, Ion (20 de junho de 2023). «vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention». vLLM Blog (em inglês). Consultado em 20 de junho de 2024
↑ Hu, Cunchen; Huang, Heyang; Xu, Liangliang; Chen, Xusheng; Xu, Jiang; Chen, Shuang; Feng, Hao; Wang, Chenxi; Wang, Sa (20 de janeiro de 2024). «Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads». arXiv:2401.11181. doi:10.48550/arXiv.2401.11181 Parâmetros não válidos no arXiv (ajuda)
↑ Dao, Tri; Fu, Dan; Ermon, Stefano; Rudra, Atri; Ré, Christopher (6 de dezembro de 2022). «FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness». Advances in Neural Information Processing Systems. 35: 16344–16359. arXiv:2205.14135
↑ «Stanford CRFM». crfm.stanford.edu. Consultado em 18 de julho de 2023
↑ «FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning». Princeton NLP. 17 de junho de 2023. Consultado em 18 de julho de 2023
↑ «Introducing Together AI Chief Scientist Tri Dao, as he releases FlashAttention-2 to speed up model training and inference». TOGETHER. Consultado em 18 de julho de 2023
↑ Ainslie, Joshua; Lee-Thorp, James; de Jong, Michiel; Zemlyanskiy, Yury; Lebrón, Federico; Sanghai, Sumit (23 de dezembro de 2023). «GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints». arXiv:2305.13245 [cs.CL]
↑ «We reverse-engineered Flash Attention 4». Modal (em inglês). Consultado em 26 de setembro de 2025
↑ Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; Bosma, Maarten; Mishra, Gaurav; Roberts, Adam; Barham, Paul; Chung, Hyung Won; Sutton, Charles; Gehrmann, Sebastian; Schuh, Parker; Shi, Kensen; Tsvyashchenko, Sasha; Maynez, Joshua; Rao, Abhishek (1 de abril de 2022). «PaLM: Scaling Language Modeling with Pathways». arXiv:2204.02311 [cs.CL]
↑ Ainslie, Joshua; Lee-Thorp, James; de Jong, Michiel; Zemlyanskiy, Yury; Lebrón, Federico; Sanghai, Sumit (23 de dezembro de 2023). «GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints». arXiv:2305.13245
↑ ^a ^b DeepSeek-AI; Liu, Aixin; Feng, Bei; Wang, Bin; Wang, Bingxuan; Liu, Bo; Zhao, Chenggang; Dengr, Chengqi; Ruan, Chong (19 de junho de 2024). «DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model». arXiv:2405.04434 .
↑ ^a ^b Leviathan, Yaniv; Kalman, Matan; Matias, Yossi (18 de maio de 2023). «Fast Inference from Transformers via Speculative Decoding». arXiv:2211.17192
↑ Fu, Yao (11 de dezembro de 2023). «Towards 100x Speedup: Full Stack Transformer Inference Optimization». yaofu.notion.site
↑ Chen, Charlie; Borgeaud, Sebastian; Irving, Geoffrey; Lespiau, Jean-Baptiste; Sifre, Laurent; Jumper, John (2 de fevereiro de 2023). «Accelerating Large Language Model Decoding with Speculative Sampling». arXiv:2302.01318
↑ Gloeckle, Fabian; Badr Youbi Idrissi; Rozière, Baptiste; Lopez-Paz, David; Synnaeve, Gabriel (2024). «Better & Faster Large Language Models via Multi-token Prediction». arXiv:2404.19737 [cs.CL]
↑ DeepSeek-AI; et al. (2024). «DeepSeek-V3 Technical Report». arXiv:2412.19437 [cs.CL]
↑ ^a ^b Kitaev, Nikita; Kaiser, Łukasz; Levskaya, Anselm (2020). «Reformer: The Efficient Transformer». arXiv:2001.04451 [cs.LG]
↑ Liu, Ze; Lin, Yutong; Cao, Yue; Hu, Han; Wei, Yixuan; Zhang, Zheng; Lin, Stephen; Guo, Baining (2021). «Swin Transformer: Hierarchical Vision Transformer using Shifted Windows». 2021 IEEE/CVF International Conference on Computer Vision (ICCV). [S.l.]: IEEE. pp. 9992–10002. ISBN 978-1-6654-2812-5. arXiv:2103.14030. doi:10.1109/ICCV48922.2021.00986
↑ Ristea, Nicolaea Catalin; Ionescu, Radu Tudor; Khan, Fahad Shahbaz (18 de setembro de 2022). «SepTr: Separable Transformer for Audio Spectrogram Processing». ISCA. Interspeech (em inglês): 4103–4107. arXiv:2203.09581. doi:10.21437/Interspeech.2022-249
↑ Tay, Yi; Dehghani, Mostafa; Abnar, Samira; Shen, Yikang; Bahri, Dara; Pham, Philip; Rao, Jinfeng; Yang, Liu; Ruder, Sebastian; Metzler, Donald (8 de novembro de 2020). «Long Range Arena: A Benchmark for Efficient Transformers». arXiv:2011.04006 [cs.LG]
↑ «Reformer: The Efficient Transformer». Google AI Blog. 16 de janeiro de 2020. Consultado em 22 de outubro de 2020. Cópia arquivada em 22 de outubro de 2020
↑ Gomez, Aidan N; Ren, Mengye; Urtasun, Raquel; Grosse, Roger B (2017). «The Reversible Residual Network: Backpropagation Without Storing Activations». Curran Associates, Inc. Advances in Neural Information Processing Systems. 30. arXiv:1707.04585
↑ Child, Rewon; Gray, Scott; Radford, Alec; Sutskever, Ilya (23 de abril de 2019). «Generating Long Sequences with Sparse Transformers». arXiv:1904.10509
↑ «Constructing Transformers For Longer Sequences with Sparse Attention Methods». Google AI Blog. 25 de março de 2021. Consultado em 28 de maio de 2021. Cópia arquivada em 18 de setembro de 2021
↑ Zhai, Shuangfei; Talbott, Walter; Srivastava, Nitish; Huang, Chen; Goh, Hanlin; Zhang, Ruixiang; Susskind, Josh (21 de setembro de 2021). «An Attention Free Transformer». arXiv:2105.14103 [cs.LG]
↑ Peng, Hao; Pappas, Nikolaos; Yogatama, Dani; Schwartz, Roy; Smith, Noah A.; Kong, Lingpeng (19 de março de 2021). «Random Feature Attention». arXiv:2103.02143 [cs.CL]
↑ Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Belanger, David; Colwell, Lucy; Weller, Adrian (30 de setembro de 2020). «Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers». arXiv:2006.03555 [cs.LG]
↑ Lu, Kevin; Grover, Aditya; Abbeel, Pieter; Mordatch, Igor (28 de junho de 2022). «Frozen Pretrained Transformers as Universal Computation Engines». Proceedings of the AAAI Conference on Artificial Intelligence (em inglês). 36 (7): 7628–7636. ISSN 2374-3468. doi:10.1609/aaai.v36i7.20729
↑ «Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org». lmsys.org (em inglês). Consultado em 11 de agosto de 2024
↑ Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (15 de dezembro de 2023). «Visual Instruction Tuning». Advances in Neural Information Processing Systems (em inglês). 36: 34892–34916
↑ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). «Robust Speech Recognition via Large-Scale Weak Supervision». arXiv:2212.04356 [eess.AS]
↑ Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (22 de junho de 2021). «Perceiver: General Perception with Iterative Attention». arXiv:2103.03206 [cs.CV]
↑ Jaegle, Andrew; Borgeaud, Sebastian; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalin; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrew; Shelhamer, Evan; Hénaff, Olivier (2 de agosto de 2021). «Perceiver IO: A General Architecture for Structured Inputs & Outputs». arXiv:2107.14795 [cs.LG]
↑ «Parti: Pathways Autoregressive Text-to-Image Model». sites.research.google. Consultado em 9 de agosto de 2024
↑ ^a ^b Villegas, Ruben; Babaeizadeh, Mohammad; Kindermans, Pieter-Jan; Moraldo, Hernan; Zhang, Han; Saffar, Mohammad Taghi; Castro, Santiago; Kunze, Julius; Erhan, Dumitru (29 de setembro de 2022). «Phenaki: Variable Length Video Generation from Open Domain Textual Descriptions» (em inglês). arXiv:2210.02399 [cs.CV]
↑ ^a ^b Chang, Huiwen; Zhang, Han; Barber, Jarred; Maschinot, A. J.; Lezama, Jose; Jiang, Lu; Yang, Ming-Hsuan; Murphy, Kevin; Freeman, William T. (2 de janeiro de 2023). «Muse: Text-To-Image Generation via Masked Generative Transformers». arXiv:2301.00704 [cs.CV] Parâmetro desconhecido |link-autor7= ignorado (ajuda)
↑ Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (26 de fevereiro de 2021). «Zero-Shot Text-to-Image Generation». arXiv:2102.12092
↑ Yu, Jiahui; Xu, Yuanzhong; Koh, Jing Yu; Luong, Thang; Baid, Gunjan; Wang, Zirui; Vasudevan, Vijay; Ku, Alexander; Yang, Yinfei (21 de junho de 2022). «Scaling Autoregressive Models for Content-Rich Text-to-Image Generation». arXiv:2206.10789
↑ Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric (2023). «Precision information extraction for rare disease epidemiology at scale». Journal of Translational Medicine. 21 (1): 157. PMC 9972634. PMID 36855134. doi:10.1186/s12967-023-04011-y
↑ Maity, Abhishek (março de 2026). «CrisisSense: Transforming Social Signals into Real-Time Disaster Awareness via Deep Neural Intelligence». 2026 IEEE Madhya Pradesh Section Conference (MPCON): 1501–1506. doi:10.1109/MPCON69668.2026.11508516

Leitura adicional

editar

Alexander Rush, The Annotated transformer, Harvard NLP group, 3 de abril de 2018. Arquivado em 22 de setembro de 2021 via Wayback Machine.
Phuong, Mary; Hutter, Marcus (2022). «Formal Algorithms for Transformers». arXiv. arXiv:2207.09238
Ferrando, Javier; Sarti, Gabriele; Bisazza, Arianna; Costa-jussà, Marta R. (1 de maio de 2024). «A Primer on the Inner Workings of Transformer-based Language Models». arXiv. arXiv:2405.00208
Leech, Gavin (6 de novembro de 2024). «Transformer++». argmin gravitas. Consultado em 8 de maio de 2025. Cópia arquivada em 26 de fevereiro de 2025
US 10452978, "Attention-based sequence transduction neural networks"
Raschka, Sebastian (11 de março de 2026). «The Big LLM Architecture Comparison: From DeepSeek V3 to GLM-5: A Look At Modern LLM Architecture Design». Sebastian Raschka’s AI Magazine. Consultado em 25 de março de 2026

[13] As Gated recurrent units (2014) reduziram ainda mais a sua complexidade.

[17] Algumas arquiteturas, como RWKV ou modelos de espaço de estado, evitam o problema.

[2017_Attention_Is_All_You_Need-1] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l Ashish Vaswani; Noam Shazeer; Niki Parmar; Jakob Uszkoreit; Llion Jones; Aidan N. Gomez; Łukasz Kaiser; Illia Polosukhin (2017). Attention Is All You Need (PDF). Advances in Neural Information Processing Systems 30 (NeurIPS 2017). 30. Curran Associates, Inc.

[lstm1997-2] Sepp Hochreiter; Jürgen Schmidhuber (1 de novembro de 1997). «Long Short-Term Memory». Neural Computation. 9 (8): 1735–1780. ISSN 0899-7667. PMID 9377276. doi:10.1162/neco.1997.9.8.1735

[:7-3] «Better Language Models and Their Implications». OpenAI. 14 de fevereiro de 2019. Consultado em 25 de agosto de 2019. Cópia arquivada em 19 de dezembro de 2020

[inventors-4] Bahdanau; Cho, Kyunghyun; Bengio, Yoshua (1 de setembro de 2014). «Neural Machine Translation by Jointly Learning to Align and Translate». arXiv:1409.0473 [cs.CL]

[inventconfirm-5] Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 de agosto de 2015). «Effective Approaches to Attention-based Neural Machine Translation». arXiv:1508.04025 [cs.CL]

[:10-6] Chen, Lili; Lu, Kevin; Rajeswaran, Aravind; Lee, Kimin; Grover, Aditya; Laskin, Michael; Abbeel, Pieter; Srinivas, Aravind; Mordatch, Igor (24 de junho de 2021). «Decision Transformer: Reinforcement Learning via Sequence Modeling». arXiv:2106.01345

[7] Parisotto, Emilio; Song, Francis; Rae, Jack; Pascanu, Razvan; Gulcehre, Caglar; Jayakumar, Siddhant; Jaderberg, Max; Kaufman, Raphaël Lopez; Clark, Aidan; Noury, Seb; Botvinick, Matthew; Heess, Nicolas; Hadsell, Raia (21 de novembro de 2020). «Stabilizing Transformers for Reinforcement Learning». PMLR. Proceedings of the 37th International Conference on Machine Learning (em inglês): 7487–7498

[Robust_Speech_Recognition_via_Large-Scale_Weak_Supervision-8] Radford, Alec; Jong Wook Kim; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). «Robust Speech Recognition via Large-Scale Weak Supervision». arXiv:2212.04356 [eess.AS]

[9] Monastirsky, Maxim; Azulay, Osher; Sintov, Avishai (Fevereiro de 2023). «Learning to Throw With a Handful of Samples Using Decision Transformers». IEEE Robotics and Automation Letters. 8 (2): 576–583. Bibcode:2023IRAL....8..576M. ISSN 2377-3766. doi:10.1109/LRA.2022.3229266

[grandmaster-10] Ruoss, Anian; Delétang, Grégoire; Medapati, Sourabh; Grau-Moya, Jordi; Wenliang, Li; Catt, Elliot; Reid, John; Genewein, Tim (7 de fevereiro de 2024). «Grandmaster-Level Chess Without Search». arXiv:2402.04494v1 [cs.LG]

[wolf2020-11] Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). «Transformers: State-of-the-Art Natural Language Processing». Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. [S.l.: s.n.] pp. 38–45. doi:10.18653/v1/2020.emnlp-demos.6

[:6-12] «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing». Google AI Blog. 2 de novembro de 2018. Consultado em 25 de agosto de 2019. Cópia arquivada em 13 de janeiro de 2021

[14] Feldman, J. A.; Ballard, D. H. (1 de julho de 1982). «Connectionist models and their properties». Cognitive Science. 6 (3): 205–254. ISSN 0364-0213. doi:10.1016/S0364-0213(82)80001-3

[PDP-15] Rumelhart, David E.; McClelland, James L.; Hinton, Geoffrey E. (29 de julho de 1987). Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations, Chapter 2 (PDF) (em inglês). Cambridge, Mass: Bradford Books. ISBN 978-0-262-68053-0

[16] Giles, C. Lee; Maxwell, Tom (1 de dezembro de 1987). «Learning, invariance, and generalization in high-order neural networks». Applied Optics (em inglês). 26 (23): 4972–4978. ISSN 0003-6935. PMID 20523475. doi:10.1364/AO.26.004972

[transform19922-18] Schmidhuber, Jürgen (1992). «Learning to control fast-weight memories: an alternative to recurrent nets.» (PDF). Neural Computation. 4 (1): 131–139. doi:10.1162/neco.1992.4.1.131 Parâmetro desconhecido |link-autor1= ignorado (ajuda)

[malsburg1981-19] Christoph von der Malsburg: The correlation theory of brain function. Internal Report 81-2, MPI Biophysical Chemistry, 1981. http://cogprints.org/1380/1/vdM_correlation.pdf Ver Reimpressão em Models of Neural Networks II, capítulo 2, páginas 95–119. Springer, Berlim, 1994.

[feldman1982-20] Jerome A. Feldman, "Dynamic connections in neural networks," Biological Cybernetics, vol. 46, no. 1, pp. 27–39, Dez. 1982.

[21] Hinton, Geoffrey E.; Plaut, David C. (1987). «Using Fast Weights to Deblur Old Memories». Proceedings of the Annual Meeting of the Cognitive Science Society (em inglês). 9

[fastlinear20202-22] Katharopoulos, Angelos; Vyas, Apoorv; Pappas, Nikolaos; Fleuret, François (2020). Transformers are RNNs: Fast autoregressive Transformers with linear attention. ICML 2020. PMLR. pp. 5156–5165

[schlag20212-23] Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). Linear Transformers Are Secretly Fast Weight Programmers. ICML 2021. Springer. pp. 9355–9366 Parâmetro desconhecido |link-autor3= ignorado (ajuda)

[:22-24] Kyunghyun Cho; Bart van Merriënboer; Caglar Gulcehre; Dzmitry Bahdanau; Fethi Bougares; Holger Schwenk; Yoshua Bengio (2014). Alessandro Moschitti; Bo Pang; Walter Daelemans, eds. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Catar: Association for Computational Linguistics. pp. 1724–1734. arXiv:1406.1078. doi:10.3115/v1/D14-1179

[sequence-25] Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (14 de dez. de 2014). «Sequence to sequence learning with neural networks». arXiv:1409.3215 [cs.CL] [primeira versão publicada no arXiv em 10 de set. de 2014]

[MyUser_Arxiv.org_May_18_2016c-26] Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). «Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling». arXiv:1412.3555 [cs.NE]

[gruber_jockisch-27] Gruber, N.; Jockisch, A. (2020). «Are GRU cells more specific and LSTM cells more sensitive in motive classification of text?». Frontiers in Artificial Intelligence. 3. PMC 7861254. PMID 33733157. doi:10.3389/frai.2020.00040 Parâmetro desconhecido |numero-artigo= ignorado (ajuda)

[28] Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V (2014). «Sequence to Sequence Learning with Neural Networks». Curran Associates, Inc. Advances in Neural Information Processing Systems. 27. arXiv:1409.3215

[29] Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (2015). «Effective Approaches to Attention-based Neural Machine Translation». arXiv:1508.04025 [cs.CL]

[Y4moj-30] Wu, Yonghui; et al. (1 de setembro de 2016). «Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation». arXiv:1609.08144 [cs.CL]

[UJDu8-31] Lewis-Kraus, Gideon (14 de dezembro de 2016). «The Great A.I. Awakening». The New York Times. ISSN 0362-4331. Consultado em 22 de junho de 2023. Cópia arquivada em 24 de maio de 2023

[32] Parikh, Ankur P.; Täckström, Oscar; Das, Dipanjan; Uszkoreit, Jakob (25 de setembro de 2016). «A Decomposable Attention Model for Natural Language Inference». arXiv:1606.01933 [cs.CL]

[:11-33] Levy, Steven. «8 Google Employees Invented Modern AI. Here's the Inside Story». Wired (em inglês). ISSN 1059-1028. Consultado em 6 de agosto de 2024. Cópia arquivada em 20 de mar. de 2024

[34] Jianpeng Cheng; Li Dong; Mirella Lapata (2016). Jian Su; Kevin Duh; Xavier Carreras, eds. Long Short-Term Memory-Networks for Machine Reading. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, Texas: Association for Computational Linguistics. pp. 551–561. doi:10.18653/v1/D16-1053

[35] Peng, Bo; Alcaide, Eric; Anthony, Quentin; Albalak, Alon; Arcadinho, Samuel; Biderman, Stella; Cao, Huanqi; Cheng, Xin; Chung, Michael (10 de dezembro de 2023). «RWKV: Reinventing RNNs for the transformer Era». arXiv:2305.13048

[36] Marche, Stephen (23 de agosto de 2024). «Was Linguistic A.I. Created by Accident?». The New Yorker (em inglês). ISSN 0028-792X. Consultado em 27 de agosto de 2024

[:03-37] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 de outubro de 2018). «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding». arXiv:1810.04805v2 [cs.CL]

[38] «Google: BERT now used on almost every English query». Search Engine Land. 15 de outubro de 2020. Consultado em 24 de novembro de 2020

[gtrans-39] Caswell, Isaac; Liang, Bowen (8 de junho de 2020). «Recent Advances in Google Translate». Google Research (em inglês). Consultado em 7 de agosto de 2024. Cópia arquivada em 4 de jul. de 2024

[40] «The inside story of how ChatGPT was built from the people who made it». MIT Technology Review (em inglês). Consultado em 6 de agosto de 2024

[gpt12-41] «Improving language understanding with unsupervised learning». openai.com. 11 de junho de 2018. Consultado em 18 de março de 2023. Cópia arquivada em 18 de março de 2023

[ngEG3-42] «finetune-transformer-lm». OpenAI. 11 de junho de 2018. Consultado em 1 de maio de 2023

[auto2-43] Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (3 de junho de 2021). «An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale». arXiv:2010.11929 [cs.CV]

[Gulati2020-44] Gulati, Anmol; Qin, James; Chiu, Chung-Cheng; Parmar, Niki; Zhang, Yu; Yu, Jiahui; Han, Wei; Wang, Shibo; Zhang, Zhengdong; Wu, Yonghui; Pang, Ruoming (2020). «Conformer: Convolution-augmented Transformer for Speech Recognition». arXiv:2005.08100 [eess.AS]

[choromanski2020-45] Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz (19 de novembro de 2022). «Rethinking Attention with Performers». arXiv:2009.14794

[46] Liu, Zhuang; Mao, Hanzi; Wu, Chao-Yuan; Feichtenhofer, Christoph; Darrell, Trevor; Xie, Saining (2022). A ConvNet for the 2020s. Conference on Computer Vision and Pattern Recognition (CVPR) (em inglês). pp. 11976–11986

[:62-47] Esser, Patrick; Kulal, Sumith; Blattmann, Andreas; Entezari, Rahim; Müller, Jonas; Saini, Harry; Levi, Yam; Lorenz, Dominik; Sauer, Axel (5 de março de 2024). «Scaling Rectified Flow Transformers for High-Resolution Image Synthesis». arXiv:2403.03206

[auto1-48] Xiong, Ruibin; Yang, Yunchang; He, Di; Zheng, Kai; Zheng, Shuxin; Xing, Chen; Zhang, Huishuai; Lan, Yanyan; Wang, Liwei; Liu, Tie-Yan (29 de junho de 2020). «On Layer Normalization in the Transformer Architecture». arXiv:2002.04745 [cs.LG]

[:0-49] Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (1 de janeiro de 2020). «Exploring the limits of transfer learning with a unified text-to-text transformer». The Journal of Machine Learning Research. 21 (1): 140:5485–140:5551. ISSN 1532-4435. arXiv:1910.10683

[50] Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2019). «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer». arXiv:1910.10683 [cs.LG]

[:5-51] «Masked language modeling». huggingface.co. Consultado em 5 de outubro de 2023

[:8-52] «Causal language modeling». huggingface.co. Consultado em 5 de outubro de 2023

[:4-53] Tay, Yi; Dehghani, Mostafa; Tran, Vinh Q.; Garcia, Xavier; Wei, Jason; Wang, Xuezhi; Chung, Hyung Won; Shakeri, Siamak; Bahri, Dara (28 de fevereiro de 2023). «UL2: Unifying Language Learning Paradigms». arXiv:2205.05131

[54] Press, Ofir; Wolf, Lior (21 de fevereiro de 2017). «Using the Output Embedding to Improve Language Models». arXiv:1608.05859

[55] Lintz, Nathan (18 de abril de 2016). «Sequence Modeling with Neural Networks (Part 2): Attention Models». Indico. Consultado em 15 de outubro de 2019. Cópia arquivada em 21 de outubro de 2020

[:1-56] Alammar, Jay. «The Illustrated transformer». jalammar.github.io. Consultado em 15 de outubro de 2019. Cópia arquivada em 18 de outubro de 2020

[57] Team, Keras. «Keras documentation: GPT2Backbone model». keras.io (em inglês). Consultado em 8 de agosto de 2024

[58] Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (Agosto de 2019). «What Does BERT Look at? An Analysis of BERT's Attention». Florença, Itália: Association for Computational Linguistics. Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP: 276–286. arXiv:1906.04341. doi:10.18653/v1/W19-4828. Consultado em 20 de maio de 2020. Cópia arquivada em 21 de outubro de 2020

[59] Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Russ R; Le, Quoc V (2019). «XLNet: Generalized Autoregressive Pretraining for Language Understanding». Curran Associates, Inc. Advances in Neural Information Processing Systems. 32. arXiv:1906.08237

[60] Wang, Qiang; Li, Bei; Xiao, Tong; Zhu, Jingbo; Li, Changliang; Wong, Derek F.; Chao, Lidia S. (4 de junho de 2019). «Learning Deep Transformer Models for Machine Translation». arXiv:1906.01787

[61] Phuong, Mary; Hutter, Marcus (19 de julho de 2022). «Formal Algorithms for Transformers». arXiv:2207.09238

[:3-62] Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer». Journal of Machine Learning Research. 21 (140): 1–67. ISSN 1533-7928. arXiv:1910.10683

[:14-63] Shazeer, Noam (1 de fevereiro de 2020). «GLU Variants Improve Transformer». arXiv:2002.05202 [cs.LG]

[64] Hendrycks, Dan; Gimpel, Kevin (27 de junho de 2016). «Gaussian Error Linear Units (GELUs)» (em inglês). arXiv:1606.08415v5 [cs.LG]

[65] Zhang, Biao; Sennrich, Rico (2019). «Root Mean Square Layer Normalization». Curran Associates, Inc. Advances in Neural Information Processing Systems. 32. arXiv:1910.07467

[66] Tembine, Hamidou, Manzoor Ahmed Khan, and Issa Bamia. 2024. "Mean-Field-Type Transformers" Mathematics 12, no. 22: 3506. https://doi.org/10.3390/math12223506

[:9-67] Toan Q. Nguyen; Julian Salazar (2 de novembro de 2019). Jan Niehues; Rolando Cattoni; Sebastian Stüker; Matteo Negri; Marco Turchi; Thanh-Le Ha; Elizabeth Salesky; Ramon Sanabria; Loïc Barrault, eds. Transformers without Tears: Improving the Normalization of Self-Attention. Proceedings of the 16th International Conference on Spoken Language Translation. Hong Kong: Association for Computational Linguistics. arXiv:1910.05895. doi:10.5281/zenodo.3525484

[68] Dufter, Philipp; Schmitt, Martin; Schütze, Hinrich (6 de junho de 2022). «Position Information in transformers: An Overview». Computational Linguistics. 48 (3): 733–763. ISSN 0891-2017. arXiv:2102.11090. doi:10.1162/coli_a_00445

[69] Gehring, Jonas; Auli, Michael; Grangier, David; Yarats, Denis; Dauphin, Yann N. (17 de julho de 2017). «Convolutional Sequence to Sequence Learning». PMLR. Proceedings of the 34th International Conference on Machine Learning (em inglês): 1243–1252

[70] Haviv, Adi; Ram, Ori; Press, Ofir; Izsak, Peter; Levy, Omer (5 de dezembro de 2022). «Transformer Language Models without Positional Encodings Still Learn Positional Information». arXiv:2203.16634

[71] Su, Jianlin; Lu, Yu; Pan, Shengfeng; Murtadha, Ahmed; Wen, Bo; Liu, Yunfeng (1 de abril de 2021). «RoFormer: Enhanced Transformer with Rotary Position Embedding». arXiv:2104.09864 [cs.CL]

[72] Press, Ofir; Smith, Noah A.; Lewis, Mike (1 de agosto de 2021). «Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation». arXiv:2108.12409 [cs.CL]

[73] Shaw, Peter; Uszkoreit, Jakob; Vaswani, Ashish (2018). «Self-Attention with Relative Position Representations». arXiv:1803.02155 [cs.CL]

[74] Ke, Guolin; He, Di; Liu, Tie-Yan (15 de março de 2021). «Rethinking Positional Encoding in Language Pre-training». arXiv:2006.15595

[75] Kwon, Woosuk; Li, Zhuohan; Zhuang, Siyuan; Sheng, Ying; Zheng, Lianmin; Yu, Cody Hao; Gonzalez, Joseph; Zhang, Hao; Stoica, Ion (23 de outubro de 2023). «Efficient Memory Management for Large Language Model Serving with PagedAttention». Proceedings of the 29th Symposium on Operating Systems Principles. Col: SOSP '23. New York, NY, EUA: Association for Computing Machinery. pp. 611–626. ISBN 979-8-4007-0229-7. arXiv:2309.06180. doi:10.1145/3600006.3613165

[76] «vllm-project/vllm». vLLM. 20 de junho de 2024. Consultado em 20 de junho de 2024

[77] Zhuohan Li, Woosuk Kwon; Zhuang, Siyuan; Sheng, Ying; Zheng, Lianmin; Yu, Cody; Gonzalez, Joey; Zhang, Hao; Stoica, Ion (20 de junho de 2023). «vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention». vLLM Blog (em inglês). Consultado em 20 de junho de 2024

[78] Hu, Cunchen; Huang, Heyang; Xu, Liangliang; Chen, Xusheng; Xu, Jiang; Chen, Shuang; Feng, Hao; Wang, Chenxi; Wang, Sa (20 de janeiro de 2024). «Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads». arXiv:2401.11181. doi:10.48550/arXiv.2401.11181 Parâmetros não válidos no arXiv (ajuda)

[79] Dao, Tri; Fu, Dan; Ermon, Stefano; Rudra, Atri; Ré, Christopher (6 de dezembro de 2022). «FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness». Advances in Neural Information Processing Systems. 35: 16344–16359. arXiv:2205.14135

[80] «Stanford CRFM». crfm.stanford.edu. Consultado em 18 de julho de 2023

[81] «FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning». Princeton NLP. 17 de junho de 2023. Consultado em 18 de julho de 2023

[82] «Introducing Together AI Chief Scientist Tri Dao, as he releases FlashAttention-2 to speed up model training and inference». TOGETHER. Consultado em 18 de julho de 2023

[83] Ainslie, Joshua; Lee-Thorp, James; de Jong, Michiel; Zemlyanskiy, Yury; Lebrón, Federico; Sanghai, Sumit (23 de dezembro de 2023). «GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints». arXiv:2305.13245 [cs.CL]

[84] «We reverse-engineered Flash Attention 4». Modal (em inglês). Consultado em 26 de setembro de 2025

[85] Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; Bosma, Maarten; Mishra, Gaurav; Roberts, Adam; Barham, Paul; Chung, Hyung Won; Sutton, Charles; Gehrmann, Sebastian; Schuh, Parker; Shi, Kensen; Tsvyashchenko, Sasha; Maynez, Joshua; Rao, Abhishek (1 de abril de 2022). «PaLM: Scaling Language Modeling with Pathways». arXiv:2204.02311 [cs.CL]

[86] Ainslie, Joshua; Lee-Thorp, James; de Jong, Michiel; Zemlyanskiy, Yury; Lebrón, Federico; Sanghai, Sumit (23 de dezembro de 2023). «GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints». arXiv:2305.13245

[:73-87] DeepSeek-AI; Liu, Aixin; Feng, Bei; Wang, Bin; Wang, Bingxuan; Liu, Bo; Zhao, Chenggang; Dengr, Chengqi; Ruan, Chong (19 de junho de 2024). «DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model». arXiv:2405.04434 .

[:2-88] Leviathan, Yaniv; Kalman, Matan; Matias, Yossi (18 de maio de 2023). «Fast Inference from Transformers via Speculative Decoding». arXiv:2211.17192

[89] Fu, Yao (11 de dezembro de 2023). «Towards 100x Speedup: Full Stack Transformer Inference Optimization». yaofu.notion.site

[90] Chen, Charlie; Borgeaud, Sebastian; Irving, Geoffrey; Lespiau, Jean-Baptiste; Sifre, Laurent; Jumper, John (2 de fevereiro de 2023). «Accelerating Large Language Model Decoding with Speculative Sampling». arXiv:2302.01318

[91] Gloeckle, Fabian; Badr Youbi Idrissi; Rozière, Baptiste; Lopez-Paz, David; Synnaeve, Gabriel (2024). «Better & Faster Large Language Models via Multi-token Prediction». arXiv:2404.19737 [cs.CL]

[92] DeepSeek-AI; et al. (2024). «DeepSeek-V3 Technical Report». arXiv:2412.19437 [cs.CL]

[reformer-93] Kitaev, Nikita; Kaiser, Łukasz; Levskaya, Anselm (2020). «Reformer: The Efficient Transformer». arXiv:2001.04451 [cs.LG]

[94] Liu, Ze; Lin, Yutong; Cao, Yue; Hu, Han; Wei, Yixuan; Zhang, Zheng; Lin, Stephen; Guo, Baining (2021). «Swin Transformer: Hierarchical Vision Transformer using Shifted Windows». 2021 IEEE/CVF International Conference on Computer Vision (ICCV). [S.l.]: IEEE. pp. 9992–10002. ISBN 978-1-6654-2812-5. arXiv:2103.14030. doi:10.1109/ICCV48922.2021.00986

[95] Ristea, Nicolaea Catalin; Ionescu, Radu Tudor; Khan, Fahad Shahbaz (18 de setembro de 2022). «SepTr: Separable Transformer for Audio Spectrogram Processing». ISCA. Interspeech (em inglês): 4103–4107. arXiv:2203.09581. doi:10.21437/Interspeech.2022-249

[96] Tay, Yi; Dehghani, Mostafa; Abnar, Samira; Shen, Yikang; Bahri, Dara; Pham, Philip; Rao, Jinfeng; Yang, Liu; Ruder, Sebastian; Metzler, Donald (8 de novembro de 2020). «Long Range Arena: A Benchmark for Efficient Transformers». arXiv:2011.04006 [cs.LG]

[97] «Reformer: The Efficient Transformer». Google AI Blog. 16 de janeiro de 2020. Consultado em 22 de outubro de 2020. Cópia arquivada em 22 de outubro de 2020

[98] Gomez, Aidan N; Ren, Mengye; Urtasun, Raquel; Grosse, Roger B (2017). «The Reversible Residual Network: Backpropagation Without Storing Activations». Curran Associates, Inc. Advances in Neural Information Processing Systems. 30. arXiv:1707.04585

[99] Child, Rewon; Gray, Scott; Radford, Alec; Sutskever, Ilya (23 de abril de 2019). «Generating Long Sequences with Sparse Transformers». arXiv:1904.10509

[100] «Constructing Transformers For Longer Sequences with Sparse Attention Methods». Google AI Blog. 25 de março de 2021. Consultado em 28 de maio de 2021. Cópia arquivada em 18 de setembro de 2021

[101] Zhai, Shuangfei; Talbott, Walter; Srivastava, Nitish; Huang, Chen; Goh, Hanlin; Zhang, Ruixiang; Susskind, Josh (21 de setembro de 2021). «An Attention Free Transformer». arXiv:2105.14103 [cs.LG]

[102] Peng, Hao; Pappas, Nikolaos; Yogatama, Dani; Schwartz, Roy; Smith, Noah A.; Kong, Lingpeng (19 de março de 2021). «Random Feature Attention». arXiv:2103.02143 [cs.CL]

[103] Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Belanger, David; Colwell, Lucy; Weller, Adrian (30 de setembro de 2020). «Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers». arXiv:2006.03555 [cs.LG]

[104] Lu, Kevin; Grover, Aditya; Abbeel, Pieter; Mordatch, Igor (28 de junho de 2022). «Frozen Pretrained Transformers as Universal Computation Engines». Proceedings of the AAAI Conference on Artificial Intelligence (em inglês). 36 (7): 7628–7636. ISSN 2374-3468. doi:10.1609/aaai.v36i7.20729

[105] «Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org». lmsys.org (em inglês). Consultado em 11 de agosto de 2024

[106] Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (15 de dezembro de 2023). «Visual Instruction Tuning». Advances in Neural Information Processing Systems (em inglês). 36: 34892–34916

[Radford_Kim_Xu_Brockman_p.-107] Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). «Robust Speech Recognition via Large-Scale Weak Supervision». arXiv:2212.04356 [eess.AS]

[perceiver2021-108] Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (22 de junho de 2021). «Perceiver: General Perception with Iterative Attention». arXiv:2103.03206 [cs.CV]

[jaegle2021b-109] Jaegle, Andrew; Borgeaud, Sebastian; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalin; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrew; Shelhamer, Evan; Hénaff, Olivier (2 de agosto de 2021). «Perceiver IO: A General Architecture for Structured Inputs & Outputs». arXiv:2107.14795 [cs.LG]

[110] «Parti: Pathways Autoregressive Text-to-Image Model». sites.research.google. Consultado em 9 de agosto de 2024

[:13-111] Villegas, Ruben; Babaeizadeh, Mohammad; Kindermans, Pieter-Jan; Moraldo, Hernan; Zhang, Han; Saffar, Mohammad Taghi; Castro, Santiago; Kunze, Julius; Erhan, Dumitru (29 de setembro de 2022). «Phenaki: Variable Length Video Generation from Open Domain Textual Descriptions» (em inglês). arXiv:2210.02399 [cs.CV]

[:12-112] Chang, Huiwen; Zhang, Han; Barber, Jarred; Maschinot, A. J.; Lezama, Jose; Jiang, Lu; Yang, Ming-Hsuan; Murphy, Kevin; Freeman, William T. (2 de janeiro de 2023). «Muse: Text-To-Image Generation via Masked Generative Transformers». arXiv:2301.00704 [cs.CV] Parâmetro desconhecido |link-autor7= ignorado (ajuda)

[113] Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (26 de fevereiro de 2021). «Zero-Shot Text-to-Image Generation». arXiv:2102.12092

[114] Yu, Jiahui; Xu, Yuanzhong; Koh, Jing Yu; Luong, Thang; Baid, Gunjan; Wang, Zirui; Vasudevan, Vijay; Ku, Alexander; Yang, Yinfei (21 de junho de 2022). «Scaling Autoregressive Models for Content-Rich Text-to-Image Generation». arXiv:2206.10789

[115] Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric (2023). «Precision information extraction for rare disease epidemiology at scale». Journal of Translational Medicine. 21 (1): 157. PMC 9972634. PMID 36855134. doi:10.1186/s12967-023-04011-y

[disaster-116] Maity, Abhishek (março de 2026). «CrisisSense: Transforming Social Signals into Real-Time Disaster Awareness via Deep Neural Intelligence». 2026 IEEE Madhya Pradesh Section Conference (MPCON): 1501–1506. doi:10.1109/MPCON69668.2026.11508516

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[nota 1]

[13]

[14]

[15]

[nota 2]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

Transformer (aprendizado profundo) 📖 Wikipedia

História

Antecessores

Atenção com seq2seq

Paralelizando a atenção

Era do boom da IA

Treinamento

Métodos para estabilizar o treinamento

Pré-treinamento e ajuste fino

Tarefas

Arquitetura

Tokenização

Embedding

Des-embedding

Codificação posicional

Codificador-decodificador (visão geral)

Rede feedforward

Atenção de produto escalar escalonado

Cabeça de atenção

Atenção multicabeça

Atenção mascarada

Codificador

Decodificador

Arquitetura completa do transformer

Subcamadas

Pseudocódigo

Terminologia

Trabalhos subsequentes

Funções de ativação alternativas

Normalizações alternativas

Codificações posicionais alternativas

RoPE

ALiBi

Codificações de Posição Relativa

Implementação eficiente

Cache de KV

FlashAttention

Atenção Multi-Query

Decodificação especulativa

Transformers subquadráticos

Grafos de atenção alternativos

Atenção de Recurso Aleatório

Multimodalidade

Aplicações

Notas

Referências

Leitura adicional

📚 Artikel Terkait di Wikipedia

Pré-treinamento contrastivo linguagem-imagem

Manuscrito em folha de palmeira

Reconhecimento de Objetos e Teoria dos Geons

Problema do desaparecimento do gradiente