O que é Self-Attention e Como Funciona nos Transformers

Self-Attention é um mecanismo central utilizado nos modelos de Transformers, como o BERT, GPT e T5, que revolucionaram a área de Processamento de Linguagem Natural (NLP) e outras tarefas de aprendizado profundo. Esse mecanismo permite que o modelo foque em diferentes partes de uma sequência de dados ao processar cada elemento da sequência, o que é crucial para capturar as relações entre palavras, mesmo quando estão distantes umas das outras.

No contexto de Transformers, o Self-Attention permite que o modelo "olhe" para todas as palavras em uma frase (ou sequências de dados) simultaneamente, ao invés de processar palavra por palavra como nas redes neurais recorrentes (RNNs) e LSTMs. Isso resulta em uma análise mais eficiente e paralelizada, o que torna o treinamento e a inferência muito mais rápidos e eficazes.

Como Funciona o Self-Attention?

Para entender o Self-Attention, é importante compreender como ele calcula as interações entre os elementos da sequência de entrada. O mecanismo de Self-Attention pode ser descrito em três passos principais:

1. Cálculo das Matrizes de Atenção

Primeiro, cada palavra ou token na sequência de entrada é transformada em três representações vetoriais: Query (Q), Key (K) e Value (V). Essas representações são calculadas através de multiplicação de matrizes a partir da entrada original. A ideia aqui é que cada token tenta "consultar" as informações de outros tokens na sequência para entender melhor o contexto.

Esses vetores são obtidos multiplicando a sequência de entrada por três matrizes de pesos aprendíveis (Q, K, e V) durante o treinamento. O Q (Query) busca informações, o K (Key) representa a informação de um token específico, e o V (Value) contém o valor que será usado caso o token em questão seja relevante para o contexto do Query.

2. Cálculo das Similaridades entre Queries e Keys

O próximo passo é calcular a similaridade entre as Queries e as Keys. Isso é feito através de um produto escalar entre os vetores Q e K. A fórmula para isso é:

 score = Q * K^T

O produto escalar resulta em um valor de similaridade que indica o quanto uma palavra (ou token) deve "prestar atenção" em outra palavra na sequência.

3. Aplicando Softmax e Peso das Values

Após calcular os scores de atenção, o próximo passo é aplicar a função softmax aos scores para normalizá-los e obter uma distribuição de probabilidades. A partir disso, as probabilidades são usadas para calcular uma média ponderada das Values correspondentes, resultando na saída da camada de Self-Attention. O valor final de cada palavra é uma combinação das informações de todas as palavras na sequência, ponderadas pela sua relevância (calculada pela similaridade entre Q e K).

O vetor resultante é uma representação da palavra considerando o contexto das outras palavras na sequência.

Exemplo Simplificado de Self-Attention

Considere a seguinte frase:

 "The cat sat on the mat."

Para calcular a atenção para a palavra "sat", o mecanismo de Self-Attention irá calcular a similaridade entre "sat" e todas as outras palavras na frase, como "the", "cat", "on", e "mat". Isso permite que o modelo compreenda melhor o contexto em que a palavra "sat" está sendo usada.

O modelo vai atribuir maior peso a palavras que são mais relevantes para "sat", como "cat" (associada ao verbo "sentar"), e menor peso a palavras como "the" (artigo) e "on" (preposição).

Vantagens do Self-Attention

Paralelização: Ao contrário de modelos baseados em RNNs, que processam uma palavra de cada vez em uma sequência, o Self-Attention permite que o modelo processe todos os tokens simultaneamente, o que acelera significativamente o treinamento.
Captura de Longo Alcance: O mecanismo pode capturar dependências de longo alcance de forma eficiente, pois cada token pode "olhar" para todos os outros tokens da sequência.
Flexibilidade: O mecanismo de Self-Attention pode ser aplicado em diferentes domínios além de NLP, como visão computacional, áudio e outros tipos de dados sequenciais.

Transformers e Self-Attention

O Self-Attention é o principal componente dos modelos Transformer. O Transformer usa várias camadas de Self-Attention, permitindo que o modelo refine continuamente sua compreensão do contexto de cada palavra ou token. Além disso, o Transformer utiliza um mecanismo de Multi-Head Attention, onde múltiplas cabeças de atenção operam em paralelo, permitindo que o modelo aprenda diferentes representações de cada palavra em diferentes subespaços de atenção.

Com a combinação de camadas de Self-Attention e mecanismos adicionais como Feed Forward Networks e Camadas de Normalização, os Transformers oferecem um modelo altamente eficaz para tarefas de NLP, incluindo tradução, resumo de textos, e modelos de linguagem generativos como o GPT e BERT.

Conclusão

O Self-Attention é um dos principais motores por trás do sucesso dos Transformers, permitindo que esses modelos capturem relações complexas em sequências de dados de forma paralela e eficiente. Isso faz com que os Transformers sejam altamente eficazes em tarefas de Processamento de Linguagem Natural, além de outras áreas, como visão computacional e áudio.

Se você deseja aprender mais sobre o funcionamento do Self-Attention e como ele é usado em Transformers, consulte os seguintes links:

Attention Is All You Need (Artigo Original)

Data Explorers

Pesquisar este blog