Introdução às Windows Functions no BigQuery

As Windows Functions (ou funções de janela) no BigQuery são uma poderosa ferramenta que permite realizar operações analíticas sobre um conjunto de linhas relacionadas, ou "janela", sem a necessidade de agregação. Essas funções são essenciais para realizar cálculos como médias móveis, classificações, somas acumuladas e comparações entre linhas vizinhas de uma tabela, tudo sem agrupar os dados.

O conceito de Windows Function é que, ao contrário das funções agregadas tradicionais (como `SUM()`, `AVG()`), que resumem os dados para um único valor por grupo, as funções de janela operam em uma "janela" de dados, mantendo o contexto de todas as linhas enquanto realizam os cálculos.

Essas funções são usadas em conjunto com a cláusula `OVER()` para definir o escopo da janela e podem ser combinadas com cláusulas como `PARTITION BY` e `ORDER BY` para segmentar e ordenar os dados da maneira desejada.

Exemplos de Uso de Windows Functions no BigQuery

Aqui estão alguns exemplos de como usar as funções de janela no BigQuery para realizar análises de dados:

1. Rankeamento de Linhas com `RANK()`

Uma das funções mais comuns de janela é o RANK(), que atribui uma classificação a cada linha dentro de uma partição de dados, baseada em um critério de ordenação.

 SELECT employee_id, department, salary, RANK() OVER (PARTITION BY department ORDER BY salary DESC) AS rank FROM `your_project.your_dataset.employees`

Esse exemplo atribui uma classificação (rank) aos funcionários dentro de cada departamento com base no seu salário, onde o funcionário com o maior salário em cada departamento receberá a classificação 1.

2. Soma Acumulada com `SUM()`

A função SUM() também pode ser usada como uma função de janela para calcular a soma acumulada dos valores em uma coluna ao longo de uma partição de dados.

 SELECT transaction_id, transaction_date, amount, SUM(amount) OVER (ORDER BY transaction_date) AS running_total FROM `your_project.your_dataset.transactions`

Esse exemplo calcula a soma acumulada dos valores de transações, ordenando por data, para gerar um total crescente de transações ao longo do tempo.

3. Média Móvel com `AVG()`

Você também pode usar a função AVG() em uma janela para calcular médias móveis, uma métrica útil para análises de séries temporais.

 SELECT transaction_date, amount, AVG(amount) OVER (ORDER BY transaction_date ROWS BETWEEN 2 PRECEDING AND CURRENT ROW) AS moving_average FROM `your_project.your_dataset.transactions`

Esse exemplo calcula a média móvel dos valores das transações, considerando os dois dias anteriores e o dia atual, para suavizar as flutuações diárias e detectar tendências.

4. Calculando a Diferença entre Linhas com `LEAD()` e `LAG()`

As funções LEAD() e LAG() permitem que você acesse os valores das linhas vizinhas, seja para frente ou para trás, respectivamente, dentro da mesma partição. Isso é útil para comparar valores em linhas consecutivas.

 SELECT transaction_id, transaction_date, amount, LAG(amount) OVER (ORDER BY transaction_date) AS previous_amount, LEAD(amount) OVER (ORDER BY transaction_date) AS next_amount FROM `your_project.your_dataset.transactions`

Neste exemplo, as funções LAG() e LEAD() são usadas para comparar o valor de uma transação com a transação anterior e a próxima, facilitando a análise das mudanças nos valores ao longo do tempo.

Considerações Finais

As Windows Functions no BigQuery oferecem uma maneira poderosa e flexível de realizar análises complexas sobre conjuntos de dados grandes e diversificados, sem a necessidade de agregar os dados em resultados finais. Elas permitem que você execute cálculos como rankings, somas acumuladas, médias móveis, e comparações entre linhas vizinhas, tudo sem perder o contexto dos dados.

Essas funções são extremamente úteis em cenários de análise de séries temporais, finanças, vendas e outros, onde as comparações e cálculos entre linhas consecutivas ou agrupadas são essenciais para a tomada de decisões.

Para mais informações sobre Windows Functions no BigQuery, consulte a documentação oficial do BigQuery.

Data Explorers

Pesquisar este blog