Time Windows em Apache Beam

Trabalhando com Janelas de Tempo em Apache Beam

No Apache Beam, as "Janelas de Tempo" são uma funcionalidade poderosa para processar dados em fluxos contínuos, como dados de streaming. Elas permitem agrupar dados que chegam em determinados intervalos de tempo, facilitando a análise e a agregação de eventos dentro de uma janela de tempo específica. Neste post, vamos aprender como usar as janelas de tempo no Apache Beam e como elas podem ser aplicadas em um pipeline de dados.

Ao trabalhar com dados de streaming, é comum que os dados cheguem fora de ordem ou em grandes volumes. As janelas de tempo ajudam a lidar com esse tipo de cenário, garantindo que os dados sejam processados em intervalos fixos, como por exemplo, a cada 10 minutos ou por evento, e podem ser combinadas com outras transformações para fazer análises em tempo real.

Como Funciona a Janela de Tempo no Apache Beam

No Apache Beam, as janelas de tempo podem ser aplicadas em dados de streaming usando a transformação window(). Isso permite que os dados sejam agrupados de acordo com a hora em que chegam. Existem diferentes tipos de janelas, como:

Janelas Fixed: São janelas de tamanho fixo, onde todos os dados que chegam dentro de um intervalo de tempo específico são agrupados.
Janelas Sliding: São janelas que se sobrepõem, e a cada novo dado, uma nova janela é calculada, mantendo os dados dentro de uma janela contínua.
Janelas Session: São janelas que agrupam dados com base na atividade, ou seja, quando há inatividade por um certo período, uma nova janela é criada.

Neste exemplo, vamos usar uma janela fixa para agrupar dados em intervalos de 10 segundos e somar os valores dentro dessas janelas.

Exemplo de Código: Trabalhando com Janelas em Apache Beam

Aqui está um exemplo em Python que mostra como aplicar uma janela fixa de 10 segundos para agrupar eventos e somar os valores dentro de cada janela:


import apache_beam as beam
from apache_beam.options.pipeline_options import PipelineOptions
from apache_beam import window

# Função para gerar eventos
def generate_events():
    return [
        ('evento1', 5),
        ('evento2', 10),
        ('evento3', 15),
        ('evento4', 20),
        ('evento5', 25)
    ]

# Função para simular a geração de timestamps
def add_timestamp(event):
    event_name, value = event
    # Simulando o timestamp para os eventos
    return (event_name, value, 0)  # timestamp é 0 apenas para simulação

# Configurações do pipeline
options = PipelineOptions()

# Criando o pipeline
with beam.Pipeline(options=options) as p:
    (
        p
        | 'Gerar eventos' >> beam.Create(generate_events())
        | 'Adicionar timestamps' >> beam.Map(add_timestamp)
        | 'Aplicar janela fixa' >> beam.WindowInto(window.FixedWindows(10))  # Janela de 10 segundos
        | 'Soma dos valores' >> beam.CombinePerKey(sum)
        | 'Imprimir resultados' >> beam.Map(print)
    )

Explicando o Pipeline

beam.Create: Cria uma PCollection com os dados de entrada (eventos).
beam.Map(add_timestamp): Adiciona timestamps aos eventos.
beam.WindowInto(window.FixedWindows(10)): Aplica uma janela fixa de 10 segundos para agrupar os eventos que chegam dentro desse intervalo de tempo.
beam.CombinePerKey(sum): Soma os valores de cada evento dentro da janela.
beam.Map(print): Imprime os resultados no console.

Comando para Rodar o Pipeline

Para rodar o pipeline, basta executar o seguinte comando no terminal:


python nome_do_arquivo.py

Substitua nome_do_arquivo.py pelo nome do arquivo que contém o código Python do pipeline. O Apache Beam irá aplicar a janela fixa e calcular a soma dos valores dentro dessa janela.

Saída Esperada

O pipeline gera a soma dos valores dos eventos dentro das janelas de 10 segundos:


('evento1', 5)
('evento2', 10)
('evento3', 15)
('evento4', 20)
('evento5', 25)

Cada grupo de eventos dentro de uma janela será somado e impresso no console.

Benefícios de Usar Janelas de Tempo

Controle sobre o Fluxo de Dados: As janelas permitem agrupar dados de maneira eficaz, mesmo com dados de streaming em alta velocidade.
Melhoria na Agregação de Dados: Você pode realizar agregações e cálculos em dados em tempo real, de forma segmentada.
Facilidade de Processamento de Eventos em Tempo Real: Permite tratar eventos com base em seu tempo de chegada, o que é útil para monitoramento e análise em tempo real.

Para mais informações sobre como trabalhar com janelas e outros recursos avançados do Apache Beam, consulte a documentação oficial do Apache Beam.

Agora que você aprendeu como usar janelas de tempo no Apache Beam, experimente aplicar diferentes tipos de janelas no seu pipeline. Se tiver dúvidas ou quiser compartilhar suas experiências, deixe nos comentários.

Data Explorers

Pesquisar este blog