Como o ELT otimiza custo e desempenho

Tradicionalmente, grandes organizações que tinham transações substanciais usavam ETL (extrair, transformar, carregar) para processar dados em seus sistemas para análise e geração de relatórios. Carregar os dados para um data warehouse em nuvem e data lake fornece escala, facilidade de acesso, baixos custos de armazenamento e eficiência operacional. Com o poder do armazenamento na nuvem e seus recursos de processamento, essa abordagem está lentamente dando lugar ao processamento dos dados após a ingestão e a replicação na nuvem. Os provedores de serviços em nuvem estão cobrando até mesmo pelo armazenamento e processamento separadamente, dando mais flexibilidade aos clientes. É por isso que muitos estão migrando para um ecossistema ELT (extrair, carregar, transformar) .

Por que ELT?

Embora existam muitos benefícios na implementação do ELT, acreditamos que os três abaixo fornecem o maior valor para as organizações:

  • Extraia todos os dados de qualquer fonte em escala e velocidade . Empresas maiores geralmente têm várias fontes de dados diferentes, como aplicativos, bancos de dados, arquivos, streaming, etc. Usar ELT significa que você pode ingerir e replicar dados de vários conjuntos de dados, independentemente da fonte ou se é estruturado ou não estruturado, relacionado ou não relacionado.
  • Transforme seus dados mais rapidamente aproveitando a computação em nuvem . O ELT não precisa esperar que os dados sejam transformados e carregados. O processo de transformação acontece onde os dados residem, para que você possa acessar seus dados em poucos segundos. Este é um grande benefício ao processar dados sensíveis ao tempo.
  • Economize tempo e dinheiro . O ELT reduz o tempo que os dados gastam em trânsito. Também não requer um sistema de dados provisório ou recursos remotos adicionais para transformar os dados fora da nuvem. Não há necessidade de mover dados para dentro e fora dos ecossistemas de nuvem para análise… o que significa custo de saída de dados zero. Ele também reduz seu TCO devido ao desempenho aprimorado.

Como a plataforma de gerenciamento de dados da Informatica ajuda a otimizar o ELT

O Intelligent Data Management Cloud ™ (IDMC) da Informatica, a plataforma de gerenciamento de dados de ponta a ponta aberta e com tecnologia de IA, oferece os principais recursos necessários para otimizar seus processos de ELT. Em particular, os recursos de ingestão em massa e pushdown ajudam você a executar com eficiência as etapas de extração, carregamento e transformação. Vamos nos aprofundar nesses recursos e em como eles agregam valor.

Etapa 1 e 2: extrair e carregar

Durante a etapa de extração do ELT, os dados são primeiro extraídos de uma ou mais fontes. Isso pode ser dados de IoT, dados de plataformas de mídia social, nuvem ou sistemas locais. Em seguida, na etapa de carregamento, esses dados são carregados em um data lake ou data warehouse. As etapas de extração e carregamento podem ser executadas com eficiência pelo Cloud Mass Ingestion (CMI) , um serviço do IDMC.

O CMI pode ingerir e replicar dados não estruturados, semi estruturados e estruturados em escala de vários bancos de dados, aplicativos, arquivos e fontes de dados de streaming para destinos de nuvem e sistemas de mensagens com latência muito baixa. Ele fornece uma abordagem sem código e orientada por assistente para ingestão e replicação de dados e os mantém sincronizados. Ele permite que usuários técnicos e não técnicos criem pipelines de dados em minutos. Equipado com uma interface de usuário unificada, o CMI vem com conectividade pronta para uso com centenas de fontes e destinos.

Altamente escalável, o serviço pode ser usado para ingerir terabytes de praticamente qualquer dado, de praticamente qualquer padrão e latência. Ele pode fazer isso em tempo real e em lote. Como esse serviço de ingestão em massa faz parte da plataforma IDMC mais ampla, ele vem com gerenciamento nativo de usuários, recursos de monitoramento e mecanismos de alerta.

Passo 3: Transforme

Durante a etapa de transformação do ELT, os dados são convertidos de seu formato de origem para o formato necessário para análise a ser consumido posteriormente para inteligência de negócios acionável . A otimização avançada de pushdown (APDO) , que é um recurso do serviço Cloud Data Integration da Informatica , pode ajudar na transformação. A otimização pushdown é uma técnica de ajuste de desempenho. A lógica de transformação é convertida em SQL e enviada para o banco de dados de origem ou banco de dados de destino, ou ambos.

O APDO permite dois tipos de otimização pushdown:

1- O pushdown do data warehouse usa consultas SQL para mover dados da área de preparação para o armazenamento de dados operacionais (ODS) e ODS para o data warehouse corporativo (EDW) dentro de um data warehouse.

2- O pushdown do ecossistema transfere dados do data lake na nuvem para o data warehouse usando comandos nativos do ecossistema.

Os benefícios de usar o APDO incluem:

  • Custo de saída de dados zero, pois os dados não saem de sua infraestrutura de nuvem subjacente
  • Mais rápido que o ETL tradicional
  • Ecossistema agnóstico, o que simplifica a mudança do fornecedor de data warehouse
  • Fácil alternância entre as opções de tempo de execução com um clique de um botão
  • Amplo suporte a conectores para todos os principais ecossistemas de nuvem
  • Nenhuma experiência de código é necessária

Casos comuns de uso de ELT

Agora vamos falar sobre dois casos de uso comuns e ver como o uso combinado de CMI e APDO pode otimizar seus processos de ELT.

Caso de uso nº 1: quando você armazena dados diretamente em um data warehouse na nuvem

Muitas organizações tendem a armazenar dados de várias fontes de dados locais e na nuvem diferentes em um data warehouse na nuvem. Esses dados são então transformados no data warehouse antes de serem consumidos para análises e iniciativas de inteligência de negócios.

Nesse cenário, o CMI da Informatica pode ser usado para ingerir ou replicar dados de vários streaming, aplicativos ou fontes de banco de dados relacionais na área de preparação de um data warehouse em nuvem como Snowflake, Google Big Query, Amazon Redshift, Azure Synapse ou Databricks. Em seguida, podemos aplicar o APDO para transformar esses dados de preparação em data warehouse por meio do pushdown do data warehouse.

Por meio dessa abordagem, os dados podem ser entregues ao data warehouse a partir de vários pontos finais em alta velocidade. Isso maximiza o valor de seus investimentos existentes no armazenamento de dados em nuvem usando o poder de processamento existente. Isso também remove quaisquer custos adicionais de transferência de dados.

Caso de uso nº 2: quando você armazena dados em um data lake na nuvem antes de movê-los para um data warehouse na nuvem

Como oferece armazenamento mais barato em escala e flexibilidade para armazenar dados não estruturados e semiestruturados (hierárquicos), ao contrário de um data warehouse, muitas organizações optam por armazenar dados de várias fontes de dados locais e na nuvem diferentes em um data lake na nuvem primeiro. Esses dados são então transformados antes de serem armazenados no data warehouse.

Nesse cenário, o CMI da Informatica pode ser usado para ingerir ou replicar dados de vários streaming, aplicativos ou fontes de banco de dados relacionais em um data lake na nuvem como Amazon S3, Azure Data Lake Storage ou Google Cloud Storage. Em seguida, podemos aplicar o APDO para transformar esses dados no ecossistema da nuvem antes de replicar os dados em um data warehouse por meio do pushdown do ecossistema.

Por meio dessa abordagem, os dados são entregues ao data lake a partir de vários pontos finais em alta velocidade. Você não paga nenhuma taxa de transferência de dados. Você também melhorou o desempenho, resultando em menos horas de computação. Isso significa economia de custos.



Créditos: Informatica.