DataLake

De BrapciWiki
Ir para navegação Ir para pesquisar

DataLake

Um Datalake é um repositório centralizado de dados brutos e não processados, geralmente em grande volume e de diferentes fontes. É projetado para armazenar grandes quantidades de dados em sua forma bruta, sem a necessidade de uma estrutura de dados predefinida ou esquema fixo, permitindo que as organizações armazenem e analisem dados de diferentes fontes em uma única plataforma.

O objetivo de um Datalake é permitir que as organizações processem, analisem e derive insights a partir de grandes conjuntos de dados sem ter que definir a estrutura de dados antecipadamente. Ele pode ser usado para uma ampla variedade de casos de uso, como análise de dados, inteligência artificial, aprendizado de máquina, ciência de dados, análise de marketing e muito mais.

ETL

Map Process

Map Reduce

Shuffle & Sort

Aggregation

Data Input Options

YARN

[Hadoop]

=Sqoop

Extair dados de banco relacional para DataLake

Hive

É um Data warehouse system for Hadoop, cria esquemas de tableas que apontam dados no Haddop.

Zeppelin

Ferramenta online para manipular dados com gráficos.

Spark

Para calculos rápidos em memória