DataLake
Índice
DataLake
Um Datalake é um repositório centralizado de dados brutos e não processados, geralmente em grande volume e de diferentes fontes. É projetado para armazenar grandes quantidades de dados em sua forma bruta, sem a necessidade de uma estrutura de dados predefinida ou esquema fixo, permitindo que as organizações armazenem e analisem dados de diferentes fontes em uma única plataforma.
O objetivo de um Datalake é permitir que as organizações processem, analisem e derive insights a partir de grandes conjuntos de dados sem ter que definir a estrutura de dados antecipadamente. Ele pode ser usado para uma ampla variedade de casos de uso, como análise de dados, inteligência artificial, aprendizado de máquina, ciência de dados, análise de marketing e muito mais.
ETL
Map Process
Map Reduce
Shuffle & Sort
Aggregation
Data Input Options
YARN
[Hadoop]
=Sqoop
Extair dados de banco relacional para DataLake
Hive
É um Data warehouse system for Hadoop, cria esquemas de tableas que apontam dados no Haddop.
Zeppelin
Ferramenta online para manipular dados com gráficos.
Spark
Para calculos rápidos em memória