Índice

1 DataLake
2 Data Input Options

DataLake

Um Datalake é um repositório centralizado de dados brutos e não processados, geralmente em grande volume e de diferentes fontes. É projetado para armazenar grandes quantidades de dados em sua forma bruta, sem a necessidade de uma estrutura de dados predefinida ou esquema fixo, permitindo que as organizações armazenem e analisem dados de diferentes fontes em uma única plataforma.

O objetivo de um Datalake é permitir que as organizações processem, analisem e derive insights a partir de grandes conjuntos de dados sem ter que definir a estrutura de dados antecipadamente. Ele pode ser usado para uma ampla variedade de casos de uso, como análise de dados, inteligência artificial, aprendizado de máquina, ciência de dados, análise de marketing e muito mais.

Data Input Options

YARN

[Hadoop]

=Sqoop

Extair dados de banco relacional para DataLake

Hive

É um Data warehouse system for Hadoop, cria esquemas de tableas que apontam dados no Haddop.

Zeppelin

Ferramenta online para manipular dados com gráficos.

Spark

Para calculos rápidos em memória

DataLake

Índice

DataLake

ETL

Map Process

Map Reduce

Shuffle & Sort

Aggregation

Data Input Options

YARN

[Hadoop]

=Sqoop

Hive

Zeppelin

Spark

Menu de navegação

Ferramentas pessoais

Espaços nominais

Variantes

Visualizações

Mais

Pesquisa

Navegação

Ferramentas