Este curso responde à crescente necessidade das organizações em trabalharem grandes quantidades de dados, onde por vezes é necessário cruzar várias ferramentas e métodos para se conseguirem alcançar os resultados esperados.
Durante esta formação, iremos trabalhar com algumas das ferramentas mais relevantes e com maior potencial nesta área, tal como:
- Hadoop: plataforma de software Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas. Foi inspirado no MapReduce e no GoogleFS (GFS);
- Hive, Pig: Data Warehouse desenvolvido em cima do Apache Hadoop para consulta e análise de dados. Oferece uma interface semelhante ao SQL para consulta de dados em diferentes bancos de dados e sistemas de arquivos integrados do Hadoop;
- Impala: Mecanismo de consulta SQL de código aberto massivamente paralelo (MPP) para dados armazenados num cluster com Apache Hadoop;
- Flume, Sqoop: Software distribuído, e disponível para obter, agregar e mover grandes quantidades de dados de forma eficiente.