Newsletter

Vamos falar de Pipeline de Dados?  Entenda como ele é importante para o sucesso dos projetos de Data Science! 👷🔧

Enviado em: November 23, 2020
View this email in your browser

Vamos falar de Pipeline de Dados? 
Descubra como ele é importante para o sucesso dos projetos de Data Science


Fala Data Hackers! Prontos para começar mais uma semana cheia de dados?

O tema da newsletter de hoje é Pipeline de Dados. A verdade é que não importa se você se identifique mais com o papel de um Data Scientist, Data Analyst ou Data Engineer, em todos esses casos um Pipeline de Dados bem estruturado será um grande diferencial para o sucesso de seus projetos.

Pensando nisso decidimos reunir uma série de posts com orientações, dicas de ferramentas e um guia passo a passo para a implementação de um pipeline de dados, tudo isso para tentar mostrar algumas das possibilidades dessa área. Trouxemos também alguns conteúdos sobre estruturação de projetos de Machine Learning incluindo boas práticas para ser mais organizado e produtivo.

Prontos para começar?

Construindo um Pipeline de Dados na nuvem utilizando:
Apache NiFi + Apache Kafka + Amazon S3

O objetivo de hoje é entendermos de forma definitiva como funciona um Pipeline de Dados de ponta a ponta, e para começar que tal vermos na prática os passos para colocar tudo isso rodando?

Na última semana o Data Hacker Cícero de Moura compartilhou no Blog do Data Hackers um post onde ele explica como construiu um Pipeline de Dados do zero, utilizando Apache NiFi, Apache Kafka e Amazon S3.

Antes de ir para o post, é legal entender que o problema que o Cícero resolveu através de um Pipeline de Dados é comum na maioria das empresas, utilizar uma API para atualizar informações cadastrais de clientes (no caso o endereço) e deixar isso automatizado, de forma que os dados sejam constantemente atualizados. Além das dicas, ao final do post é disponibilizado todos os arquivos do projeto para você conseguir reproduzir no seu próprio ambiente. (em Português)

Supletivo Data Hackers: Apache NiFi


Talvez você ainda não conheça essa ferramenta, mas o Apache NiFi é um projeto open-source com o objetivo de automatizar fluxos de dados entre sistemas de forma escalável, segura e eficiente.

Nessa nova iniciativa os Data Hackers Rodrigo Teoria, Adamastor Talietta e Maikel Penz resolveram gravar um vídeo onde juntos explicam passo a passo a ferramenta e como utilizar no dia a dia. É um verdadeiro tutorial partindo do zero, gratuito e em português, além disso todo material para acompanhamento é disponibilizado.

Obs: Não podíamos deixar de compartilhar essa iniciativa incrível que surgiu na comunidade. Muito obrigado aos Data Hackers Rodrigo Teoria, Adamastor Talietta e Maikel Penz por toda a dedicação na execução dessa ideia. (em Português)
 

Sete princípios para pipelines de dados confiáveis


Um ponto muito importante quando estamos falando de Pipeline de Dados é o quão confiável é todo o processo. De nada adianta ter um Pipeline bem estruturado se ao final os dados não forem confiáveis.

Pensando nisso o Data Hacker Ricardo Pinto decidiu traduzir para a comunidade um dos melhores artigos da área, onde são apresentados os 7 passos necessários para garantir que um Pipeline de Dados seja confiável. (em Português)

Obs: A tradução foi autorizada pelos autores do artigo original
TÓPICOS AVANÇADOS
Flexibilidade em bancos NoSQL na prática
É difícil pensar em trabalhar com grandes volumes de dados sem pensar em bancos de dados NoSQL, mas você entende sobre como a flexibilidade desses bancos funciona na prática? Nesse post o Data Hacker Alexandre Neukirchen mostra passo a passo como configurar bancos NoSQL, as principais diferenças e da dicas de quando utilizar esse tipo de tecnologia. (em Português)

Um guia de Git para Cientistas e Analistas de Dados
Alguns profissionais de dados que não vem da área de tecnologia tem muita dificuldade para entender os conceitos por trás do controle de versão dos projetos. Pensando nisso, esse post trás um guia prático para o uso do Git em projetos de Data Science. (em Inglês)

Gerencie projetos de Machine Learning com MLflow
Você já conhece o MLflow? Essa plataforma para gerenciamento de projetos de ML de ponta a ponta está ganhando um destaque cada vez maior entre Cientistas de Dados e Engenheiros de Machine Learning, vale a pena conferir e entender melhor como ela funciona e quando utilizá-la em seus projetos. (em Inglês)

Um Pipeline de MLOps simples para você rodar em seu ambiente local
Quando pensamos em MLOps quase sempre vem a mente uma série de modelos de Machine Learning complexos em produção, mas e se você pudesse rodar todo um pipeline de MLOps em sua própria máquina  utilizando o ambiente local? Esse post mostra como fazer isso e dar os primeiros passos nessa área. (em Inglês)

Como escolher a melhor combinação de cores para sua visualização de dados?
Que tal falarmos um pouco de Data Visualization? Sabia que a combinação correta de cores pode aumentar e muito o interesse das pessoas pelas suas análises? E sabia que existem algumas técnicas para tornar essa escolha da combinação ideal algo mais fácil? Nesse post você encontra muitas dicas do assunto. (em Inglês)
VAGAS DA SEMANA
Data Analyst - Afya
São Paulo - SP
  • Conhecimentos em SQL e Excel;
  • Análise Estatística;
  • Conhecimentos de ferramentas de Visualização de Dados (PowerBI, Tableau, Metabase, Grafana ou Looker)
  • Python;
  • Conhecimento em cloud, especialmente serviços da Google Cloud ou AWS; 
  • Conhecimentos avançados no uso de SQL; 
  • Conhecimentos em ferramentas de ETL Open Source (Airflow, Streamsets, etc);
  • Familiaridade com modelagem de Data Warehousing (RabbitMQ, Kafka, Kinesis, Cloud Storage, AWS S3, BigQuery, Redshift);
Dica de Vídeo
People Analytics - A Ciencia de Dados do RH
Nessa live incrível a comunidade R-Ladies explica como funciona a área de People Analytics e como Data Science é aplicado no RH das empresas, o vídeo é uma verdadeira aula, vale muito a pena conferir! (em Português).
MEME DA SEMANA
Mais uma dica do Data Hacker Rodrigo Teoria direto do instagram @statsystem.
DATA VISUALIZATION DA SEMANA
Entenda o perfil dos vereadores eleitos em 2020
Na última semana as redes sociais foram tomadas por conteúdos relacionados com os resultados das eleições para prefeito e vereador no Brasil. Se por um lado comemoramos que grupos nunca antes representados conseguiram se eleger, e em alguns casos estar entre os mais bem votados, por outro lado fica sempre a dúvida de qual o impacto dessas mudanças de fato.

Nesta notícia cheia de visualizações de dados é possível entender, através dos dados do STE, como está sendo essa evolução e ver que ainda temos uma longa caminhada antes da real representatividade da sociedade nas urnas. (em Português)
PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

AWS re:Invent 2020
30 de Novembro a 18 de Dezembro de 2020 - Evento online gratuito
Facebook
Site
LinkedIn
Twitter
Medium
Copyright © *|CURRENT_YEAR|* datahackers.com.br.

Want to change how you receive these emails?
You can update your preferences or unsubscribe from this list.

©2018-2021 - Data Hackers, Todos os direitos reservados.

Site por Kaordica