Newsletter

Mentiras e boas verdades sobre os dados 🙊🙈🙇

Enviado em: 2019 M07 8
View this email in your browser

Algumas mentiras e boas verdades sobre dados ðŸ˜ˆ


Na news de hoje, vamos falar de polêmicas! Você tá bem ligado nas conclusões que tira dos dados? E as ferramentas que tem adotado, não tá caindo no papo daquele amigo do hype não? hehe

E mais! Aprendendo engenharia de dados de graça, métodos de estimação e como construir pipelines com Apache Spark. Bora!?

Mentindo sem querer através dos dados

Mentir através de dados nem sempre é de caso pensado. Nesse post incrível Fernando Salhani, Data Scientist no GetNinjas, nos mostra o que é o p-hacking que é quando alguém apresenta análises que parecem estatisticamente significativas, mas, na real, não são! 

Fernando dá exemplos simples para ilustrar o p-hacking e compara com cenários reais, principalmente considerando Testes A/B, muito utilizados hoje em dia no meio online para validação de novas features em sistemas web.

Leia, aprenda e fique ligado, Data Hacker! (em Português)


Aprenda Engenharia de Dados sem gastar um tostão!


O Data Hacker Diogo Miyake fez um baita compilado de artigos, cursos e livros pra você que quer entrar de vez no mundo da Engenharia de Dados, porém não quer gastar rios de dinheiro.

Diogo traz não só artigos sobre o que é e o que faz um Engenheiro de Dados, mas também vários temas específicos, como o nosso amado Dremio, o MongoDB, SQL e Git! Se não (em Português) 

Você NÃO precisa do Kafka. Sério!


Nesse mesmo slot, na ultima news, colocamos uma série de posts sobre o Apache Kafka - ferramenta incrível de streaming. Mas... e se eu te disser que você não precisa dele?

Ah... o Over-Engineering... Em um post bem sarcástico, Vicki Boykis, Cientista de Dados na CapTech, conta do caso do WeWork, que diz usar Kafka para tratar os dados de IoT e como na maioria dos casos Kafka é uma bazuca pra se matar um mosquito. Imperdível! (em Inglês)
TÓPICOS AVANÇADOS
Aprenda o que são Métodos de Estimação

Você é daqueles, que nem eu, que sempre que houve "Máxima Verossimilhança" acha que estão falando de um filme de ação dos anos 90? Tá na hora de aprender! A Data Hacker Maria Helena escreveu um post no nosso blog explicando os métodos de estimação mais utilizados: o de Máxima Verossimilhança e o da Distribuição Normal. (em Português)

Carregando as mudanças online de seu DB no Data Lake na AWS

Uma das operações mais comuns nas arquiteturas atuais é ter a capacidade de capturar as mudanças no seu banco transacional e mandar para o Data Lake - o famoso CDC. Neste post, a AWS dá um guia simples e completo de como fazer tal operação usando as ferramentas AWS DMS e AWS Glue para jogar os dados no seu Lake no S3. (em Inglês)
DICA DE VIDEO
Construindo Pipelines com Apache Spark
Nessa palestra Fabiane Nardon, Chief Data Scientist na Tail Target, conta como construir pipelines de dados usando Apache Spark. Ela destaca coisas interessantes como que notebooks podem ser igualmente utilizados para exploração, experimentação e produção, não só para machine learning ou análise, mas também para ingestão no Data Lake. Sensacional! (em Português)
VAGAS DA SEMANA
  • Conhecimento avançado em SQL;
  • Administração de bancos MySQL ou PostgreSQL;
  • Programação de scripts (shell, Python, etc.);
  • Experiência em Linux;
  • Python avançado;
  • Sistema de Versionamento Git;
  • Desenvolvimento de Rotinas SQL;
  • Manipulação de arquivos csv, json, parquet;
  • Integrações via API.
DATA VISUALIZATION DA SEMANA
O caminho da reforma da previdência
Com esse caminho todo a se percorrer, a gente fica meio perdido, quando perguntado "A reforma sai ou não sai?!" né? O pessoal do Nexo fez um infográfico muito bacana, mostrando quais são os passos e números necessários para a aprovação da reforma. (em português)
PRÓXIMOS EVENTOS E MEETUPS

Meetup School of IA + AI Brasil
10 de julho de 2019
Campinas/SP - Gratuito

Meetup EBANX + Tableau | 10 tendências de BI para 2019
15 de julho de 2019
Curitiba/PR - Lista de Espera - Gratuito

Demystifying Data Science (evento online)
30 e 31 de julho de 2019
16 Talks + 6 Workshops - Gratuito

Data Science Summit
08 e  09 de outubro de 2019
Curitiba/PR - A partir de R$ 390
Facebook
Site
LinkedIn
Twitter
Medium
Copyright © *|CURRENT_YEAR|* datahackers.com.br.

Want to change how you receive these emails?
You can update your preferences or unsubscribe from this list.