Newsletter

Os melhores conteúdos de Data Quality & Governance dos últimos tempos!

Enviado em: August 23, 2021
View this email in your browser

Os melhores conteúdos de Data Quality & Governance dos últimos tempos!


Fala, Data Hackers! Tudo ok com vocês? E com os seus dados??

Um dos maiores desafios para especialistas em dados, dos Cientistas aos Engenheiros, é tratar Qualidade e Governança dos dados. Na maioria das vezes, há uma jornada grande e arduosa na organização de se construir - ou comprar - uma Data Platform, assunto que já trouxemos aqui outras vezes.

Essa news é um compilado das principais referências dos últimos dias sobre Metadata, Data Quality, Platform, Governance & Discovery.

Trouxemos aqui: Plataforma de dados do Hurb.com, 'O Muro' do Airbnb para Data Quality e o Open-Data Framework, iniciativa dos criadores do Databook no Uber. Bora lá?!

A Arquitetura da Plataforma de Dados do Hurb.com

Construir uma plataforma de dados para organizações são tarefas muito árduas, que pouca gente fez de ponta-a-ponta ainda. Referências nacionais ainda estão se construindo e escolher as ferramentas certas, pro time certo, sem perder muito tempo e dinheiro, é um BAITA desafio.

Nesse post sensacional, o Lucas Rolim, do Hurb, uma das maiores plataformas de turismo do br, conta em detalhes como construiram a Data Platform lá, passando por todos os temas importantes, como:

Data Pipelines - como usaram Airflow, Dataform e Dataflow da GCP para capturar e processar um volume imenso de dados;
Data Quality and Observability - como usaram o Great Expectations e Airflow pra garantir entrega de dados com qualidade;
Data Discovery and Serving Section - Usando Metabase e Amundsen, fizeram um ambiente friendly e performático para democratizar os dados

Imperdível para todo mundo que ta passando por essa jornada!! (em Inglês)

Open-Metadata Framework - um projeto para navegar no mar de dados atual


A mesma galera que trabalhou no Databook do Uber, uma das referências atuais de catálogo e discovery de dados, tá criando um baita projeto open-source, o Open Metadata! O projeto compila diversas boas práticas e padrões, como JSON Schema para entidades-padrão, uma API de comunicação com os MPPs mais comuns, como BigQuery, Snowflake e etc, além de um modelo para gravar os grafos das entidades em bancos SQL e NoSQL.

Todo Data Engineer ou Analytics Engineer deveria ficar de olho nessa iniciativa hein! (em Inglês) 

Detectando Fraudes em cartão de crédito com Machine Learning


No post mais intuitivo sobre o assunto em nosso blog, o Data Hacker João Gustavo fez um guia sobre como utilizar Machine Learning para detectar fraudes em dados de uso de cartão de crédito. Com uma linguagem simples, explicando passo a passo, o post é uma oportunidade boa para quem quer aprender mais sobre o assunto e nem entende tão bem sobre ML ainda.

João disponibilizou todo o código no Github, que você pode acessar por aqui. (em Inglês)
OUTROS TÓPICOS
8 coisas que você não sabia sobre o groupby do Pandas
Groupby é uma das primeiras operações que qualquer pessoa na área de dados aprende, normalmente no SQL. Mas essa operação também está presente no Pandas e dá pra fazer muuuita coisa com ela, de forma bem fácil. Dá uma lida nesse post do Gustavo Santos no nosso blog. (Em Português)

O Muro de Qualidade dos Dados do Airbnb
A maior referência atual de Data Discovery e Literacy do mundo é o Airbnb, sem dúvidas. Berço do Airflow, Superset, Data Portal e Data University, agora o pessoal lá escreveu sobre o "The Wall" deles: um framework que garante que os dados disponibilizados pra toda organização esteja com a maior confiança possível. Post imperdível! (em Inglês)

Preset, versão enterprise do Apache Superset, entra em General Availability
O Preset, versão enterprise gerenciada do Apache Superset, fundada pelo mestre Max Beauchemin, que também criou o Apache Airflow, tá entrando em General Availability! Entrando numa zona muito competitiva, com Power BI e Tableau dominando o mercado, Preset se posiciona como uma alternativa rica em visualizações, que atende muito bem analistas de dados avançados, com sua variedade de componentes visuais. (em Ingles)
VAGAS DA SEMANA
Data Engineer Pleno - DataSprints
Belo Horizonte/MG ou Remoto
  • Experiência com programação Python;
  • Experiência com BDs e SQL;
  • Experiência com Linux e Shell script; Cloud 
  • Git, IaC
  • Conhecimento teórico de conceitos de Data Lake e DW;
Data Engineer - OneFootball
Berlim - Alemanha
  • Desenvolvimento de Software
  • Boas práticas de gestão de dados e cloud
  • SQL e Python
  • Exp. com event collection (Segment, Snowplow, Rudderstack etc.) é diferencial
DICA DE VÍDEO
Supletivo DH - Apache Spark
Mais uma iniciativa da comunidade bombando: é o Supletivo DH, do canal #data-engineering do nosso Slack. Dessa vez, Rodrigo Teoria, juntou Leo Biscassi, Gabriel Ribeiro e Nicolas Vieira pra falar da ferramenta mais importante pra processamento de Big Data do mundo: o Apache Spark! São mais de 1 e meia de conteúdo de primeira, de grátis, pra você que quer entender mais sobre esse baita framework. (Em Português)
MEME DA SEMANA
Rapaz, se vcs soubessem o que rodam nos "canos" dos dados por aí... EU PEDIA ERA AJUDA 🙏 ! rsrsrs 
 
DATA VISUALIZATION DA SEMANA
Toda a biomassa do mundo em um gráfico

Se juntar todos os animas e as bactérias num tanque, ia ter muuuito mais dos serezinhos monocelulares do que nós! Nessa linda visualização, como sempre das feitas pelo Visual Catalyst, a galera mostra como a massa viva do mundo está distribuída, inclusive no reino animal. Muito interessante e divertido, olha aí!
(em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]
Let's Data Podcast - Com Allan Sene
24 de Agosto as 20:00 - Evento Gratuito e 100% Online

Live Demo - Denodo Data Platform
24 de Agosto - Evento Gratuito e 100% Online

DataOps Summit 2021
28 a 30 de Setembro - Evento Gratuito e 100% Online
Copyright © *|CURRENT_YEAR|* datahackers.com.br.

Want to change how you receive these emails?
You can update your preferences or unsubscribe from this list.
Facebook
Site
LinkedIn
Twitter
Medium