Newsletter

Data Lakehouse e as últimas tendências em Data Engineering 👷

Enviado em: September 8, 2021
View this email in your browser

Data Lakehouse e as últimas tendências em Data Engineering com o Grupo Boticário


Fala, Data Hacker! Seja bem-vindo de volta a sua newsletter preferida, essa semana a news chegou na quarta-feira, mas fique tranquilo que isso só ocorreu devido ao feriado!

O assunto principal de hoje é Data Engineering, mais especificamente Data Lakehouse, uma das tendências mais crescentes nessa área. Para entender mais sobre esse tema convidamos nossos parceiros do time de engenharia do Grupo Boticário para um episódio incrível do Data Hacker Podcast. O papo teve uma profundidade bem legal e contou em detalhes como a arquitetura do Grupo Boticário foi estruturada, passando por processos, gestão e tecnologia.

E mais na news de hoje: Como a Uber utiliza uma stack open-source para reduzir drasticamente os custos de processamentoum guia passo a passo para entrevistas na área de Data Science; um roadmap de Machine Learning ao MLOps, dicas de eventos, vagas de emprego e muito mais.

Pesquisa de feedback da newsletter do Data Hackers

Queremos criar uma newsletter cada vez melhor para você, e para isso, seu feedback é muito importante. Clique aqui e separe 2 minutinhos do seu dia para responder nossa pesquisa.

Construindo Data Lakehouse e muito mais, no Grupo Boticário — Data Hackers Podcast 44

O que é um Data Lakehouse? Parece mais uma nova modinha, mas não: é uma nova forma de se construir uma plataforma de dados que facilita e democratiza o acesso a informação.

Já conhecia esse conceito? Ficou curioso? Esse é o tema principal do mais recente episódio do Podcast do Data Hackers, e para esse papo convidamos algumas referências do time de Data Engineering do Grupo Boticário.

Trouxemos os mestres de Engenharia e Arquitetura de Dados para dar essa aula pra gente: Robson Mendonça (Gerente SR Engenharia de Dados), Edson Junior (Gerente de Engenharia de Dados)
Marcus Bittencourt (Gerente de Arquitetura e Plataforma de Dados).

Lembrando que você pode encontrar o podcast do Data Hackers no SpotifyiTunesGoogle PodcastCastbox e muitas outras plataformas, incluindo nosso site oficial. (em Português)

Como a Uber utiliza uma stack open-source para reduzir drasticamente os custos de processamento de dados


Com o crescimento da Uber os dados da plataforma passaram a crescer exponencialmente chegando a se tornar uma das maiores despesas operacionais da empresa.

Diante desse cenário a equipe de Data Engineering resolveu começar um complexo projeto de redução dos custos com base em sistemas open-source.

Nesse post você consegue entender os detalhes dessa iniciativa e encontrar oportunidades de desenvolvimento de uma plataforma com melhor custo-benefício. (em Inglês) 

Um guia passo a passo para entrevistas na área de Data Science [Old but Gold]


Esse post não é tão novo assim, mas é um daqueles conteúdos para ser guardado com chave de ouro pois trata-se de um guia passo a passo para entrevistas de emprego em Data Science.

No total são 121 recursos disponibilizados com o objetivo de te ajudar a encontrar o emprego dos sonhos na área de dados.

Entre os recursos tem vídeos, posts, questionários, exemplos de testes técnicos e até mesmo uma análise detalhada do processo seletivo de empresas que são referência na área de dados. (em Inglês)
OUTROS TÓPICOS
As principais funções do Pandas que todo profissional de dados deveria dominar
O Data Hacker Enzo Delcompare (sim, já temos Enzos virando Data Hackers) fez um post incrível destacando as principais funções do Pandas que todo profissional de dados deveria dominar. Além de explicar as funções, ele mostra em detalhes como e quando utilizar cada uma delas, ou seja é mais um daqueles posts imperdíveis. (em Português)

Como o AirBnB tem avançado na democratização e organização dos dados da plataforma
Um dos maiores desafios de empresas que escalam em um cenário de microsserviços é como garantir a qualidade dos dados e dar autonomia para as pessoas de diferentes áreas utilizar a informação no dia a dia, e no AirBnB não é diferente. Para contornar esses problemas eles combinaram processos e ferramentas e mostram alguns detalhes dessa evolução nesse post. (Obs: A maioria dos recursos criados pela área de dados do AirBnB são tecnologias open-source e estão disponíveis para você utilizar no dia a dia). (em Inglês)

Como resolver problemas de ML no mundo real?
Se tem uma dúvida que quase todas as pessoas que estão estudando tópicos relacionados a Machine Learning é "como resolver problemas do mundo real?", afinal o caso de estudo do Titanic é bem interessante mas o navio já afundou faz tempo... Esse post apresenta 4 passos que podem ajudar qualquer Cientista de Dados a sair da teoria e avançar em soluções práticas. (em Inglês)

Um roadmap de Machine Learning ao MLOps
Esse roadmap conta com os passos necessários para dominar os principais conceitos de MLOps. O artigo inclui dicas de conteúdos para estudar, vídeos, cursos e livros contemplando as principais tecnologias utilizadas na área. (em Inglês)
VAGAS DA SEMANA
Data Architect - Grupo Boticário
Curitiba - PR ou Remoto
  • Sólido conhecimento de engenharia de dados;
    Proficiência em linguagem SQL;
  • Sólido conhecimento de arquiteturas de big data, data warehousing, business intelligence;
  • Experiência com cloud computing, preferencialmente GCP;
  • Experiência em arquitetura e processos de cargas para DataLake;
  • Experiência em extrações de Dados via API ́s (Ex: Google, Facebook, Salesforce e etc);
  • Experiência com ferramentas de ETL, preferencialmente Data Fusion);
  • Sólido conhecimento em pipelines de ingestão de dados Streaming;
  • Conhecimento em pipelines de DataOps;
  • Forte skill de engenharia de dados e comunicação;
  • Proficiência em alguma linguagem de programação. Preferência por Python ou Java;
  • Proficiência em linguagem SQL;
  • Conhecimento em big data, data warehousing, business intelligence;
  • Experiência em arquitetura e processos de cargas para DataLake;
  • Experiência em extrações de Dados via API´s (Ex: Google, Facebook, Salesforce e etc);
  • Experiência com ferramentas de ETL (Ex. CDAP, SAP DS, Talend, Kettle, Microsoft SSIS);
  • Experiência com ferramentas de orquestração de fluxo de dados (Ex. Composer, Airflow, Luigi, Kubeflow e etc);
  • Experiência com cloud computing, preferencialmente GCP
  • Conhecimento em DataOps e esteiras de CI/CD;
DICA DE VÍDEO
50 anos de NLP no Brasil: O futuro do processamento de linguagem natural no Brasil

Nessa mesa redonda da USP São Carlos o tema central foi como a área de Processamento de Linguagem Natural surgiu no país e, especialmente, no ICMC, instituição considerada uma das pioneiras no ramo e um dos principais polos de pesquisas na área; como era trabalhar no segmento nos anos 90, década de seu surgimento; o que mudou ao longo dos anos; os novos desafios que surgiram; como a internet transformou a atuação de cientistas na área, etc. (Em Português)
MEME DA SEMANA
Procurando uma aplicação de K-Means no mundo real? Ops... tem algo errado aí...

Dica do Data Hacker Igor Fernandes no nosso Slack
DATA VISUALIZATION DA SEMANA
Como as pessoas estão usufruindo do tempo em casa durante o isolamento social?

É fato que a pandemia e isolamento social fez as pessoas passarem mais tempo em casa, mas você consegue imaginar quais as principais atividades feitas em casa e quanto tempo em média é gasto em cada uma delas?  (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]
3º R-Day UFPR
09 de Setembro- Evento Gratuito e 100% Online

CDP Brasil 2021: Estratégia de Dados para Marketing
14 de Setembro- Evento Gratuito e 100% Online

VHOL: Snowflake Data Cloud - Laboratório Prático
21 de Setembro- Evento Gratuito e 100% Online

II Workshop de IA da UFF
22 a 24 de Setembro- Evento Gratuito e 100% Online

DataOps Summit 2021
28 a 30 de Setembro - Evento Gratuito e 100% Online
Copyright © *|CURRENT_YEAR|* datahackers.com.br.

Want to change how you receive these emails?
You can update your preferences or unsubscribe from this list.
Facebook
Site
LinkedIn
Twitter
Medium