O pior vazamento de dados do Brasil

O que é Feature Store: a tendência para ML em 2021

Fala, Data Hacker! Seja bem-vindos a mais uma newsletter! Infelizmente, vazamentos de dados no Brasil tem se tornado algo comum, mas o que aconteceu essa semana pode ter sido o pior vazamento de dados de toda a história do país. Isso por que a base que sofreu vazamento foi, supostamente, a do Serasa, que contém dados de 220 milhões de brasileiros. São dados que vão desde seu score de crédito até sua foto de rosto; e pior, estão vendendo esses dados na Dark Web. Saiba mais na edição de hoje.E mais: Feature Store, a tendência para Machine Learning em 2021; como a Hotmart está democratizando dados; e uma lista do que há de melhor em Python para ML.

Essa edição é trazida a vocês pela

, empresa criada pelos ex-funcionários da Uber que criaram a plataforma Michelangelo.

A Tecton é uma das empresas que estão revolucionando Machine Learning ao oferecer uma solução robusta de Feature Store

. Saiba mais sobre a Tecton e Feature Store ainda nessa edição.

Quando treinamos modelos de Machine Learning, uma das partes que mais gastamos tempo é na limpeza de dados e na criação de features para o modelo. O problema fica maior quando precisamos de muito poder computacional para processar os dados ou quando queremos reutilizar nossas features em outros projetos.Mas, uma ferramenta tem surgido para lidar com esse problema: a Feature Store. Trata-se de uma arquitetura que possibilita descobrir, reutilizar e consumir features para modelos de ML, seja para treinos ou para consumo real-time, nos permitindo focar na parte mais divertida: experimentar e prototipar. O pessoal da Tecton fez esse post completíssimo ensinando não só tudo que você precisa saber sobre Feature Stores, mas também como você pode começar hoje utilizando as opções disponíveis. Clique aqui para conferir esse post incrível! (em Inglês)Caso queira ler esse post em Português, confira essa versão traduzida que o Data Hackers fez.

O pessoal do Tecnoblog descobriu essa semana que o vazamento de dados que expôs 220 milhões de brasileiro contém informações detalhadas de cada pessoa, como CPF, endereço, telefone, score de crédito e foto de rosto. Para piorar a situação, a base de dados está sendo vendida na internet, onde um valor é cobrado por CPF.

(em Português)

 

Sou suspeito de falar sobre a Hotmart, mas o trabalho que o time tem feito para democratizar dados para mais de mil pessoas tem sido impressionante. Em 2020, atingimos um novo patamar ao lançar o Hotmart Data Training: um programa de Data Literacy onde ensinamos desde Estatística básica até SQL.

. (em Português)

Todo ano o Kaggle lança um desafio de storytelling com base na sua pesquisa de mercado anual, onde a melhor história ganha uma grande premiação. E nesse ano o brasileiro André Sionek venceu em primeiro lugar, com uma solução incrível que mescla o melhor de visualização de dados com uma boa história. Confira! (Em Inglês)

O André Sionek já participou de um episódio no podcast do Data Hackers.

. (em Português)

O Data Hacker

trouxe esse post bem legal falando sobre Capsule Nets e como as famosas CNNs podem se beneficiar dessa arquitetura para tarefas específicas. (Em Português)

Que tal ter acesso a uma lista curada e ranqueada das melhores bibliotecas para Machine Learning feitas em Python?

, organizando as bibliotecas em tópicos que vão desde

até

. Confira! (Em Inglês)

O pessoal da BryteFlow reuniu algumas dicas sobre como você pode deixar suas queries do AWS Athena mais performáticas, com dicas que vão desde a estruturação da query até o particionamento dos seus dados. (Em Português)

VAGAS DA SEMANA

  • Ensino superior completo

  • Fluência em Python

  • Experiência com grandes volumes de dados

  • Experiência com Machine Learning

  • Inglês avançado

  • +4 de experiência em área relacionada a Data Science

  • Experiência com Pentaho

  • Experiência com Cloud (Azure, AWS, GCP)

  • Conhecimento em SQL

  • Conhecimento em uma linguagem de programação (Python, Java, Javascript)

  • Experiência com bancos de dados relacionais

Curso de Harvard para criar aplicações web com Python, HTML e Javascript (gratuito)Fiquei bem impressionado com esse curso que está sendo OFERECIDO DE GRAÇA no edX, não só pela universidade por trás dele, mas também pela qualidade das aulas, que são muito práticas e com excelente didática. De verdade, esse curso será uma das minhas primeiras indicações quando alguém me pedir recomendações. (Em Inglês, com legendas em Inglês)

Uma das aplicações mais divertidas das GANs é poder criar projetos como esse acima. O site mostra duas fotos e pede pra você identificar qual das duas é real. O site também disponibiliza o método utilizado no projeto, e caso queira conhecer outros projetos do mesmo tipo, existe o This X Does Not Exist, que reune aplicações de GANs que criam desde animes a pessoas (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

28 e 29 de Janeiro de 2021 -  Evento Pago e 100% Online

30 de Março a 01 de Abril de 2021 -  Evento Pago e 100% Online

17 a 19 de Agosto de 2021 -  Evento Pago e 100% Online