Como selecionar as melhores features para seu modelo de Machine Learning

Um guia completo de pré-processamento de dados

Seja bem-vindo a mais uma newsletter do Data Hackers! Nessa semana nós iremos falar sobre algumas dicas para você melhorar a performance de seus modelos de Machine Learning utilizando duas técnicas muito importantes: feature selection e pré-processing.E mais: será que dá pra você morar em São Paulo? Qual a importância de interpretabilidade e explicabilidade para soluções de AI? E que tal aprender a fazer um mapa geológico de Marte? Isso e muito mais no Globo Reporter, que dizer, nessa newsletter.

Quando você está criando um modelo de Machine Learning, selecionar as melhores features para seu estimador pode ser uma tarefa difícil. Para te ajudar nessa etapa importante de seu treino, nosso co-fundador Paulo Vasconcellos criou esse tutorial, apresentando técnicas que vão desde uma análise de uma matriz de correlação até uso de testes estatísticos univariáveis. Vale a pena conferir. (em Português)

Pré-processar seus dados é tão importante quanto selecionar as melhores features de seu dataset, ou escolher o algoritmo de treino. O Caíque Coelho fez um guia completissímo sobre técnicas de pré-processamento para você guardar nos seus favoritos (ou no

, que eu altamente recomendo), com dicas como preencher dados nulos e normalização de dados. (em Português)

 

Sampa não é bem famosa por sua qualidade de vida barata, contudo, quão caro é viver em São Paulo? Através de uma análise utilizando dados de moradia e transporte, João Gabriel Zó mostra como é a realidade e quão difícil é conseguir coisas como morar perto do trabalho e/ou chegar rápido até o centro da cidade. (em Português)

Tá criando aquele DW bonito com Amazon Redshift e quer dicas sobre como deixar sua performance nas nuvens? O pessoal do Intermix reuniu algumas dicas sobre o fazer (e não fazer) para garantir uma melhor performance do seu cluster. (em Inglês)

A falta de confiança é ainda um dos maiores obstáculos para Inteligência Artificial ganhar mais adesão do mercado. Além de preocupações em relações a ética e moral aplicada por algoritmos, outros dois problemas que afloram em discussões são as dificuldades em interpretar e explicar a decisão de um algoritmo. Nesse post do KDnugget, Richard Gall explica a diferença entre os dois conceitos e salienta os desafios que soluções de AI tem a enfrentar para melhorar seus resultados. (em Inglês)

Big Data é (no mínimo) quatro problemasDica dada pelo Data Hacker Mario Filho no nosso Slack, essa palestra apresentada por Michael Stonebraker (Co-diretor do MIT) mostra alguns dos desafios que Big Data traz, que vão desde a necessidade de alta velocidade de entrega dos dados e até integração entre diferentes databases. Um conteúdo interessante para cientistas e engenheiros de dados (em Inglês, 55min)

VAGAS DA SEMANA

  • Python, R, ou Java

  • Spark

  • Machine Learning

  • Boa comunicação

  • Boas práticas de desenvolvimento de software

  • Machine Learning

  • Docker

  • Agile

  • Experiência com arquiteturas baseadas em eventos

Esse lindo mapa geológico de MarteNesse trabalho primoroso criado utilizando dados abertos de fontes como NASA e o Serviço Geológico dos Estados Unidos (USGS), Eleanor Lutz criou essa incrível visualização geológica da superfície de Marte. Além de ter utilizado Python e suas bibliotecas de visualização como Cartopy e Matplotlib, todo o código está disponível no Github para você testar. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

27 de junho de 2019

Rio de Janeiro/RJ - Gratuito

29 e 30 de junho de 2019

São Paulo/SP - R$854,00 em até 4x

O cupom DATAHACKERS garante um desconto exclusivo de 30%