Newsletter

Como selecionar as melhores features para seu modelo de Machine Learning

Enviado em: 2019 M06 24
View this email in your browser

Como deixar seus modelos de ML melhores

Seja bem-vindo a mais uma newsletter do Data Hackers! Nessa semana nós iremos falar sobre algumas dicas para você melhorar a performance de seus modelos de Machine Learning utilizando duas técnicas muito importantes: feature selection e pré-processing.

E mais: será que dá pra você morar em São Paulo? Qual a importância de interpretabilidade e explicabilidade para soluções de AI? E que tal aprender a fazer um mapa geológico de Marte? Isso e muito mais no Globo Reporter, que dizer, nessa newsletter.

Aprenda a selecionar as melhores features para seu modelo de Machine Learning

Quando você está criando um modelo de Machine Learning, selecionar as melhores features para seu estimador pode ser uma tarefa difícil. Para te ajudar nessa etapa importante de seu treino, nosso co-fundador Paulo Vasconcellos criou esse tutorial, apresentando técnicas que vão desde uma análise de uma matriz de correlação até uso de testes estatísticos univariáveis. Vale a pena conferir. (em Português)

Um guia completo de pré-processamento de dados
 

Pré-processar seus dados é tão importante quanto selecionar as melhores features de seu dataset, ou escolher o algoritmo de treino. O Caíque Coelho fez um guia completissímo sobre técnicas de pré-processamento para você guardar nos seus favoritos (ou no Pocket, que eu altamente recomendo), com dicas como preencher dados nulos e normalização de dados. (em Português) 

Você conseguiria morar em São Paulo?


Sampa não é bem famosa por sua qualidade de vida barata, contudo, quão caro é viver em São Paulo? Através de uma análise utilizando dados de moradia e transporte, João Gabriel Zó mostra como é a realidade e quão difícil é conseguir coisas como morar perto do trabalho e/ou chegar rápido até o centro da cidade. (em Português)
 
TÓPICOS AVANÇADOS
Como configurar o Amazon Redshift para ter mais performance
Tá criando aquele DW bonito com Amazon Redshift e quer dicas sobre como deixar sua performance nas nuvens? O pessoal do Intermix reuniu algumas dicas sobre o fazer (e não fazer) para garantir uma melhor performance do seu cluster. (em Inglês)


Porque Interpretabilidade e Explicabilidade são importantes para AI

A falta de confiança é ainda um dos maiores obstáculos para Inteligência Artificial ganhar mais adesão do mercado. Além de preocupações em relações a ética e moral aplicada por algoritmos, outros dois problemas que afloram em discussões são as dificuldades em interpretar e explicar a decisão de um algoritmo. Nesse post do KDnugget, Richard Gall explica a diferença entre os dois conceitos e salienta os desafios que soluções de AI tem a enfrentar para melhorar seus resultados. (em Inglês)
DICA DE PALESTRA
Big Data é (no mínimo) quatro problemas
Dica dada pelo Data Hacker Mario Filho no nosso Slack, essa palestra apresentada por Michael Stonebraker (Co-diretor do MIT) mostra alguns dos desafios que Big Data traz, que vão desde a necessidade de alta velocidade de entrega dos dados e até integração entre diferentes databases. Um conteúdo interessante para cientistas e engenheiros de dados (em Inglês, 55min)
VAGAS DA SEMANA
  • Python, R, ou Java
  • Spark
  • Machine Learning
  • Boa comunicação
  • Boas práticas de desenvolvimento de software
Data Scientist - Dell
Rio de Janeiro - RJ
  • Machine Learning
  • Docker
  • Agile
  • Experiência com arquiteturas baseadas em eventos
DATA VISUALIZATION DA SEMANA
Esse lindo mapa geológico de Marte
Nesse trabalho primoroso criado utilizando dados abertos de fontes como NASA e o Serviço Geológico dos Estados Unidos (USGS), Eleanor Lutz criou essa incrível visualização geológica da superfície de Marte. Além de ter utilizado Python e suas bibliotecas de visualização como Cartopy e Matplotlib, todo o código está disponível no Github para você testar. (em Inglês)
PRÓXIMOS EVENTOS E MEETUPS

Bluetalks@Rio
27 de junho de 2019
Rio de Janeiro/RJ - Gratuito

Data Storytelling com André Sionek
29 e 30 de junho de 2019
São Paulo/SP - R$854,00 em até 4x
O cupom DATAHACKERS garante um desconto exclusivo de 30%
Facebook
Site
LinkedIn
Twitter
Medium
Copyright © *|CURRENT_YEAR|* datahackers.com.br.

Want to change how you receive these emails?
You can update your preferences or unsubscribe from this list.