Newsletter

Spark, Mapas e como não usar Random Forest

Enviado em: 2019 M05 20
View this email in your browser

Spark, Mapas e como não usar Random Forest

Seja muito bem-vindo a mais uma newsletter do Data Hackers! Essa semana nós iremos falar sobre como você pode evitar aprender Spark do jeito errado, como investigar modelos de Machine Learning e até entender como a Internet está perdendo a memória. Vamos lá?

As armadilhas dos cursos básicos de Spark

A medida que a adoção e demanda de tecnologias de computação distribuída como Spark aumenta, é normal que profissionais de dados comecem a se especializar nela. O problema é que, como em muitos outros cursos, alguns cursos e tutoriais introdutórios ensinam práticas não tão performáticas para entusiastas e profissionais da área.

Nesse post do LuizaLabs, Pedro Pichatelli lista e desmistifica alguns dos erros mais comuns encontrados. (Português)

Como não usar Random Forest
 

Random Forest geralmente é um dos métodos ensemble mais utilizados por praticantes de Machine Learning. Sua facilidade de uso e interpretabilidade geralmente chama a atenção de pessoas desavisadas dos perigos que esse algoritmo pode trazer.

Nesse post de Toma Gulea - Cientista de Dados no Airbnb -, ele lista alguns dos principais problemas e má-interpretações que Random Forests podem trazer, dentre elas, a inclinação a overfitting. (em Inglês) 

Nuvem de palavras: se não pode contra elas, vamos melhorá-las

Wordclouds e gráficos de pizza tem batalhado fortemente para se tornarem as piores formas de visualizações de dados do mundo.  Contudo, talvez nem tudo esteja perdido, pelo menos para as nuvenzinhas.

Nesse post de Marti Hearst - professor da UC Berkeley - ele mostra algumas técnicas que podem ser aplicadas às nuvens de palavras para deixá-las mais atrativas, como clusterização, subdivisões visuais, dentre outras. (em Inglês)
 
TÓPICOS AVANÇADOS
Quer dizer que você quer criar um mapa?
Visualizações de dados envolvendo mapas já são bem conhecidas pelo público. Além de atrativas, com cores saltadas e interatividade, mapas são uma excelente forma de contar histórias. Contudo, como muito bem salientado nesse post de Kenneth Field, um elemento muito importante é esquecido no momento de criar mapas: a cartografia. (em Inglês)


Quando a web perde sua memória

Não são só os seres humanos que sofrem de perda de memória, a Internet também. Sites como redes sociais que já morreram, sites que atualizam e removem informações ou serviços que simplesmente deixam de existir são apenas alguns exemplos sobre como nossos dados (blogs, vídeos, textos, músicas, arquivos) estão suscetíveis a irem para o limbo.

Nesta incrível reflexão feita por Elena Cresci, ela conta como algumas pessoas já foram atingidas por essa ameaça que está muito perto de acontecer para todos. (em Inglês)

Investigando modelos de Machine Learning com What-If Tool
Conheça a ferramenta do Google que te permitirá analisar facilmente modelos de Machine Learning sem a necessidade de criar código. Embora esteja disponível apenas para modelos que utilizem TensorFlow, vale muito a pena conferir essa ferramenta que lhe ajudará a entender como seu modelo toma decisões. (em Inglês)
DICA DE PALESTRA
Quando não usar redes neurais e o que fazer
Nessa palestra sensacional dada pela Dr. Rachael Tatman - Cientista de Dados no Kaggle - ela mostra como podemos fugir do hype que Deep Learning traz ao mercado. Tatman mostra que, mais importante que usar os algoritmos de estado-da-arte disponíveis por aí, devemos fazer uma reflexão sobre esforço, tempo e dinheiro aplicado a nossas soluções. (em Inglês)
VAGAS DA SEMANA
Cientista de dados - 99
São Paulo - SP
  • Ensino superior completo
  • Python ou R
  • SQL
  • Power BI ou Tableau
  • Spark
  • Experiência como líder
  • Estatística
  • Inglês
  • Ferramentas de Big Data (HIVE, Spark, Hadoop)
  • Ferramentas de BI (Power BI, Tableau)
DATA VISUALIZATION DA SEMANA
As cores da moda
O The Pudding realizou um estudo com capas de revistas da Vogue dos últimos 19 anos. Durante esse estudo, eles quiserem entender como é a representatividade de mulheres de todas as cores ao longo dos anos de uma das maiores revistas do mundo.  (em Inglês)
PRÓXIMOS EVENTOS E MEETUPS

Curso de Data Lakes utilizando Power BI e Dremio
29 - 30 de junho de 2019
WeWork Savassi - Belo Horizonte/MG

PAPIs 2019 - Real World ML Stories
24 - 26 de junho de 2019
São Paulo/SP - A partir de R$ 494
*Obs: Esse valor é com o link de 30% de desconto para os Data Hackers!

II Simpósio de Inteligência Artificial
30 de Junho de 2019
AUDITÓRIO CDI - USP - São Paulo/SP
Facebook
Site
LinkedIn
Twitter
Medium
Copyright © *|CURRENT_YEAR|* datahackers.com.br.

Want to change how you receive these emails?
You can update your preferences or unsubscribe from this list.