Newsletter

25 ferramentas de dados e o que elas NÃO fazem 🔧

Enviado em: 2020 M06 1
View this email in your browser

25 ferramentas de dados e o que elas NÃO fazem

Fala, Data Hacker! Seja bem-vindo a mais uma newsletter. Tava louco para chegar minha vez e compartilhar alguns conteúdos bem interessantes que li recentemente! E um dos que mais curti foi um post mostrando diferentes ferramentas de dados, mas ao invés de focar somente em seus benefícios, ele foca também no que elas não são boas.

E mais: como fazer um join de strings da forma correta; o novo paper da OpenAI e coisas que todo desenvolvedor deveria saber sobre bancos de dados.

25 ferramentas de dados e o que elas não fazem

Geralmente quando procuramos por ferramentas, focamos especificamente no que elas podem fazer, e isso é normal: queremos algo que resolva uma dor nossa. Contudo, é sempre bom saber o que ferramentas não conseguem fazer também, para justamente entendermos suas limitações.

Nesse post do Towards Data Science, Pete Soderling reuniu o resultado de uma conversa com empreendedores e mantenedores de ferramentas open-source e fez apenas duas perguntas para eles: "O que essa ferramenta faz?" e "O que ela não faz?".

Eu mesmo descobri algumas que não conhecia, e algumas das minhas favoritas foram o Dataform e o Tecton, sendo essa última criada pelo time responsável pelo Michelangelo, da Uber. (que, infelizmente, ainda está em early stage). (em Inglês)

 

Não use "+" para executar joins no Python


A primeira vista, utilizar sinal de adição para juntar strings no Python parece ser uma forma elegante de fazê-lo, certo? Afinal, é fácil de ler e não executa for loops. Nada poderia dar errado.

Nesse post de Christopher Tao, ele detalha como que utilizar funções como .join() é capaz de deixar o processo até 4x mais rápido. (em Inglês)
 

Como usar R e Tidyverse para analisar e visualizar dados


O Tidyverse é um dos conjuntos de pacotes mais famosos no R, tendo em seu inventário bibliotecas como ggplot2, readr e purrr. Um dos pontos legais do Tidyverse é que todos os seus pacotes são muito parecidos na forma de serem usados, utilizando design e API em comum.

Nesse post no nosso blog, a Data Hacker Gisele Brito mostra como é possível utilizá-lo para gerar visualizações interativas de dados de saúde. (em Português)
 
MAIS POSTS
Saiu o paper do GPT-3: novo state of the art para NLP
A OpenAI vira e mexe aparece aqui na newsletter com uma novidade que trazem para o mundo de AI. Essa semana, elas mostraram os avanços que tiveram ao lançar o GPT-3.

Basicamente, trata-se de uma AI que é capaz de resolver tarefas de NLP como Text Generation (Geração de Texto). Para você ter uma ideia, o GPT-3 possui 175 bilhões de parâmetros e é capaz de criar notícias muito bem. A título de comparação, o córtex cerebral de um gato tem "apenas" 20x mais sinapses que ele. Se quiser saber mais um pouco sobre esse modelo, se liga abaixo na nossa indicação de vídeo da semana. (em Inglês)

Uma comparação entre MLflow e Kubeflow usando... queijo?
Quando se fala em ferramentas inovadoras em trackear experimentos de Machine Learning e gerenciar o ciclo de vida de um modelo, não tem como pelo menos um desses caras não virem a mente: MLflow e Kubeflow.

A verdade é que são duas tecnologias poderosíssimas que recebem apoio de gigantes da tecnologia como Databricks  (MLflow) e Google (Kubeflow), mas que podem ser utilizadas em diferentes pontos da cadeia de valor de Machine Learning. Nesse post da Servian, Byron Allen utiliza uma divertida analogia para argumentar sobre qual o melhor momento para adotar a tecnologia. (em Inglês)

Coisas que eu queria que mais desenvolvedores soubessem sobre bancos de dados
Há desenvolvedores que são muito bons em databases, mas temos que convir que muitos fazem umas escolhas bem erradas as vezes - estou olhando pra você, MongoDB. A engenheira da Google, Jaana Dogan nos abençoa com os aprendizados que conquistou com os anos em sua carreira sobre o que ela acha que todo desenvolvedor deveria saber sobre bancos de dados. (em Inglês)
VAGAS DA SEMANA
  • Graduação completa
  • SQL
  • Bancos relacionais e NoSQL
  • Python ou Scala
  • Inglês
Data Scientist - Gupy
São Paulo - SP
  • Python ou R
  • SQL
  • Estatística
  • Testes unitários
DICA DE VÍDEO
Se você ainda não conhece, não pode deixar de seguir o canal do Yannic Kilcher no Youtube. Ele é um cara que pega papers das mais recentes descobertas da academia e explica de uma forma muito didática (e as vezes até analisa uns memes). Nesse vídeo, ele explica como funciona o GPT-3 da OpenAI, que mencionei ali em cima. (em Inglês)
DATA VISUALIZATION DA SEMANA
Um mapa que te ajuda a entender o risco de contaminação por COVID-19 no seu bairro
Faissal Nemer Hajar, estudante de medicina da Universidade Federal do Paraná, criou um mapa que ajuda a entender a probabilidade de contaminação no seu estado e bairro. O algoritmo usado foi validado pela Fiocruz e o Ministério da Saúde, e utiliza informações compartilhadas anonimamente por pessoas que vivem nesses locais. Trata-se de uma iniciativa colaborativa e está recebendo doações pelo PicPay para manter-se de pé. Confira e colabore com esse projeto incrível!  (em Português)
PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

#08 Criando um portfólio para Engenharia de Dados ao vivo - DataSprints
03 de Junho de 2020 - 19:00
Gratuito - 100% Online - Português

Webinar - Hermione: Framework para Ciência de Dados
03 de Junho de 2020 - 19:00
Gratuito - 100% Online - Português
Facebook
Site
LinkedIn
Twitter
Medium
Copyright © *|CURRENT_YEAR|* datahackers.com.br.

Want to change how you receive these emails?
You can update your preferences or unsubscribe from this list.

©2018-2020 - Data Hackers, Todos os direitos reservados.

Site por Kaordica