Newsletter

O cartel de datasets que está dominando Machine Learning

Enviado em: January 10, 2022
View this email in your browser

Cartel de datasets? Conte-me mais.


Fala, Data Hackers, sejam bem-vindos a mais um ano de Data Hackers! Esperamos que você tenha um 2022 melhor que 2021 e, como sempre, conte com a comunidade nesse período. E já começamos nosso ano com assuntos polêmicos, trazendo como destaque um estudo feito pelo Google Research e a University of California que mostra como um pequeno número de datasets está dominando o setor de AI. Além disso, um rápido follow-up para os ganhadores dos adesivos, nossa próxima live, e muito mais conteúdos, como:

Recado Importante: adesivos e próximo sorteio!

Pessoal, essa semana nós recebemos nossos lotes de adesivos e nos próximos dias estaremos enviando para os ganhadores do sorteio. Tivemos um pequeno atraso no recebimento do fornecedor, mas agora eles já estão com a gente (detalhe: eles são lindos).

Na próxima newsletter vamos anunciar a data da nossa próxima live, onde faremos mais um sorteio. Que assunto deveríamos conversar na live? Responda esse email com sua sugestão!

Foto dos adesivos:

Um cartel de datasets está dominando a pesquisa em Machine Learning, segundo estudo do Google

Um paper lançado pelo Google Research e a University of California mostrou que um pequeno número de datasets usado como benchmarking está dominando de forma crescente o setor de AI. Essas organizações geralmente são instituições do ocidente, e há motivos para preocupações éticas, práticas e até políticas em utilizar tais datasets como opção padrão ou única em estudos. (em Inglês)

O panorama de AI, Machine Learning e Dados em 2021

2021 acabou, mas vale muito a pena a gente saber quais foram as ferramentas e plataformas mais utilizadas nesse ano que passou, afinal, muitas dessas ferramentas irão evoluir e se consolidar no mercado. Esse post de Matt Turck (que se tornou tradição ao longo dos anos) traz uma visão completa sobre esse panorama. (em Inglês) 

Pandora Papers: como jornalistas mineraram terabytes de dados para expor a elite

Lembra do Pandora Papers? Foi um trabalho de esforço hercúleo entre mais de 600 jornalistas que expôs negócios secretos de elites e lideres mundiais. Foram mais de 11 milhões de documentos vazados em quase 3 terabytes de dados. Você consegue imaginar como foi analisar e tratar essa quantidade imensa de dados? Esse post do Computer Weekly mostra mais sobre os métodos e tecnologias usadas por eles.  (em Inglês)
OUTROS TÓPICOS
OpenAI começa a permitir que clientes customizem o GPT-3
Recentemente a OpenAI liberou o acesso ao GPT-3 sem entrar em uma lista de espera. Pra quem nunca ouviu falar, o GPT-3 trata-se de um modelo de linguagem capaz de gerar textos com alta precisão e coerência. Uma das últimas novidades do serviço é que agora os clientes poderão criar customizações do GPT-3 baseadas nas suas necessidades. O que achou da novidade? (em Português)

Matriz de confusão: o que é? De onde vem? O que comem?
O pessoal do Let's Data criou esse post bem legal explicando sobre o que é uma matriz de confusão: uma das tabelas mais usadas para avaliar o resultado de modelos de Machine Learning. Eles também fizeram um vídeo explicando esse conteúdo, que você pode conferir aqui. (em Português)

Conheça o projeto de lei que visa regulamentar AI no Brasil
Um novo projeto de lei para regulamentar Inteligência Artificial foi aprovado na Câmara dos Deputados e aguarda apreciação do Senado Federal. Especialistas, porém, não gostaram do pouco tempo para discussões até agora. Além disso, eles dizem que a legislação não é suficientemente profunda e esperam que a outra casa do Poder Legislativo melhore essas questões. (Em Português)
VAGAS DA SEMANA
  • Python
  • Git
  • SQL
  • ETL
  • Boa comunicação
 
  • 5+ anos de exp.
  • EXP criando modelos de ML
  • EXP em gestão de time
  • Familiaridade com Estatística
  • Boa comunicação
DICA DE VÍDEO
A ciência e alquimia de Machine Learning em jogos

Quem me conhece sabe o quanto eu adoro jogos e sempre que tenho a chance de ligar eles com dados eu compartilho aqui no DH. Dessa vez eu trouxe uma palestra do Yves Jacquier explicando a estratégia da Ubisoft em integrar Machine Learning em jogos como Assassin's Creed Odyssey, Rainbow Six: Siege. (em Inglês)
MEME DA SEMANA
Dica do Data Hacker Armando Barbosa no nosso Slack.
DATA VISUALIZATION DA SEMANA
O que especialistas estão prevendo para 2022?

O que especialistas estão prevendo para 2022 em questões como economia e tecnologia? Esse trabalho incrível do Visual Capitalist explica algumas dessas previsões. Confira! (em Inglês)
 (P.S.: podemos oficializar esse tipo de gráfico como heatmap de bingo?)

Copyright © *|CURRENT_YEAR|* datahackers.com.br.

Want to change how you receive these emails?
You can update your preferences or unsubscribe from this list.
Facebook
Site
LinkedIn
Twitter
Medium