Pesquisadores da Universidade Federal de Minas Gerais (UFMG) revelaram um banco de dados contendo mais de 2 bilhões de mensagens públicas do Discord, coletadas no período de 2015 a 2024.
Esse extenso conjunto de dados visa apoiar pesquisas em várias áreas, incluindo saúde mental, análise de discurso político, desinformação e o treinamento de chatbots.
Apesar de as informações serem anonimizadas, o projeto suscitou preocupações em relação à privacidade.
Uma gigantesca compilação de dados, com mais de 2 bilhões de mensagens de usuários do Discord, foi disponibilizada pela equipe da UFMG.
Esses dados, que foram extraídos de servidores definidos como públicos pela plataforma, cobrem quase uma década de interações online, de 2015 a 2024.
O estudo, publicado sob o título "Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024)" no repositório arXiv, tem como objetivo fornecer o "banco de dados mais abrangente do Discord" para dar suporte a pesquisas em diferentes campos.
Como foi feita a coleta dos dados? A equipe conseguiu reunir 2 bilhões de mensagens, trocadas por mais de 4 milhões de usuários.
O estudo incluiu o mapeamento de todos os 31.673 servidores públicos listados na aba “Discovery” do Discord até novembro de 2024, selecionando 10% para análise.
A coleta se deu por meio da API pública do Discord, e os dados foram disponibilizados em arquivos JSON, totalizando 118 GB comprimidos.
Questões de anonimato e privacidade foram levantadas.
Segundo o portal 404 Media, a divulgação do banco de dados levantou preocupações entre usuários e moderadores do Discord com relação à exposição de suas conversas, apesar da anonimização.
O Discord, popular entre gamers e comunidades de streamers, inclusive no Brasil, é visto por muitos como um espaço com maior privacidade se comparado a outras redes sociais como X/Twitter e fóruns como o Reddit.
A equipe da UFMG assegura que procedimentos éticos foram seguidos rigorosamente.
Antes da publicação dos dados, nomes foram substituídos por apelidos, identificadores de usuários e mensagens foram embaralhados, e quaisquer informações que pudessem revelar identidades foram removidas.
Além disso, enfatizam que todos os dados vieram de grupos publicamente classificados como tal nos termos de uso do Discord.
Contudo, usuários expressaram desconforto, lembrando que, apesar de servidores públicos estarem acessíveis, muitas conversas acontecem em um contexto que presume uma certa privacidade.
O 404 ressalta também que a coleta de dados pode contrariar os Termos de Serviço e a Política de Desenvolvedor da API do Discord.
A privacidade dos usuários do Discord tem sido um tópico controvertido, especialmente diante de preocupações com a moderação de conteúdo e atividades criminosas na plataforma.
Um acordo recente com o Ministério da Justiça e Segurança Pública visou capacitar profissionais para combater crimes virtuais no Discord.
Relatos de conteúdo criminoso no Discord saltaram 272% no primeiro trimestre de 2025, abrangendo crimes graves.
Em São Paulo, a plataforma está sendo investigada por sua associação com a violência digital.
Embora a pesquisa da UFMG tenha focado em canais públicos, casos reportados frequentemente ocorrem em espaços privados, fora do alcance do estudo.
ATUALIZAÇÃO
Discord se posiciona oficialmente:
Em comunicado enviado diretamente à equipe do CaveiraTech, o Discord expressou preocupação com a forma como os dados foram coletados, reforçando que a prática viola seus Termos de Serviço, mesmo que os servidores estivessem publicamente acessíveis.
Confira, a seguir, a íntegra do comunicado oficial enviado pelo Discord à equipe do CaveiraTech.
“A extração de dados de nossos serviços sem o nosso consentimento por escrito constitui uma violação dos nossos Termos de Serviço e Diretrizes da Comunidade. O Discord está investigando essa atividade com diligência e tomará as medidas cabíveis. Esse é um assunto sério e estamos comprometidos com a proteção da privacidade e dos dados dos nossos usuários.
Com base na nossa investigação inicial, identificamos que contas de usuários acessaram servidores do Discord que eram detectáveis e amplamente acessíveis e extraíram dados sem nossa permissão. Parece que os pesquisadores tomaram medidas para proteger as identidades das pessoas, mas isso ainda viola nossas políticas e estamos investigando completamente."
Além da declaração, a empresa também esclareceu alguns pontos importantes sobre sua posição atual em relação a pesquisas e acesso a dados na plataforma:
* O Discord não disponibiliza, no momento, ferramentas específicas para pesquisadores. As únicas fontes oficiais de informação pública são os relatórios de transparência, que estão sendo aprimorados continuamente.
* A empresa afirmou estar preocupada com os riscos de privacidade e segurança associados à liberação de dados, especialmente sem um processo de credenciamento robusto para pesquisadores.
* Por fim, o Discord reconheceu que ainda há muito trabalho a ser feito para que projetos de pesquisa sejam viáveis, escaláveis e seguros no ecossistema da plataforma.
Publicidade
Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...