Dicas do NICAR 2018 - As máquinas que fazem jornalismo e anti-jornalismo

O coordenador de cursos e projetos da Abraji, Tiago Mali, participou, no começo de março, da edição de 2018 do NICAR, principal evento de jornalismo de dados do mundo. Organizado pelo IRE (Investigative Reporters and Editors) – entidade que inspirou a criação da Abraji –, o evento ocorreu em Chicago entre 8 e 11 de março.

Tal como em 2017, Mali reuniu o que viu de melhor em dois e-mails enviados para a lista de associados da Abraji. O conteúdo é dividido em 5 tópicos: reportagens; os seres humanos por trás dos dados; as máquinas que fazem jornalismo e anti-jornalismo; workshops; e ferramentas.

Abaixo, uma adaptação do texto do coordenador da Abraji sobre as máquinas no jornalismo.

As máquinas que fazem jornalismo e anti-jornalismo

O machine learning, técnica que usa uma espécie de inteligência artificial para fazer computadores detectarem e reproduzirem padrões, tem começado a entrar no jornalismo. Há uma série de utilidades que vão desde softwares para transcrever entrevistas automaticamente, notícias que são geradas automaticamente e scripts para fazer classificação de informações.

Já no Congresso do IRE do ano passado, a técnica começava aparecer em reportagens como Doctors & Sex Abuse, em que ajudou a reportagem a percorrer milhares de PDFs em busca de documentos que narravam casos de abusos sexuais de médicos. Neste ano apareceram ainda mais exemplos de uso da técnica na apuração, na vanguarda das práticas atuais de jornalismo de dados.

Um dos casos foi a descoberta, pelo Los Angeles Times, de que o departamento de Polícia estava classificando erroneamente pelo menos 14 mil registros de crime nos últimos 8 anos, baixando artificialmente as estatísticas de crimes violentos. A equipe do Times alimentou um algoritmo com uma base de dados de um projeto anterior dos próprios repórteres, em que eles haviam classificado os crimes entre violentos e não violentos. O algoritmo aprendeu a identificar palavras chaves dentro da descrição do registro do crime que se relacionavam à classificação deles como “violentos”. Depois disso, eles aplicaram o script à base de dados com 8 anos de crimes. Segundo Mali, o chefe da polícia não só admitiu a “imprecisão” como determinou uma auditoria na classificação e está treinando novamente os policiais responsáveis pelo processo.

Outra história que ganhou notoriedade por usar esse tipo de técnica foi a série de reportagens do BuzzFeed News que revelou o uso de drones espiões dos Estados Unidos sobrevoando áreas sob o comando de chefões do tráfico no México ou da presença de aviões militares usados para identificar terroristas sobrevoando áreas em Phoenix. Nenhuma fonte vazou os dados para eles. O que a reportagem fez foi criar um algoritmo que detecta padrões associados ao voo de drones e o aplicou aos dados do site flightradar24. Neste texto, Peter Aldhous, veterano do jornalismo de dados, descreve o processo de coleta e classificação de dados.

Um último exemplo de uso de machine learning em reportagens foi a criação do algoritmo Who the Hill. O programa ajuda repórteres na tarefa de identificar o rosto de congressistas americanos. Basta tirar uma foto do político em questão com o celular e enviá-la por mensagem para o número do Who the Hill, que responde na hora com a identificação do parlamentar.

Segundo o coordenador de cursos da Abraji, apesar das utilizações positivas, a relação entre machine learning e jornalismo também tem seu lado “assustador”. Durante uma sessão do NICAR, o pesquisador Ben Zhao, da Universidade de Chicago, mostrou como a tecnologia já confunde o conceito de autoria e de conteúdo real. Em pesquisas recentes, ele demonstrou como gerar automaticamente avaliações de produtos na Amazon que são impossíveis de discernir de comentários humanos.

Outra possibilidade negativas do machine learning são os deep fakes – vídeos que substituem o rosto e a fala das pessoas com material falso, como neste vídeo do Obama dizendo coisas que na vida real ele não disse. Há mais informações sobre o assunto nesta reportagem.

Segundo Zhao, com a evolução da tecnologia de redes neurais para identificar padrões de voz e movimento, esse tipo de conteúdo falso tende a ser cada vez mais fácil de produzir e cada vez mais bem-sucedido na tarefa de enganar as pessoas. No limite, diz, mesmo máquinas treinadas para identificar a geração sintética de vídeos desse tipo não conseguirão discernir o que é falso do que é real.

Isso serve para post de Facebook, Twitter, blogs, sites de fake news e todo o tipo de conteúdo de texto, documentos oficiais, áudio e vídeo. Ele cita um caso recente de bots inundando o sistema de comentários do FCC com posts contra neutralidade da rede muito difíceis de detectar. Já há tecnologia, diz o cientista, para criar esse tipo de conteúdo falso de maneira automatizada e espalhá-lo por aí, tornando muito difícil de identificar se a pessoa realmente disse isso, se o conteúdo do documento vazado é mesmo aquele ou se a tabela de dados não está manipulada.

Segundo Mali, “ao fim do ‘painel Black-Mirror’”, os moderadores tentaram fazer Zhao mostrar o que é possível atualmente fazer para identificar e parar a onda de conteúdo falso. Para o especialista, no entanto, “há provavelmente muito pouco que possamos fazer. Devemos nos preparar para a invasão de conteúdo sintético na rede confiando cada vez menos nos nossos sentidos. Mas haverá em breve casos impossíveis de identificar”.

Notas

Tiago Mali, coordenador de cursos da Abraji, viajou à Florida para participar do Nicar em março de 2018. Todas as suas despesas foram cobertas com recursos da própria Abraji.