Apple

Comment Quartz a utilisé AI pour aider les journalistes à fouiller les fuites à Maurice – Quartz

Par Maximus , le 23 juillet 2019 - 11 minutes de lecture

Plus tôt cette année, un lanceur d’alerte a secrètement divulgué des documents d’un cabinet d’avocats mauricien à un groupe de journalistes d’investigation. Les documents offrent un rare aperçu de la façon dont les multinationales évitent de payer des impôts lorsqu'elles exercent des activités en Afrique, au Moyen-Orient et en Asie. Mais avec 200 000 documents, quelques centaines de pages, le gouffre était trop vaste pour que les journalistes puissent simplement s'asseoir et lire par eux-mêmes.

Entrez l'intelligence artificielle. Pour aider les journalistes travaillant sur le projet, Quartz a élaboré un modèle d’apprentissage automatique qui identifie des documents similaires dans un ensemble. Par exemple, lorsque les journalistes trouvent un formulaire d’entreprise ou une déclaration d’impôt particulièrement utile, le modèle peut les aider à en trouver un autre. Soudain, la vaste gamme de documents était beaucoup plus gérable, et les journalistes ont pu terminer leurs reportages et publier leurs conclusions avec des dizaines d’agences de presse à compter d’aujourd’hui.

Marwen Ben Mustapha / Inkyfada / ICIJ

Le projet, surnommé les Mauritius Leaks, impliquait 54 journalistes du monde entier se coordonnant secrètement en ligne pendant plusieurs mois dans un espace de travail crypté créé par le Consortium international des journalistes d'investigation (ICIJ), qui avait reçu la fuite originale. Le travail le plus important a été réalisé par des journalistes humains qui ont compris les documents et mis en évidence l'ampleur de l'évasion fiscale des entreprises, parmi lesquels nos collègues Max de Haldevang, Justin Rohrlich et Abdi Latif Dahir.

Notre AI a contribué à l'enquête en appliquant le jugement humain du journaliste en identifiant un type de document particulier, tel qu'une déclaration de revenus ou un plan d'entreprise, sur l'ensemble du document. Bien que l'intelligence artificielle ne fasse rien qu'un humain ne puisse pas faire (après tout, les journalistes avertis savent à quoi ressemble une déclaration de revenus), il a fait le travail beaucoup plus rapidement, en libérant les humains pour d'autres tâches.

"Donc, si utile", a déclaré Will Fitzgibbon, reporter à l'ICIJ, après que le modèle de Quartz eut découvert plusieurs états financiers. «Je n’en avais pas vu, en grande partie parce qu’ils sont cachés, dans des fichiers PDF groupés, ce qui signifie que vous devez faire défiler tout le document pour le trouver.»

Ce nouveau modèle de journalisme d'investigation assisté par l'IA est au cœur du studio Quartz AI, qui poursuit plusieurs projets de ce type cette année avec le soutien d'une subvention de la Knight Foundation. Alors que la plupart des investissements dans l'IA pour les médias et les autres industries ont été concentrés sur l'automatisation à grande échelle, nous avons découvert le potentiel pour appliquer la même technologie à une recherche plus poussée sur mesure en coordination étroite avec les humains.

Mauritius Leaks a été l’occasion d’appliquer cette idée à un projet d’enquête complexe comportant des défis uniques.

Fitzgibbon a mené l'enquête pour l'ICIJ et avait identifié quelques types de documents intéressants, notamment des états financiers, des plans d'entreprise et un type de déclaration de revenus particulier appelé déclaration de revenus CTX. Il voulait que nous trouvions comment trouver plus d'eux.

Les documents portant l’indication «2015 Financial Statements.pdf» dans le nom de fichier ou «Notes aux états financiers» dans les premiers paragraphes ne sont pas en cause; les outils de recherche ordinaires peuvent trouver ceux-ci. Toutefois, les mots peuvent être mutilés lorsqu'un document a été imprimé, numérisé et lu sur un ordinateur doté d'un logiciel de reconnaissance optique des caractères. Dans un cas, nous avons vu la phrase «Retour CTX» devenir «Retour C’I’X», avec des apostrophes autour d’un I au lieu d’un T, qu’une recherche régulière manquerait.

Une recherche ordinaire peut également passer à côté de légères variations de phrasé, particulièrement dans les documents moins structurés tels que les plans d’entreprise, qui sont utiles aux journalistes car ils décrivent ce que fait une entreprise et pourquoi elle a choisi de s’intégrer à Maurice.

Comment nous l'avons fait

En gros, nous avons construit un modèle qui, à partir d’un document intéressant, nous permet de trouver des documents similaires.

Que veut dire «semblable»? Bonne question.

Une option serait de former des modèles pour identifier la différence entre «déclarations fiscales» et «déclarations non fiscales». Cet apprentissage est appelé «apprentissage supervisé», car les êtres humains doivent classer la formation comme l'une ou l'autre pour commencer.

L’autre option, que nous avons choisie, est de former un modèle qui consiste essentiellement à empreintes digitales de chaque document, ce qui nous permet de trouver des groupes d’empreintes digitales similaires. Nous avons utilisé doc2vec, méthode d’apprentissage automatique «non supervisée», car elle apprend des choses utiles sur les documents simplement en «lisant» tous les documents. Doc2vec est une extension de l'algorithme word2vec, plus connu, qui – à l'aide de mathématiques complexes – mappe des mots dans un espace de 100 dimensions où des mots similaires sont proches et les relations entre les mots sont représentées spatialement. Doc2vec mappe les documents dans ce même espace, ainsi des documents similaires sont proches les uns des autres. En alimentant le modèle avec quelques centaines de milliers de documents, il a construit une carte «mentale» de tous les documents de la fuite de Maurice.

La formation du modèle a pris environ 13 heures sur mon Macbook Pro.

Pour utiliser réellement le modèle, nous lui avons ensuite alimenté une série de déclarations CTX de manière à ce que, métaphoriquement, le modèle «pondère» ces documents et trouve leurs points communs. Si nous n’avions alimenté le modèle qu’avec une seule déclaration CTX provenant, par exemple, de la société de logiciels Esri (qui figure dans les documents divulgués), le modèle considérerait comme «similaires» les autres documents Esri qui n’étaient pas des déclarations CTX. Ce n’est pas ce que nous voulions.

Une fois le modèle terminé, j'ai parcouru les noms de fichiers des documents trouvés. Nombreux étaient les plans commerciaux «Business Plan» dans le nom du fichier, mais le modèle qui brillait consistait à trouver des plans commerciaux portant des noms de fichiers tels que «BPlan» ou «BP».

Nous avons ensuite posté une liste de ces documents dans l'espace de travail partagé utilisé par les journalistes, ainsi que des liens internes vers les documents eux-mêmes.

Comment nous avons mesuré le succès

Les premiers résultats semblaient excellents. Sur un «ensemble de départ» de 14 déclarations CTX, le modèle m'a fourni 300 documents, dont beaucoup étaient des déclarations CTX que je n'avais pas encore vues.

Mais Comment les résultats ont-ils été formidables?

Nous ne pouvions pas utiliser les méthodes traditionnelles de mesure du succès. Tout d’abord, nous ne savions pas combien de retours CTX étaient dans les fuites à l’île Maurice, nous ne pouvions donc pas calculer le nombre que nous avions manqués. Et contrairement à la classification supervisée, cette méthode ne nous donne pas une division nette entre ce que le modèle pense sont et ne sont pas Retours CTX. Si je demandais le modèle des 300 documents qui ressemblent le plus à une déclaration CTX connue, je récupérerais 300 documents, que la 300e ressemble ou non à une déclaration CTX.

Nous nous importions moins que les faux-positifs (alias "précision"), car les reporters savent bien ignorer les documents non pertinents. Mais nous nous soucions beaucoup de ne pas manquer de documents (alias "rappel"); nous ne voulions pas que les retours CTX restent non trouvés dans le jeu de données.

Gardant cela à l’esprit, j’ai choisi une déclaration CTX et l’ai séparé de mon lot de départ de déclarations CTX. Ensuite, j'ai demandé au modèle doc2vec les documents les plus similaires à la première déclaration CTX et mesuré combien de ma liste étaient inclus et à quel rang.

J'ai initialement trouvé mon ensemble de semences de déclarations CTX en cherchant dans la base de données ICIJ «Impôts sur le revenu des sociétés – Déclaration annuelle» et en en regardant une poignée pour confirmer qu'elles étaient la bonne solution. Pour simuler à quel point le modèle doc2vec a réussi à trouver d'autres déclarations CTX sans ce terme de recherche, j'ai retranché ce terme de chacune des autres déclarations CTX.

Mes 14 «autres» déclarations CTX, avec le terme de recherche supprimé, figurent dans les 53 meilleurs résultats, avec 11 des 14 dans les 26 premiers. De nombreux documents apparaissant plus élevés que les membres de ma liste de 14 étaient des réponses correctes. aussi. C'étaient des retours CTX que je n'avais pas vus, exactement ce que je cherchais.

Cela dit, nous ne pouvons pas confirmer si nous avons trouvé tous les documents que nous recherchions.

Hurdle one: Entraîner des ordinateurs sur des documents secrets

L'utilisation de l'apprentissage automatique sur une fuite de document pose de nombreux défis. L’une consiste à générer des données de «formation» pour enseigner au modèle informatique ce que vous voulez trouver.

Si vous créez un détecteur de spam, par exemple, vous commencerez par une série de courriers électroniques que les gens ont déjà marqués comme «spam» ou «non spam». Les documents dans Mauritius Leaks ne portaient pas de tels libellés et contenaient peu de libellés. -comme l'information du tout. Et comme nous n'avions que quelques semaines pour travailler, il était hors de question de lire laborieusement un échantillon de documents à étiqueter manuellement. De plus, les documents devaient rester secrets pour protéger la source qui les avait divulgués. Nous ne pouvions donc pas utiliser les travailleurs de services en ligne tels que Mechanical Turk d’Amazon pour les étiqueter.

Deuxième obstacle: Documents au sein de documents

Les documents enfouis dans d'autres documents posent un autre problème que notre approche a contribué à résoudre. Imaginez que les états financiers d’une société apparaissent sous forme de 3 pages dans un PDF de 160 pages contenant les documents utilisés par la société pour créer son premier compte bancaire mauricien.

Dans ce cas, le modèle peut manquer complètement les états financiers car le reste du fichier PDF ressemble davantage à autre chose, comme peut-être une déclaration de revenus.

Alors, comment pourrions-nous trouver cet état financier enfoui?

J'ai tenté de résoudre ce problème en divisant chaque document en plusieurs tranches de 1 000 mots qui se chevauchent (chaque mot est donc contenu dans exactement deux tranches), et j'ai également formé un modèle qui considérait ces documents comme des documents. (Utiliser 1000 mots comme seuil était quelque peu arbitraire; 500 mots auraient pu être un meilleur choix.)

Cela a assez bien fonctionné pour détecter les états financiers. Maurice Leaks, par exemple, comprenait un «accord de rétrocession» dans lequel une société vendait l’accès au fonds d’investissement d’une autre société. A l’accord de rétrocession était annexé un «questionnaire de due diligence» sur la première société, et joint au cette était ses états financiers, commençant à la page 35.

Un journaliste à la recherche d'états financiers pourrait ne pas avoir la peine de lire un contrat apparemment sans rapport pour trouver les états financiers cachés à la page 35. Mais avec notre modèle, nous avons un signal bien plus clair que le document contient ce que nous recherchons et est en réalité mérite d'être lu.

Essayez vous-même

Nous ne pouvons pas partager nos étapes et notre code exacts pour ce projet, car nous ne pouvons pas publier les Fuites Maurice elles-mêmes. Toutefois, si vous souhaitez jouer avec du code Python, nous avons mis au point un modèle équivalent et un bloc-notes Jupyter que vous pouvez expérimenter. La «fuite» dans notre exemple est une pléthore de courriers électroniques rédigés par le maire de New York, Bill de Blasio, qui ont été publiés dans le cadre d'une demande d'accès à l'information.

Voulez-vous en savoir plus? Découvrez comment utiliser l'intelligence artificielle pour la création de rapports sur des projets impliquant de grandes piles de documents.