L’intelligence artificielle qui lit les journaux mieux que personne

ordinateur-calvier

Une équipe de Stanford a évalué et amélioré les modèles statistiques de compréhension textuelle de Deep Mind. Résultats, leurs algorithmes surpassent largement l’état de l’art actuel.

Google contre Facebook

Le traitement de texte (Natural Language Processing, soit TALN en français pour Traitement Automatisé du Langage Naturel) est l’une des sciences les plus complexes, aux frontières de la linguistique, de l’informatique et de l’intelligence artificielle. Si la plus grande crainte des journalistes qui vous relatent l’actualité des robots est de voir leur propre poste confisqué par une machine, les algorithmes servent d’abord à perfectionner les moteurs de recherche.

Le réseau social le plus utilisé du monde, Facebook a fait de la compréhension textuelle l’une de ses priorités. Avec plus d’un milliard d’utilisateurs actifs quotidien, les informations laissées par les visiteurs constituent une véritable mine d’or pour l’entreprise de Mark Zuckerberg. En navigant sur le réseau social, vous nourrissez constamment les algorithmes de Facebook et participez à l’affinage de sa personnalisation. Et plus il agrège d’informations sur votre profil, plus il est en mesure de cibler ses publicités et donc de proposer des services toujours plus variés à ses utilisateurs, mais surtout aux entreprises.

De son côté, le géant Google est passé maître dans cet Art. Son moteur de recherche mieux que quiconque sait sonder les profondeurs du web et en hiérarchiser les informations à une vitesse éclair. Mais pour arriver à un tel degré d’efficacité, le géant américain déploie toute une équipe d’ingénieurs qui travaille chaque jour à poncer et affiner les algorithmes maison.

C’est donc une véritable course contre la montre qui s’est engagée entre les géants du web, rivalisant d’ingéniosité pour tirer profit de la masse considérable d’informations collectées chaque jour sur internet.

Revue de presse automatique

Trois chercheurs de la section Computer Science de l’Université de Stanford se sont penchés sur la question du langage. Chaque jour les machines sont plus performantes pour lire et analyser notre langage. Mais elles peinent encore à rivaliser pleinement avec l’Homme. Car la lecture de texte relève plus de l’interprétation que de l’identification. La priorité de la discipline est de dépasser le problème de l’annotation manuelle des données inscrites dans le modèle d’apprentissage. Car pour étiqueter différentes séquences et données et permettre à une machine de les traiter, cela prend un temps fou, ralentissant par la même occasion l’apprentissage des machines. Il est donc très difficile de recourir aux techniques courantes de deep learning, fondées sur des modèles statistiques qui ont besoin d’un très grand nombre d’informations.

Dans son papier « Etude approfondie de la lecture de CNN et du Daily Mail« , l’équipe spécialisée en Compréhension Textuelle a entraîné un algorithme à digérer et comprendre des tas d’articles de presse. Le but ? « Permettre à un ordinateur de comprendre un document textuel et de répondre à des questions sur son contenu » écrit-elle en guise d’introduction. « C’est la problématique principale, mais néanmoins irrésolue de la programmation neuro-linguistique ». 

Pour le résoudre, ce problème, ils sont partis d’une étude publiée en 2015 par l’équipe de Deep Mind, qui apportait déjà quelques éléments de réponse. Dans cette étude, les chercheurs avaient entraîné leurs systèmes algorithmiques à l’aide de millions de simulations tirées d’articles de CNN et du Daily Mail. Pourquoi ces deux médias ? Tout simplement parce que leur littérature est abondante et que chacun de leurs articles est accompagné d’une entête spécifique qui résume les informations capitales de l’article de façon très distincte et claire.

daily-mail

En guise d’entraînement, le programme élaboré par Deep Mind devait remplir ces entêtes à trous. Cela suppose évidemment qu’il soit capable de comprendre le texte et d’en tirer les informations clés pour compléter le résumé. Selon eux, il s’agit d’une « méthode très maligne pour créer des données supervisées et de progresser dans le domaine des modèles de compréhension textuelle« . Cependant, aucune information n’a été donnée concernant le niveau de compréhension ou les modèles statistiques qui ont été mobilisés. Leur mission a donc consisté à passer cette méthode au peigne-fin afin de l’évaluer et de l’améliorer.

Conclusions des recherches ?

Après de longues recherches, ils en sont arrivés à la conclusion qu’une telle méthode pouvait permettre d’obtenir un taux de réussite supérieur de 5% à ce qui se fait actuellement. En utilisant de simples modèles, ils sont parvenus à des taux de réussites de 72,4% pour CNN et de 75,8% pour le Daily Mail. Dans un premier temps, ils ont fait faire le test du texte à trous à des humains pour définir plusieurs catégories de difficultés et donc de réponses : de l’exactitude parfaite avec le texte original à la réponse ambiguë en passant par la paraphrase. Ils ont ensuite comparé ces résultats avec ceux de leurs deux systèmes.

Conclusions ? Les résultats obtenus par leurs systèmes suivent de près ceux des humains. Là ou l’homme a trouvé le texte exact, la machine également (avec 100% de réussite), et là où l’homme n’a pas su remplir le trou, la machine encore moins. En bref, plus la réponse est évidente pour un homme, plus elle l’est pour une machine. Mais là où la réponse de l’homme est très éloignée du texte original, celle de la machine l’est encore plus.

En somme, les résultats obtenus par l’équipe de Stanford sont largement supérieurs à l’état actuel de la science. Et les séquences de données issues de CNN et du Daily Mail se sont avérées de formidables outils d’apprentissage. Toutefois, les erreurs sont nombreuses et la méthode doit encore être améliorée avant de fournir des modèles statistiques réellement performants. Leurs travaux à venir consisteront à reprendre des données et les algorithmes qui en ont découlé pour poursuivre un entraînement de moins en moins supervisé.

Les revues de presse automatisées ne sont donc pas pour aujourd’hui, mais elles ne sauraient tarder…

Lien vers l’article de recherche.

Publicités

Laisser un commentaire ou faites un don, c'est au choix!

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s