Turing, tu pleures
Voilà, c’est partout dans la presse depuis avant-hier : un ordinateur a, pour la première fois, passé le test de Turing. C’est historique, un pas de géant dans l’évolution de l’intelligence artificielle, tout ça, tout ça.
Du moins, c’est ce que dit un communiqué de presse de l’université de Reading, opportunément publié au lendemain du bien plus discret soixantième anniversaire de la mort d’Alan Turing — curieusement, les gens n’aiment pas trop en parler ; c’est dommage, c’est une histoire édifiante de persécution et de préjugés homophobes.
Et ce communiqué a été repris quasiment tel quel par l’ensemble de la presse, ce qui est bien dommage à mon avis : il est au minimum flou, parfois mensonger, et dix minutes de Wikipédia auraient permis à n’importe quel rédacteur d’approfondir largement son article.
D’abord, le test de Turing, c’est quoi ?
En fait, il n’y a pas un, mais des tests de Turing, celui-ci ayant proposé différentes implémentations de son “jeu d’imitation”, dès son papier Computing machinery and intelligence publié en 1950. Toutes reposent sur un même postulat : si, au terme d’une conversation, un juge ne sait pas dire s’il a dialogué avec un humain ou avec une machine, cela signifie que la machine arrive à fournir une imitation parfaite de l’intelligence humaine. Dans l’implémentation la plus courante, le juge converse simultanément avec une personne et avec une machine (par écrit, histoire de ne pas voir ses interlocuteurs) et doit dire laquelle est en viande et laquelle est en silicium ; une autre implémentation existe sous la forme d’un simple dialogue au terme duquel la question n’est plus “où est l’humain ?” mais “est-ce un humain ?”. On se rapproche ici des conditions du test de Voigt-Kampff, présenté en 1968 dans Les androïdes rêvent-ils de moutons mécaniques ? de Philip Dick.
Alors, Eugene (le nom du programme primé avant-hier) a‑t-il réellement réussi le test ?
Ses promoteurs disent que oui : il a trompé 10 des 30 juges qui ont papoté avec lui.
Je dis que non : 20 juges sur 30 ont correctement identifié l’ordinateur. Pour que le test soit réussi, il faudrait que l’on n’arrive pas à distinguer l’ordinateur de l’homme. Dans le cas qui nous occupe, les juges discutaient avec Eugene et avec un humain et devaient dire qui était qui ; s’ils avaient répondu au hasard, c’est statistiquement 50 % d’identifications erronées qu’il fallait atteindre. On en est loin.
D’où vient cette limitation arbitraire à 30 % des juges, employée par les auteurs ? La seule trace que j’ai retrouvée de ce nombre, c’est un extrait de l’article de Turing :
Je pense que dans une cinquantaine d’années, il sera possible de programmer des ordinateurs, avec une capacité de stockage d’environ 10⁹, pour leur faire jouer le jeu de l’imitation si bien qu’un interrogateur ordinaire n’aura pas plus de 70 % de chances de proposer une identification correcte après cinq minutes d’interrogatoire. La question initiale, “les machines peuvent-elles penser ?”, est je pense trop insignifiante pour mériter d’être étudiée. Néanmoins, je pense qu’à la fin du siècle, le sens des mots et l’opinion généralement admise auront tellement évolué que l’on pourra parler de machines pensantes sans s’attendre à être contredit.
Vous noterez qu’il ne parle pas ici de réussir le test. Il prend un cas particulier pour montrer que la question qui paraît absurde à son époque ne le sera plus en 2000. Il se projette dans l’avenir pour donner un exemple d’évolution prévisible des machines, mais il ne donne aucune indication sur la réussite ultime du test : le programme que personne ne distingue avec certitude d’un humain.
En fait, il n’aura même pas fallu aussi longtemps pour que des programmes passent des tests restreints : le célèbre Eliza, qui n’avait rien d’une intelligence artificielle (il s’agissait en gros d’un automate reprenant en interrogation les affirmations de son interlocuteur), avait très bien réussi à convaincre certains interlocuteurs qu’il était un psychologue, au point que certains avaient développé une forme de dépendance à ce thérapeute… en 1966 !
Avant-hier, c’est ce qu’a fait Eugene : il a trompé un certain nombre de juges en un temps limité. Certes, le sujet des conversations n’était pas fixé à l’avance, mais cela n’impose qu’une complexification du programme et de la base de données de situations sur laquelle il repose ; peut-être qu’Eugene utilise des schémas d’intelligence artificielle pour analyser sémantiquement la conversation, mais peut-être ne s’agit-il que d’un “agent conversationnel” très avancé, réagissant à travers des règles prédéfinies d’analyse de mots-clefs. Ah oui, on en sait très peu sur Eugene : ai-je dit que le communiqué était très flou ?
Dans tous les cas, le vrai test reste loin.
Je reviens une seconde à Blade runner (j’ai lu Les androïdes rêvent-ils de moutons mécaniques ? mais c’était il y a longtemps, donc je me souviens mieux du film). Quand Deckard teste Rachel, dernière évolution des réplicants (robots simulant l’humanité, donc en pleine thématique du test de Turing) qui ignore elle-même qu’elle est un réplicant, il l’identifie correctement. Mais il lui faut plus d’une centaine de questions au lieu d’une grosse vingtaine pour les réplicants ordinaires.
C’est la principale limite de ce “test de Turing restreint” : un programme qui réussirait réellement le test de Turing tiendrait aussi longtemps que nécessaire. Il pourrait même craquer et donner des réponses incohérentes au bout de vingt heures sans sommeil, comme n’importe quel humain qui passe une journée en garde-à-vue. En cinq minutes, le test peut être raté, mais il faut une vie pour le réussir.
Tout ça, c’est le minimum qu’un journaliste un minimum concerné par son sujet aurait dû déterrer en moins d’une heure. Or, à part cet article à charge qui attaque directement les auteurs, je n’ai pas vu un confrère remettre en question les affirmations gratuites du communiqué (Mise à jour : il y a un certain nombre de blogueurs dans mon genre, surtout dans le monde anglophone, qui l’ont fait, mais la “vraie” presse qui fournit des informations “sérieuses” reste à la traîne…). Martin Untersinger, du Monde, est peut-être celui qui s’en est le plus approché en soulignant que Eugene se facilitait la vie en prétendant être un enfant étranger (ce qui expliquait les erreurs syntaxiques ou les mauvaises compréhensions) et en regrettant l’absence de vraie publication scientifique, mais il a tout de même oublié de revenir aux sources du “vrai” test : tant qu’on identifie l’ordinateur dans la majorité des cas, il n’est pas parfaitement réussi.
Après, on peut aussi rappeler que le test de Turing n’est pas à proprement parler un test d’intelligence artificielle, mais un test d’imitation artificielle du dialogue naturel. J’ai déjà parlé d’Eliza ; c’est un fait historique que les programmes qui obtiennent les meilleurs résultats sont pour l’heure plus souvent des automates très complexes (grosso modo : “on me dit ça, je réponds ça”) que des intelligences artificielles (j’essaie de réellement comprendre ce qu’on m’a dit).
Turing disait d’ailleurs qu’il importait peu que les ordinateurs soient intelligents au sens où nous l’entendons, dès lors qu’ils nous donnent une impression convaincante d’intelligence. Après tout, j’accepte le postulat de l’intelligence des autres êtres humains simplement parce que ce que j’observe de leur comportement me paraît refléter une pensée ; mais ils pourraient aussi bien être des robots très avancés capables d’imiter réflexion et sentiments, ça ne modifierait en rien mon expérience de leur contact.
Quant au vrai test d’intelligence artificielle, à mon sens, ce sera plutôt le jour où une machine paniquera face à la mort.