Mémoire latente : quand les chatbots font rimer efficacité et RGPD

Les chatbots, tout le monde en parle… mais pas forcément en bien. Et la montée en puissance progressive des pares-feux du RGPD ne fait qu’exacerber le débat entre la recherche d’une efficacité maximum et la protection de la vie privée. Dans un article paru à l’occasion de la conférence scientifique LREC 2020, Léon-Paul Schaub et l’équipe chatbot d’Akio explorent un modèle, la mémoire latente, qui pourrait permettre l’un sans porter atteinte à l’autre. Explications.

chatbot

Selon le Gartner, les entreprises qui mettent aujourd’hui en œuvre une solution multicanale intégrant de l’automatisation par IA gagneront 25% de points d’efficacité opérationnelle d’ici 2025 . Parmi ces solutions, les chatbots tiennent le haut du pavé, en raison notamment d’un gain d’économie potentiel considérable. Virtuoz a ainsi calculé que le coût d’une relation par AVI (assistant virtuel intelligent) est de l’ordre de 20 centimes à 1 euros par conversation réussie, contre 3 à 8 euros pour les emails et 8 à 20 euros pour le téléphone !

Voilà pour la théorie. Dans la pratique, les chatbots ne soulèvent pas un enthousiasme débordant. Selon l’Observatoire des Services Clients, ils ont perdu 10 pts de satisfaction en 2020, atteignant un score de 52% seulement, contre plus de 80% pour l’email ou le téléphone. Le chiffre ne traduit pas seulement l’impuissance des machines à faire face à des situations complexes en temps de crise – comme en cette période de Covid – mais disent plus généralement leur difficulté à s’imposer comme interlocuteur fiable dans une conversation avec un client. Du moins, en l’état actuel de l’art.

Et rien ne dit que ce constat s’améliore rapidement. Car à mesure que la pratique des chatbots progresse, elle soulève de nouvelles difficultés. Comme, par exemple, la gestion de la confidentialité des données. Sachant que l’efficacité d’un chatbot dépend directement de la qualité des informations échangées avec les clients, comment lui permettre d’accéder à des données sensibles sans manquer au respect de la vie privée ? Un problème très RGPD qui amène de nombreux chercheurs de tous horizons à se creuser la tête depuis des mois pour trouver un dispositif ingénieux capable de marier la carpe et le lapin.

Il y a quelques semaines, l’équipe « chatbot » d’Akio emmenée par Léon-Paul Schaub, sous la Direction de Samuel Rumeur, a rédigé un article intitulé “GDPR Compliance for task-oriented dialog systems conception”, publié au cours de la conférence “Workshop on Legal and Ethical Issues in Human Language Technologies” de l’événement LREC2020. En termes techniques, l’article pose le débat confidentialité-efficacité des bots, puis propose un mécanisme susceptible de trouver un juste équilibre entre les deux versants de la question. L’article a par la suite été publié parmi les actes de la conférence LREC 2020 Il s’agit d’un texte scientifique, que les néophytes trouveront peut-être pointu, mais nous en proposons ci-dessous une synthèse simplifiée.

***

En introduction, après avoir exposé sur quelles dimensions le chatbot est impacté par le RGPD, les auteurs rappellent que l’efficacité d’un chatbot est corrélée aux données dont il est alimenté.

Ils s’interrogent ensuite sur la capacité de l’architecture même d’un chatbot à respecter le RGPD, donnant six exemples des problèmes auxquels la machine est confrontée. Une question émerge : comment le bot doit-il parler au client pour respecter sa vie privée, tout en récupérant les informations nécessaires au traitement de sa demande ?

Le chatbot aime l’anonymat?

Vient alors une partie plus technique, qui explore une expérimentation réalisée en simulant des conversations réelles avec un chatbot formé à répondre dans un environnement normé (en l’occurrence, l’industrie du parfum). Dans une première expérience, les données fournies au cours de la simulation sont anonymisées (les noms sont cachés, ainsi que les adresses etc.) Dans une seconde expérience, ils sont « pseudonymisés » – le nom est remplacé par un pseudo, l’adresse n’est pas précise et ainsi de suite. Dans une troisième expérience enfin, toutes les informations sont fournies au chatbot. Le but est de calculer dans quelle mesure l’anonymisation des données réduit la capacité du bot à apporter des réponses justes. Or, les résultats montrent que l’anonymisation ne fait pas forcément baisser les scores – au contraire, on constate une légère amélioration quand l’échange est court, que les questions reviennent souvent d’un interlocuteur à l’autre et qu’elles sont relativement simples. En effet, si le bot arrive à généraliser un concept sur un dialogue court, par exemple à normaliser un numéro de livraison, il va avoir plus de facilité à le reconnaître. L’anonymisation permet de mâcher le travail du bot – il a moins d’éléments à retenir.

Pour autant, l’anonymisation des échanges pose de nombreux problèmes.

1- Si l’anonymisation n’est pas parfaite, tôt ou tard on va constater des trous, des fuites. Dans la pratique, l’anonymisation d’une base est un processus complexe et délicat.

2- L’anonymisation n’est un gage de confidentialité que si personne (y compris un acteur malveillant) n’est capable de désanonymiser les données. Si c’est possible pour celui qui crée le programme, c’est théoriquement possible pour d’autres. Il convient donc de construire des murs épais et suffisamment hauts autour de la base anonymisée.

3- Mais surtout, au cours d’une conversation, si le client veut savoir où en est sa commande (c’est la question la plus souvent posée dans les centres d’appels), le bot doit pouvoir accéder au logiciel de suivi logistique. Si le client signale un problème de facture, la machine doit accéder au système comptable. Dans les deux cas, si l’interlocuteur est anonyme, comment faire le lien avec son dossier ?

La simulation avec des pseudonymes permet de régler une partie de cette dernière contradiction – mais une partie seulement. Les auteurs de l’article posent ainsi la question de la limite de l’exercice d’anonymisation. Ils affirment qu’en l’état actuel des connaissances, il n’existe pas de réponse universelle. Le juste équilibre dépend du périmètre d’action qu’on donne au chatbot. S’il n’a pas besoin de discuter avec le système d’information, il est possible d’anonymiser l’échange… en prévoyant cependant tous les cas de figure, comme celui où l’internaute, de lui-même, donne son nom ou autre information confidentielle pendant l’échange !

Très bien, mais qu’en est-il de la situation où il est demandé au chatbot de répondre à des questions qui exigent qu’il aille chercher les données dans des bases tierces, et pour cela qu’il ait besoin d’identifier son interlocuteur ? Les auteurs proposent un début de réponse via un « modèle à mémoire latente. »

Une mémoire latente est une boîte noire qui n’est pas accessible directement par le bot. Il peut y envoyer des données mais ne peut pas aller les chercher. C’est la mémoire qui donne les infos nécessaires dans la conversation. Le principe de la mémoire latente est le même qu’un mot dont on dispose des premières et des dernières lettres, mais dont celles du milieu ne sont pas dans le bon ordre. On peut reconnaître le mot, bien qu’il ne veuille rien dire. Le procédé est RGPD car la mémoire latente est une mémoire vive – elle s’efface à la fin du dialogue.

Dans la situation d’une discussion au sein d’un centre de contact : les données générales sont mises dans une boite qui reste accessible au bot, les autres (par exemple le nom de l’interlocuteur) vont être placées dans une autre boite à laquelle le bot n’a pas accès. Il envoie une requête à cette deuxième boite lorsque le besoin s’en fait sentir.

Toute la difficulté est alors de faire comprendre au bot ce qui doit aller dans la mémoire latente et ce qui n’y va pas…

Au-delà de la méthode qui reste à expérimenter, les auteurs posent enfin la question du principe de responsabilité. Dans un échange entre un client et un conseiller virtuel, de nombreux acteurs sont impliqués : le client, le formateur du bot, le fournisseur des données qui ont permis la conception du bot, la plateforme sur laquelle le bot est déployé (par exemple Messenger si le bot est sur Messenger), et ainsi de suite. Cette multiplicité d’intervenants, virtuels ou réels, directs ou indirects, pose une question de droit. Car les données n’appartiennent pas à une entité unique de façon simple. Dès que le client transmet de informations au cours de l’échange, elles ne lui appartiennent plus à 100%. Le client dispose de certains droits comme le droit à l’oubli, mais l’organisme qui exploite les données a aussi des droits. La question est complexe et doit être abordée au cas par cas.

Des points difficiles à trancher donc, et pourtant la recherche progresse à grands pas. Akio travaille ainsi sur une mise en application du modèle à mémoire latente, en comparant – dans une simulation industrielle – l’efficacité d’un bot non-RGPD et d’un bot RGPD, en vue de mesurer de façon empirique la différence de performance de A à Z du dialogue. Sera-t-elle significative ? Réponse prochainement. Rien n’arrête le progrès !