ChapterPDF Available

Parler aux machines, coproduire un service. Intelligence artificielle et travail du client dans les services vocaux automatisés

Authors:
Chapitre 3
Parler aux machines, coproduire un service
Intelligence articielle et travail du client
dans les services vocaux automatisés
Julia Velkovska, Valérie Beaudouin
Les interactions de service font sans doute partie des activités qui ont
été les plus transformées ces dernières décennies par l’introduction
massive de technologies de communication21, notamment dans un souci
d’automatisation (interfaces vocales, interfaces web, bornes interactives de
vente et d’information, avatars). Deux éléments de justication sont avancés
pour expliquer le déploiement des automates : des enjeux de rentabilité pour
les entreprises, des enjeux de « modernisation de l’accueil » et « d’accessibilité
des services » pour les clients (concernant notamment les moments et lieux
de l’accès). L’automatisation, présentée comme une évolution économique
et technologique « naturelle » et inéluctable de la société, est peut être en train
de recongurer en profondeur les relations de service telles que nous les
connaissons et d’agencer de nouveaux modes de rapport aux organisations
et aux machines. Parce qu’elles constituent une des propriétés distinctives
de la culture occidentale, comme le souligne Goffman [1968, (1961]))22,
les relations de service méritent d’être étudiées au-delà de leurs fonctions
strictement économiques. Dans ce cadre, il s’agit d’élucider les « présupposés »
21 Plus généralement, les formes de la conversation ont été transformées en profondeur par
l’introduction des technologies « conversationnelles », du téléphone à l’internet en passant par les
automates vocaux [cf. Hutchby, 2001].
22 « Chaque société offre diverses possibilités d’approche et de relations entre deux individus
[…] Dans la société occidentale, le service dispensé ou reçu joue un rôle important dans le
développement des relations entre deux individus. » [Goffman, 1968, (1961), p.377].
Travail de la vente98
et les « théories » sur lesquelles repose le modèle de relation de service en tant
que partie d’une culture qui englobe et dépasse les situations observées.
Parmi les technologies de la relation de service, les agents conversationnels
intelligents (ACI)23 représentent la pointe la plus avancée de l’automatisation
en étant les dispositifs les plus « anthropomorphes ». Issus des travaux
en intelligence articielle, ces technologies vocales visent à imiter au
plus près la conversation humaine et sont employées pour le traitement
partiel ou intégral des appels téléphoniques à des administrations ou à
des entreprises. Les interactions qui s’engagent entre les appelants et
les machines « parlantes » ont pour spécicité d’avoir l’apparence d’une
conversation – un échange verbal séquentiellement organisé – sans en
être une dans les faits. Plus précisément, comme nous allons le voir,
ces interactions ne comportent pas les traits essentiels qui dénissent la
conversation : l’orientation commune des interlocuteurs vers sa structure
temporelle et vers ses dimensions rétrospectives et prospectives. Comment
peut-on caractériser l’interaction d’une personne avec un automate vocal ?
Quelles sont les conséquences de cette forme d’automatisation sur les
modalités pratiques de la « relation » de service, notamment sur les formes
de participation du client à la coproduction ?
L’article explore cette double piste à travers l’analyse de dialogues vocaux
entre des clients de France Télécom et un agent conversationnel intelligent
déployé dans un service client après-vente par téléphone. La nature de
nos données permet d’analyser le déroulement concret de cette forme
automatisée de « rencontre » et d’examiner nement les activités des clients.
Ces dimensions restent inexplorées dans les travaux sur l’automatisation
qui a été surtout discutée du point de vue des entreprises (rationalisation
de la gestion de la relation client) et de celui des professions et des métiers
(disparition ou transformation de certaines activités professionnelles).
Par ailleurs, la difculté du recueil de données naturelles sur l’interaction
homme-machine comme celles de notre corpus explique sans doute
la rareté des recherches naturalistes. Les travaux reposent surtout sur
l’analyse d'interactions issues de situations expérimentales comme les
simulations de type « Magicien d’Oz », où le comportement de la machine
23 Ces technologies sont connues sous des appellations diverses, comme automates vocaux,
interfaces vocales, interfaces de dialogue naturel ou de langage naturel, serveurs vocaux interactifs
(SVI), agents intelligents. Ces termes sont utilisés de façon interchangeable dans ce texte.
Parler aux machines, coproduire un service 99
est simulé [cf. Gilbert & Wooftt, 1990 ; Wooftt & Fraser, 1993 ; Wooftt
& MacDermind, 1995 ; Wooftt et al., 1997].
Les résultats de notre enquête sont mis en perspective avec les « théories »
et « les présupposés », dans le sens de Goffman, qui président à l’invention
et à la mise en œuvre d’une relation de service automatisée : d’une part, les
approches économiques de la rationalisation et de la rentabilité à travers la
délégation de tâches aux machines, d’autre part, les avancées des travaux en
intelligence articielle dans le domaine du « dialogue naturel » visant à copier
la conversation humaine. En effet, le modèle de service automatisé émerge
à travers la rencontre entre une utopie économique, celle de la gestion
rationnelle des contacts avec les clients, et une utopie technologique, celle de
l’intelligence articielle (partie 1). Ensuite, ces « théories » et « présupposés »
qui fondent l’automatisation sont mis à l’épreuve sur des situations réelles
d’accès aux services (partie 2). Ce geste fait apparaître les écarts entre le projet
des concepteurs et la réalité des interactions, écarts qui forcent à remettre en
question les utopies qui président à la conception des services automatisés et
à appréhender leurs conséquences pratiques. L’analyse proposée articule ainsi
les trois perspectives : sociologie des services, sociologie des technologies et
sociologie des interactions homme-machine.
Les rêves de ratIonaLIsatIon : Les automates vocaux
à La croIsée des utoPIes économIques et technoLogIques
Les interactions avec les automates vocaux constituent un objet hybride
et difcile d’accès puisqu’elles déent les cadres de pensée disponibles.
Simulations de l’interaction de service et plus généralement de la
conversation humaine, elles ne se laissent pas saisir pleinement par les outils
conceptuels et analytiques existants ni dans le domaine de la sociologie
des relations de service, ni dans celui de la sociologie de l’action et de
la conversation. Elles forcent à repenser les distinctions établies comme
celle qui oppose conversation et rapport purement instrumental à une
machine ; ou encore la distinction entre relation de service et coproduction
opérationnelle (participation du client à la réalisation du service)24.
24 J. Gadrey insiste sur la nécessité de distinguer les notions de relation de service et de coproduction
opérationnelle : « De même que, à l’intérieur d’une organisation, la division technique du travail
n’implique pas toujours l’existence de relations sociales directes entre les agents ainsi divisés, de même
la coproduction opérationnelle (c’est-à-dire le fait que le client intervienne lui-même sur l’objet à
Travail de la vente100
Dans l’univers de l’automatisation des contacts avec les clients, une
des spécificités des interfaces vocales est de proposer une forme de
« personnalisation » de la coproduction opérationnelle : donner l’illusion de
la ‘naturalité’ de l’échange – en visant l’imitation de la conversation humaine
– tout en répondant aux enjeux de rationalisation, de standardisation et de
réduction des coûts commerciaux. Cette tension entre personnalisation et
standardisation est précisément le point de rencontre entre la perspective
gestionnaire et celle de l’intelligence articielle.
Traitant des questions spéciques venant de chaque domaine, ces deux
visions se trouvent néanmoins confrontées à un problème pratique
commun : comment réduire la complexité et la contingence de la
conversation pour la rendre prévisible, et donc modélisable ? Pour y
répondre, elles se rejoignent dans la recherche d’une modélisation et
d’une conception décontextualisée de celle-ci. Nous retraçons dans cette
section ces deux raisonnements et le contexte de leur rencontre qui donne
naissance au modèle de l’interaction de service automatisée.
Mutations de la relation de service et de la participation du client à
la coproduction
Dès les années 1960 certains économistes observent que la production
de services se distingue de la production des biens industriels entre autres
par la participation nécessaire du client. Ainsi, Fuchs et Leveson en 1968,
comparant le secteur des services au secteur industriel, identient dans le
premier « l’importance du consommateur comme agent coopératif dans
le processus de production » [Fuchs & Leveson, 1968, p.194]. La notion
de coproduction de service trouve ici une de ses origines et souligne la
contribution du client à l’accomplissement du service dans une perspective
instrumentale. Cette perspective a été élargie par certains courants de la
sociologie et de l’économie25, puisant dans l’interactionnisme, qui ont
souligné que la relation de service est d’abord une relation sociale dont les
« réparer » ou sur le problème à « traiter ») est-elle d’une autre nature que les interactions sociales entre
les protagonistes du service. » [Gadrey, 1994, p.383]. Concernant la coproduction opérationnelle,
l’auteur note que « [l]a participation du client peut fort bien, de son côté, revêtir un caractère purement
opérationnel, parfois totalement impersonnel (dans certaines formules de « libre-service »). Par
opposition, les relations de service impliquent des « relations sociales interactives dans lesquelles les
acteurs sociaux agissent les uns vis-à-vis des autres, ou les uns sur les comportements des autres ».
25 Cf. en France les travaux de J. Gadrey (1994a), d’I. Joseph (1988) et du réseau Langage et travail
[Borzeix,1992 ; M. Grosjean, 1995 ; Borzeix & Fraenkel, 2001].
Parler aux machines, coproduire un service 101
aspects rituels et même civiques sont aussi importants que les composantes
techniques et contractuelles26. À l’origine de ces courants, Goffman a
identié les propriétés interactionnelles de la coproduction qui débordent
la dimension instrumentale.
La spécicité du modèle goffmanien par rapport aux recherches sur la
coproduction, est de placer au centre de l’analyse « les données morales
et sociales, sous-jacentes aux services spécialisés » et la question de la
dignité [Goffman, 1968, [1961], p.380]. La relation de service implique
la constitution d’un lien moral entre le client et le professionnel, et
la construction d’une relation de conance. C’est aussi pour cela que
Goffman exclut les services automatiques (compostage de billet,
standardiste…) du périmètre de la relation de service. C’est sans doute
une des pistes les plus fécondes et les moins explorées aujourd’hui
pour comprendre les bouleversements récents dans les « modalité[s] de
connexion entre les prestataires et les clients » [Bandt et Gadrey, 1994].
Les technologies de « dialogue naturel » semblent en voie de brouiller la
frontière tracée par Goffman entre le « service automatique » et « le service
comme relation sociale et morale », comme en témoignent les formats
interactionnels d’expression des émotions (notamment l’indignation ou la
colère), de plainte et d’imputation de responsabilité à la machine en cas de
dysfonctionnement. Ces formats semblent intimement liés aux modalités
de l’interaction (de type conversationnel) et aux enjeux des rapports avec
l’entreprise que les clients ont à traiter par ce biais. Loin des transactions
simples comme le compostage de billet, les clients contemporains sont
amenés à interagir avec les automates vocaux, et à leur faire conance27, pour
leurs factures, leurs abonnements à des services ou la résolution de divers
problèmes de l’après-vente. Dans ce contexte, les transformations dans la
contribution des clients à la coproduction sont liées non seulement aux
26 Les trois registres goffmaniens de la relation de service (technique, contractuel et rituel) ont été
enrichis dans les travaux en France par un quatrième dimension, « civique » ou « civile » relative aux
arguments de justice (pour une synthèse, cf. Gadrey, 1994).
27 Prenant au sérieux la question de la conance Justine Cassell et ses collègues cherchent à concevoir
des Agents Conversationnels Incarnés (Embodied Conversational Agents), équipés non seulement de
compétences techniques, mais aussi de compétences sociales (relevant par exemple du comportement
non-verbal crédible ou de la capacité de conduire des échanges informels). Les auteurs font l’hypothèse
que l’introduction du « papotage » (small talk) dans les interactions automatisées renforce la conance
et aide à la collaboration et à la résolution de problèmes. Se basant sur des études de corpus naturels,
des dimensions telles que la familiarité, la solidarité et l’affection ont été explorées dans la conception
d’un agent conversationnel animé pour le conseil dans l’immobilier - REA (Real Estate Agent). [Cassell
et al., 2000 ; Cassell, 2001 ; Cassell & Bickmore, 2004].
Travail de la vente102
propriétés des technologies vocales, mais également à la façon dont celles-
ci sont intégrées dans l’écologie globale du dispositif de communication
entre l’entreprise et ses clients, la « relation client », qui se caractérise par
une multiplication et une spécialisation des canaux de contacts.
En effet, les transformations actuelles de la « relation client » sont liées à
la gestion rationnelle des contacts (dite aussi « industrialisation ») dans un
contexte d’extension des points d’adhérence entre le client et l’organisation
et à la part croissante que prend la relation standardisée. À côté des
automates vocaux, les formes les plus visibles de cette mutation sont d’une
part l’essor des centres d’appels avec l’usage de « scripts » conversationnels,
d’autre part le développement des applications sur internet, accessibles sur
différents terminaux qui permettent au client de gérer ses services.
Ces évolutions organisationnelles et technologiques donnent lieu à de
nouvelles formes de contribution du client à la production des services.
Celles-ci restent à explorer et à décrire tant se multiplient ces situations
nouvelles de communication entre l’entreprise et ses clients. Cet article est
une contribution à cette démarche centrée sur les automates vocaux qui
suscitent un intérêt vif de la part des organisations car ils sont vus comme
porteurs d’une double promesse : amélioration de la rentabilité en délégant le
travail humain à des machines tout en garantissant au client une relation « de
qualité » grâce au caractère « humain » de la machine, une machine dite capable
de penser et de converser, portée par l’utopie de l’intelligence articielle.
L’intelligence articielle en débat : règles, contexte, compétences
La possibilité même de construire des machines qui peuvent converser
au sens où les interlocuteurs humains le font est au cœur de débats
pluridisciplinaires (entre l’informatique, la philosophie de l’esprit, la
psychologie cognitive, la sociologie et notamment les approches de l’action
située) concernant les agents intelligents parlants28. L’ethnométhodologie
et ses développements dans l’analyse conversationnelle (AC) se sont
naturellement intéressés aux problèmes posés par la modélisation de la
conversation comme forme de l’action. Nous verrons que les positions
sont divisées à l’intérieur même de ce domaine.
28 On trouve une synthèse du débat entre l’IA et l’action située dans l’introduction de Donald
Norman au numéro spécial (1993, 17 (1)) que la revue Cognitive Science a consacré à cette thématique.
Parler aux machines, coproduire un service 103
Ce débat s’inscrit dans une controverse plus large portant sur les agents
intelligents qui interroge le postulat fondamental autour duquel s’est for
le domaine de recherche sur l’intelligence articielle, à savoir la possibilité
de modéliser l’action humaine. Ainsi, la question de la copie – de l’action,
du raisonnement, de la conversation humaine – constitue le point focal des
discussions entre les tenants du courant de l’intelligence articielle (IA) et
ses critiques. La divergence des points de vue entre les deux courants porte
principalement sur la nature même des actions humaines.
Pour résumer très schématiquement ce débat, notons que pour les critiques
de l’IA, les propriétés de l’action et de la conversation humaine – en particulier
leur caractère situé et contingent – rendent leur modélisation impossible.
En revanche, pour les tenants de l’IA, il est possible d’extraire les règles qui
gouvernent les activités humaines, de les agencer dans des séries abstraites
des contextes concrets de leurs manifestations et de les implanter dans les
machines. Ces machines seraient alors dotées de compétences et de capacités de
raisonnement, de décision et d’action comme les humains et pourraient agir
et interagir comme eux. L’atteinte de cet objectif ne serait qu’une question
de temps et de progrès technologique pour surmonter des difcultés qui ne
sont que d’ordre technique mais ne dépendent en aucun cas d’obstacles à la
modélisation intrinsèques à la nature de l’action humaine.
Comme nous le verrons dans les deux paragraphes suivants qui présentent
les arguments des débats, les concepts de règle, de contexte et de
compétences occupent une position centrale et se situent à l’origine de
certains malentendus.
Copier l’intelligence ?
Cette section donne un aperçu des débats qui ont accompagné le
développement de l’intelligence articielle dès ses origines autour des
problèmes épistémologiques que pose la modélisation de l’action et de
l’intelligence sous forme d’instructions désincarnées. Ce détour permet
de restituer l’automatisation de la conversation (section suivante), en
particulier commerciale, et le phénomène de l’élargissement du travail
du client que nous observons dans la partie 2 dans la continuité et dans
l’épaisseur historique des recherches de règles susceptibles de gouverner
le raisonnement et l’action humains.
Travail de la vente104
Les années 1950 et 1960 du XXe siècle marquent le début de l’ère
de l’intelligence artificielle autour des travaux de chercheurs comme
Herbert Simon, Allen Newell, Claude Shanon, Marvin Minsky, etc. Les
développements de la théorie heuristique
29 et leur mise en œuvre dans des
programmes de simulation comme le General Problem Solver inventé par
Simon et ses collègues s’accompagnent d’une série de déclarations et de
promesses enthousiastes. Ainsi en 1957, H. Simon annonce :
« qu’il existe désormais au monde des machines capables de penser,
d’apprendre et de créer. Qui plus est, le champ de leur possibilités est appelé
à s’élargir à une cadence rapide jusqu’au jour où – dans un avenir qui n’est
pas si lointain – la gamme des problèmes qu’elles seront à même de traiter équivaudra
à celle que peut appréhender l’esprit humain… » 30.
Dans un article de 1958 de H. Simon et A. Newel, intitulé « Heuristic
Problem Solving : The Next Advance in Operations Research », l’idée de
l’effacement des frontières et des différences entre les humains et les non-
humains est clairement présente : « L’intuition, l’inspiration, la perspicacité, la
faculté d’apprendre ne sont désormais plus l’apanage des humains : n’importe quel gros
ordinateur puissant et rapide peut également en faire preuve lui aussi. »31.
Le projet de l’IA vise donc à concevoir des machines dotées d’intelligence.
Mais qu’est-ce qu’on entend par intelligence dans ce domaine ? En
analysant les travaux en IA, Hubert Dreyfus note que dès les débuts le
concept d’ « intelligence » retenu est ancré dans une tradition philosophique
platonicienne, qui valorise le savoir propositionnel (savoir que) comme
connaissance au détriment du savoir pratique (savoir comment) qui n’est
qu’une « sorte de tâtonnement arbitraire » et relève de la conviction32. Dans
cette tradition, le calcul serait le modèle même du raisonnement humain
puisqu’il est possible de le représenter par une série d’instructions ou de
règles abstraites et reproductibles. Selon Dreyfus, c’est cette conception
syntaxique (vs. sémantique) de la pensée qui est reprise dans le projet de
l’IA des années 1970 : la poursuite de l’entreprise de l’IA s’articulera autour
29 Les programmes « heuristiques » de résolution de problèmes intègrent la notion de « règle
pratique » et d’apprentissage et tentent de simuler les raccourcis et les cheminements de l’intelligence
pratique. Ils se distinguent des programmes « algorithmiques » « au succès garanti […] qui cheminent
vers la solution selon un processus exhaustif, mais qui deviennent vite trop lourds à manier dès lors
qu’ils ont trait à des problèmes pratiques. » [Dreyfus, 1984, p.14].
30 Cité dans Dreyfus, 1984, pp 21-22, souligné par nous.
31 Cité dans Dreyfus, Ibid., p.16, souligné par nous.
32 Dreyfus, Ibid., p.4.
Parler aux machines, coproduire un service 105
de la recherche de procédures permettant de traduire différentes activités
humaines en une série d’instructions33.
Le projet du livre de Dreyfus est d’élaborer une critique de l’intelligence
articielle, en particulier d’identier « les limites de l’intelligence chez
les ordinateurs » (p.18) pour nous éclairer sur le fonctionnement de
l’intelligence humaine. Sa thèse générale pourrait être résumée ainsi :
pour faire sens du monde environnant et y inscrire ses actions, les êtres
humains sont capables d’une compréhension globale d’une situation à l’intérieur
de laquelle ils peuvent discriminer des éléments périphériques ou centraux
pour l’activité en cours. Cette intelligence pratique est une compétence des
humains intimement liée au fait qu’ils sont dotés de corps, toujours situés,
qu’ils sont socialisés dans une culture donnée et qu’ils sont capables ainsi
de saisir un contexte global, de s’y situer et de lui donner sens. Dreyfus
écrit : « […] l’intelligence sous-entend la compréhension au sens fort, et pour
doter un ordinateur de la faculté de comprendre, il faudrait aussi lui fournir
ce « sens commun » dont disposent les êtres humains adultes par le simple
fait qu’ils possèdent un corps, qu’ils sont en interaction avec le monde
matériel, enn, qu’ils ont été formés à une culture. » (p.34)
À partir de cette position épistémologique la poursuite de l’entreprise de
l’IA – concevoir des machines intelligentes comme les humains – implique
inévitablement une formalisation du sens commun : « Ou bien elle [l’IA]
trouvera le moyen de représenter et d’ordonner ce « savoir-faire » de la vie
courante dont fait preuve l’individu moyen, ou elle s’embourbera dans le
fouillis de notions et de convictions qu’il faut rendre explicites pour tenter
de « mettre au courant » cette entité désincarnée qu’est l’ordinateur, lequel
ignore tout du vécu quotidien de l’être humain. » (p.34).
Les idées de Dreyfus ont été reprises par la sociologie des sciences [Collins,
Woolgar], puis dans le débat interne à l’ethnométhodologie et à l’analyse
conversationnelle concernant plus particulièrement la modélisation de la
conversation, notamment autour la notion de règle, et la capacité typiquement
33 « De même que le terme « articielle », celui d’« intelligence » peut faire naître un malentendu. Nul
n’espère du robot ainsi attendu qu’il soit capable de reproduire la totalité de ce qui est tenu pour
conduite intelligente chez l’être humain. Il n’aura pas besoin par exemple, de se trouver une épouse
qui lui convienne, ni de traverser une avenue encombrée. Il n’est question pour lui que de rivaliser
avec l’esprit humain dans les domaines les plus abstraits et les plus platoniques, comme par exemple
de triompher du test de Turing. » [Dreyfus, Ibid., p.17].
Travail de la vente106
humaine de « suivre une règle »
34. H. Collins, [1998 et 2000] propose le
concept de socialité («socialness) pour décrire la qualité fondamentale des
êtres humains qui les différencie des autres espèces et des machines : c’est
la capacité qui nous permet d’acquérir tous les savoir-faire pour lesquels
nous ne pouvons pas formuler de règles et de les utiliser de façon créative
35.
La socialité comme capacité d’interpréter les règles permet d’anticiper le
monde social et de comprendre un contexte d’action en le saisissant de façon
dynamique et située « moment après moment » [Collins, 1998, p.503]. Les
espèces qui possèdent la socialité se caractérisent par des variations entre
les groupes dans leurs rapports au monde physique. Collins conclut que
les animaux et les machines ne doivent pas être traités comme membres de
collectivités sociales et qu’on ne doit pas confondre échange d’information
et langage. La question que se pose l’intelligence articielle sur les capacités
des machines à agir comme des humains devient alors celle de la possibilité
de leur socialisation.
Sans la socialité, les ordinateurs ne peuvent pas être capables d’accomplir des
actions, mais seulement d’imiter certains comportements [Collins, 2000].
Cette distinction entre se comporter et agir permet de dénir deux classes
d’action en fonction de la stabilité du lien entre action et comportement.
Dans la plupart des actions il n’y pas de correspondance xe entre action
et comportement, ce sont des actions « polymorphiques » : « agir de façon
ouverte et créative tout en suivant des règles » (p.35). Comprendre et
mettre en forme des actions « polymorphiques » demande la capacité de
comprendre la société (par exemple, écrire une lettre d’amour). Il n’est
pas possible de les copier en imitant les comportements. En revanche, la
deuxième classe, les actions « miméomorphiques », se caractérise par un
rapport stable entre l’action et le comportement (par exemple la marche
au pas, le travail à la chaîne ou certaines opérations arithmétiques). Selon
Collins « [c’]est seulement dans ces domaines que les ordinateurs et les
34 Cf. également à ce sujet [Collins, 1990 et 1993], [Collins et Kush, 1998], ainsi que le texte
classique de [Taylor, 1995], « Suivre une règle » qui développe la perspective wittgensteinienne sur
les règles. Sans discuter explicitement les questions d’intelligence articielle, Taylor synthétise et
clarie les arguments que la philosophie et les sciences sociales opposent au fond à la modélisation
de l’action. Taylor écrit : « La compréhension d’arrière-fond […] qui sous-tend notre capacité à
saisir des instructions et à suivre des règles est dans une large mesure incorporée. Ceci aide à
expliquer la combinaison de traits qu’elle présente : c’est une forme de compréhension, permettant
de trouver du sens aux choses et aux actions, mais en même temps entièrement informulée, tandis
que, troisième point, elle peut servir de base à une formulation nouvelle » (p.564).
35 Par exemple, nous savons produire dans le discours naturel des énoncés acceptables et
inacceptables sans connaître explicitement les règles.
Parler aux machines, coproduire un service 107
autres machines peuvent directement remplacer des actions humaines sans
avoir besoin de personne pour réparer les erreurs. » (p.36).
Imiter la conversation ?
Comme nous venons de le voir, les débats sont vifs autour de la question
de la modélisation de l’action humaine. On peut globalement distinguer
deux postures : une conception maximaliste de l’IA pose qu’il est possible
d’extraire des règles abstraites qui gouvernent les activités et le raisonnement
humain et de les implanter dans les machines ; une conception critique
de l’IA postule qu’il est impossible de modéliser l’action humaine en
général et donc de concevoir des agents intelligents. Les machines
peuvent en revanche imiter avec succès certains comportements simples
pour la résolution de problèmes circonscrits. Si l’on se limite au cas de la
modélisation de la conversation comme une forme d’action spécique, la
situation est similaire : la possibilité de créer des machines qui « conversent »
comme les humains est défendue par les uns, contestée par les autres.
Pourtant c’est bien par leur capacité à converser, à être un partenaire
conversationnel « acceptable » qu’est éprouvée et mesurée leur
« l’intelligence » depuis le test de Turing en 1950. Celui-ci permet de
comprendre comment dans l’histoire de l’informatique et de l’IA la
conversation humaine est devenue une référence dans la conception des
technologies de parole dites de « dialogue naturel ». Pour traiter la question
« Can machines think ? »36, Turing imagine un jeu d’imitation organisé
sous forme de dialogue. Un homme et une femme sont dans une pièce,
l’enquêteur, dans une autre pièce, doit deviner qui est l’homme et qui est
la femme. L’homme (A) cherche à tromper l’enquêteur sur son identité,
tandis que la femme (B) cherche au contraire à l’aider. Le jeu se déroule
sous la forme de questions-réponses retranscrites par un intermédiaire
pour que la voix n’ait pas d’incidence sur l’identication du genre. Le
cœur du test de Turing est le suivant : si on remplaçait A par une machine,
saurait-il aussi bien que l’homme induire en erreur l’enquêteur sur son
identité de genre ? Et c’est cette dernière question qui remplace la question
initiale. Ce test est devenu un mythe technologique fondateur pour les
recherches sur le dialogue homme-machine même si de nombreux travaux
ont montré les impasses dans lequel ce test a pu conduire l’intelligence
articielle. L’évaluation de la capacité à raisonner d’une machine repose
36 Turing, 1950.
Travail de la vente108
sur une conception logocentrique et dialogique de la pensée, comme le
souligne François Rastier (1991). La nature du test, constitué de séquences
de questions-réponses, est devenue structurante pour les travaux qui
reprennent le dialogue comme forme ‘naturelle’ de la représentation de
l’activité de pensée et de la résolution de problèmes.
Le débat qui s’est déployé dans les années 1980 et 1990 autour des
machines parlantes, entre l’intelligence articielle et les sciences sociales
(en particulier dans les recherches issues de l’ethnométhodologie)
oppose deux conceptions de la conversation. D’un côté, les ingénieurs
traitent la conversation comme un échange de contenus où il s’agit de
faire correspondre ponctuellement une requête, identiée par des mots-
clés, et une réponse, une solution, préprogramée dans la base. Il est dès
lors possible de travailler à la conception de technologies de « dialogue
naturel » à partir de trois éléments de base : un module de reconnaissance
vocale, un module de traitement (appariement entre requête et réponse
dans une base de données) et un module de synthèse vocale. De l’autre,
les ethnométhodologues, à la suite de Harold Garfinkel, opposent à
cette approche une conception procédurale et située de l’action et de la
conversation qui ne peuvent pas être réduites à la performance d’un plan
ou d’une séquence de questions et de réponses [Suchman, 2007, Button,
Coulter, Lee & Sharrock, 1995, Button & Sharrock, 1995]. En effet, pour
Garnkel, la conversation suppose l’orientation vers un monde commun et
le partage d’attentes d’arrière-fond37. La compréhension est liée au contexte,
au non-dit, et possède une structure temporelle vers laquelle s’orientent
les participants. Ainsi, la conversation repose sur un jeu d’anticipations
et de projections et la compréhension n’est pas un événement unique et
ponctuel, mais elle est produite et maintenue en permanence par un travail
interactionnel : « beaucoup de choses ont été comprises en prenant les séries
temporelles d’énoncés non comme un chapelet de mots, mais comme les évidences
documentaires d’une conversation se développant dans le temps. » (p.102).
La référence aux travaux de Garnkel permet de situer le problème de
la compréhension dans l’interaction homme-machine. En effet, dans
ces échanges, contrairement à la conversation, le jeu de projections,
d’anticipations et d’inférences, le « travail de compréhension » est absent
de la part de l’automate. Celui-ci traite les événements linguistiques en
soi, cherche à établir des correspondances entre les requêtes et les
37 Garnkel, 2007, Chap. 2, « Quelques traits essentiels de la compréhension commune ».
Parler aux machines, coproduire un service 109
réponses, mais fait abstraction de la dimension temporelle et contextuelle
de l’échange. Ce fonctionnement n’est pas seulement contraint par les
possibilités techniques actuelles mais s’enracine dans une ontologie de la
conversation humaine comme simple transfert d’information. Dans cette
conception l’organisation séquentielle et temporelle de la conversation
apparait comme un épiphénomène, alors qu’elle est une ressource centrale
pour la compréhension mutuelle dans la perspective ethnométhodologique.
Malgré les incompatibilités théoriques entre la position des ingénieurs et
celles des ethnométhodologues, des essais ont été faits pour utiliser, dans
la conception technologique, les connaissances produites par l’analyse
conversationnelle (AC), issue de l’ethnométhodologie. L’AC offre un
formalisme pour l’analyse et la représentation de la conversation, séduisant
pour les concepteurs. Certains de ses représentants
38, ont utilisé les résultats
de l’AC sur la gestion des tours de parole et les paires adjacentes pour en tirer
des principes de design du dialogue homme-machine. D’autres auteurs
39
contestent cette position en soutenant que le système de tours de parole
(ainsi que la linguistique formelle) offre un formalisme mais n’informe pas
sur la production des énoncés qui est à chaque fois localement émergente.
En ce sens l’AC ne peut pas informer directement la conception, à part
sensibiliser les concepteurs au caractère contingent et situé de l’activité
conversationnelle.
Deux autres points posent problème pour la transposition de l’AC dans
le design technologique. Le premier concerne la compétence des acteurs
à interpréter et à s’ajuster à un contexte dynamique : cette compétence
centrale dans la conversation n’est pas programmable, pas plus que ne
l’est le « sens commun de la vie courante » pour reprendre Dreyfus. Le
deuxième point concerne la confusion entre règles de conversation et règles
de programmation. Alors que ces dernières sont une série d’instructions
formant un algorithme, les règles de la conversation ne déterminent pas une
séquence d’actions précise, mais elles orientent le comportement de ceux qui
s’engagent dans une conversation [Button et Sharrock, 1995, p.113]40.
38 Wooftt et MacDermind, 1995 ; Wooftt et al., 1997 ; Frolich et Luff, 1990 ; Gilbert, Wooftt &
Fraser, 1990, Fordham et Gilbert, 1995.
39 Button, 1990 ; Button, 1993 ; Button, Coulter et al., 1995 ; Button & Sharrock, 1995.
40 Cet argument est proche du développement plus général proposé par Collins du concept de
« socialness », cette capacité typiquement humaine à interpréter des règles sans les violer.
Travail de la vente110
En conclusion, pour Button et Sharrock la machine peut accomplir certaines
tâches précises et circonscrites dans l’échange, elle peut simuler certains
comportements pour des séquences standardisées et prévisibles. Mais elle
ne peut pas « comprendre » une conversation. La bonne simulation n’est pas
une conversation. Cette thèse précise dans le domaine de la conversation les
critiques formulées à l’égard de la modélisation de l’action.
Ce parcours des débats sur la modélisation de l’action et de la conversation
montre qu’elle est systématiquement adossée à une vision abstraite de
ces phénomènes, affranchie des questions de contexte. Qu’il s’agisse de
compétences, de règles ou de mécanismes de la conversation, le prix à payer
pour l’automatisation est une conception mécanique et décontextualisée de
l’interaction. C’est également la conception sous-jacente à la rationalisation
gestionnaire des contacts avec les clients : la demande du client peut être
traitée par n’importe quel conseiller depuis n’importe quelle partie du
monde suivant un script standardisé ou dans certains cas, par un automate
vocal. Le traitement de plus en plus standardisé de ces contacts est présenté
pourtant sous les apparences de la personnalisation « d’échelle » produite
à partir de différentes technologies – des bases de données sur les clients,
des traces d’usages, des technologies conversationnelles. Les relations
de services sont ainsi traversées par la tension entre standardisation et
personnalisation. L’ajustement entre ces deux tendances est souvent pris en
charge par le client (par exemple, rechercher le bon interlocuteur et refaire
plusieurs fois le récit de son problème) et relève de nouvelles formes de sa
contribution à la coproduction des services. Le travail d’alignement avec les
interfaces vocales que nous analysons dans la suite en constitue un exemple.
Nous désignons par là l’aspect unilatéral du travail de compréhension (et de
réparation des malentendus) à l’œuvre dans l’interaction avec les services
vocaux interactifs qui est entièrement à la charge de la personne, l’interface
ne faisant que réagir aux mots-clés reconnus. Nous parlerons d’alignement
(et de désalignement) plutôt que de compréhension (et de malentendu)
qui caractérisent la conversation humaine parce que l’interaction homme-
machine ne comporte pas les traits caractéristiques et les régulations de la
conversation, comme nous venons de le voir.
Si l’ambition des technologies vocales est d’imiter au plus près la
conversation humaine, de s’adapter aux différents contextes et de proposer
ainsi un service automatique, mais à « visage humain », dans l’état actuel
de ces technologies du moins, c’est le contraire qui se produit. Le succès
du dialogue (et donc l’accès au service) est corrélé à la capacité du client
Parler aux machines, coproduire un service 111
à s’ajuster de façon dynamique, à apprendre à interagir avec la machine
et à devenir un utilisateur compétent de ces technologies. Nous mettons
en évidence dans la suite quelques modalités concrètes de ces nouvelles
composantes de la coproduction en contexte d’automatisation.
Le travaIL du cLIent dans Les servIces vocaux automatIsés :
gérer des sImuLacres de conversatIons
Notre propos est à présent d’examiner concrètement la manière dont se
déroulent les interactions entre des clients et un système vocal intelligent.
Par delà les débats organisationnels et théoriques, comment, dans la pratique,
le service est-il ou non co-produit quand le représentant de l’organisation
est remplacé par un automate vocal ? Y a-t-il ou non alignement entre
le client et l’automate ? Quelle est la nature de ces interactions : s’agit-il
de dialogue « naturel » ? Comment le client fait-il face à des situations de
désalignements ? Pour ce faire, nous explorons un corpus d’interactions entre
clients et automates vocaux dans le cadre de relation de service après-vente.
Après avoir présenté les données sur lesquelles porte notre analyse, nous
chercherons d’abord à identier les facteurs qui favorisent la coproduction
du service puis nous verrons comment les clients font face aux cas de
désalignement.
Terrain et méthodes
Ce travail a été rendu possible grâce à la mise en place au sein de la R&D
de France Télécom d’une infrastructure chargée de garder trace de toutes
les expérimentations de relation de service avec des automates vocaux
au sein de l’entreprise. L’idée était d’avoir un lieu de capitalisation pour
pouvoir améliorer les technologies.
Nous avons limité notre investigation à deux services, qui correspondent
chacun à un numéro d’appel (le 3 000 et le 3 900). Le premier, le 3 000,
que nous appellerons service A, permet d’accéder par téléphone à tout
un ensemble de services pour gérer la ligne de téléphone xe (payer sa
facture, faire des transfert d’appel, suivre sa consommation, accéder à la
messagerie…). Le second, le 3 900 ou service B, donne accès à l’assistance
technique. Il permet d’identier le client (via son numéro de téléphone) et
Travail de la vente112
le motif d’appel pour orienter vers les conseillers clients adaptés. Le service
B est un aiguilleur d’appels.
Les interactions entre clients et automates vocaux étudiées dans cette enquête
sont produites dans des situations naturelles (et non expérimentales). D’une
part, la situation est dénie comme naturelle du point de vue des clients
puisque ces derniers appellent l’entreprise avec une demande de service
spécique (information, solution à un problème…) et se trouvent confrontés
à l’automate sans savoir qu’il s’agit d’une expérimentation. D’autre part, la
situation est naturelle au sens où il s’agit d’échanges avec des agents intelligents
et non d’expérimentation de type « Magicien d’Oz » où la machine est simulée
(cf. les travaux cités plus haut de Wooftt et ses collègues).
Dans la base de données, pour chaque interaction sont consignés le chier
audio de l’interaction, des données de description technique de l’échange
(date, durée, nombre d’interventions, transcription automatique…) et
éventuellement des indications introduites par des personnes recrutées par
les équipes de conception pour identier le motif d’appel et qualier son
aboutissement : succès ou échec.
Notre démarche s’appuie sur deux approches différentes pour répondre
à une même question, celle de l’alignement dans l’interaction homme-
machine dans une relation de service. L’exploration statistique de l’ensemble
des interactions a permis de produire une vue globale sur un échantillon
d’interactions important (plus de 18 000) pour déterminer les facteurs qui
favorisent l’accès au service. L’analyse conversationnelle a permis quant à
elle de comprendre nement les mécanismes de cet alignement dans le l
de l’interaction et la nature des opérations de réparation qui se mettent en
place en cas de désalignement. Pour l’exploration de ce type de données
complexes, il nous a paru indispensable de combiner ces méthodes qui
nous ont chacune apporté un regard complémentaire.
Sur le service A, ont été analysées toutes les interactions enregistrées dans
la base entre janvier 2006 et mars 2007, soit 16 777 appels, dont 10 281
appels ont été qualiés manuellement par des codeurs (motif de l’appel et
aboutissement). L’exploitation quantitative porte sur des traits de description
fermés (motif d’appel, aboutissement, durée, nombre d’interventions…).
Pour constituer des collections d’appels pour l’analyse interactionnelle, pour
chaque motif d’appel, nous avons choisi une dizaine de cas de succès et
Parler aux machines, coproduire un service 113
une dizaine de cas d’échec, en faisant varier la durée de l’interaction. Ces
interactions ont été retranscrites manuellement à partir de l’enregistrement
audio, selon les conventions de l’analyse conversationnelle.
Sur le service B, comme il n’y a pas eu de qualication manuelle des
interactions, nous avons effectué un autre type de travail, qui a consisté
à analyser les requêtes des clients, telles que le système de reconnaissance
vocale les a retranscrites, dans un corpus de 1675 appels de clients,
enregistrées entre avril 2006 et juin 2008. Certaines interactions du service
B ont également été transcrites à la main et analysées en profondeur41.
Le travail de standardisation des échanges comme condition de
l’alignement avec la machine
Dans cette section, nous explorons globalement le corpus des interactions
qualiées et nous cherchons à mettre en relation certains traits formels
de ces interactions avec un indicateur de l’accomplissement du service
échec » ou « réussite »). Contrairement aux promesses portées par les
technologies vocales, le résultat central montre que moins le dialogue est
« naturel », plus le service a des chances d’être rendu.
Pour le service A, 10 281 interactions ont été qualiées manuellement par
des codeurs (identication du motif de l’appel et qualication en termes
d’échec ou de réussite de l’interaction). La notion de réussite ou d’échec
relève d’une interprétation du codeur et correspond à une évaluation
externe de l’adéquation de la réponse de la machine à la demande du client.
En moyenne, les demandes des clients adressées au service A aboutissent
trois fois sur quatre. La gure 1 présente la répartition des appels selon
la durée et le taux de réussite. On note une concentration très forte des
appels autour de la demi-minute et une longue traîne avec des appels
pouvant durer très longtemps (courbe « nombre d’interactions »). En
croisant la durée des interactions avec le taux de réussite, il apparaît que
plus l’interaction s’étend dans le temps, plus le taux de réussite diminue.
Au-delà de 70 secondes, le taux de réussite est de 60%. De fait, il existe
une courte fenêtre de tir, entre 20 et 50 secondes pendant laquelle le taux
de réussite est très élevé (plus de 80%).
41 Pour une description plus précise de la démarche méthodologique, cf. [Beaudouin & Velkovska,
2010].
Travail de la vente114
Figure 1 : Répartition des appels selon leur durée et taux de réussite associé
Quand on regarde le nombre d’interventions du client dans l’interaction,
dans près de la moitié des interactions enregistrées (46%), le client
n’intervient qu’une seule fois et c’est dans ces cas-là que le taux de réussite
est le plus élevé (82%). L’augmentation du nombre d’interventions du
client s’accompagne d’une diminution du taux de réussite. Dit simplement,
plus le client parle, moins il a de chances d’obtenir ce qu’il veut. Il semble
y avoir un optimum d’efcacité du système quand le client n’intervient
qu’une fois (cf. tableau 1). C’est une spécicité des dialogues avec les
agents intelligents, les interactions ordinaires en service client se réduisant
à une seule intervention du client étant plutôt inhabituelles.
Figure 2 : Répartition des interactions en fonction du nombre d’interventions client
Parler aux machines, coproduire un service 115
Si l’on essaie de différencier les interactions selon les raisons de l’appel, on
note que les trois-quarts des appels correspondent à l’un des quatre motifs
suivants : suivi consommation, transfert d’appel, paiement de facture et
messagerie (cf. tableau 1). Le quart restant étant très dispersé.
Motif d’appel %
nombre
interventions
durée moyenne
médiane
Taux
réussite
moyenne médiane moyenne médiane 89%
Suivi consommation 33% 2,2 1 00 : 00 : 50 00 : 00 : 36 89%
Transfert d’appel 17% 4,4 3 00 : 01 : 20 00 : 01 : 04 83%
Paiement facture 15% 2,1 1 00 : 00 : 58 00 : 00 : 45 92%
Messagerie 7% 2,2 1 00 : 00 : 55 00 : 00 : 41 91%
Information 5% 6,0 5 00 : 02 : 36 00 : 02 : 04 69%
Ne sais pas 14% 3,0 2 00 : 01 : 11 00 : 00 : 59 7%
Hors périmètre 6% 3,9 3 00 : 01 : 47 00 : 01 : 33 63%
Tableau 1 : Caractéristiques des interactions selon le motif de l’appel
Pour les demandes très standardisées et régulièrement utilisées (paiement
de facture, messagerie, suivi consommation) le taux de réussite tourne
autour des 90%. Quand il s’agit d’interaction a priori moins standardisées,
comme les demandes d’informations ou des demandes hors périmètre du
service A, le taux de réussite est beaucoup plus bas. Enn, pour les autres
demandes, non ou mal identiées (dans 14% des cas, le codeur ne sait
pas identier le motif d’appel), l’échec est quasi systématique. Le cas du
transfert d’appel est particulier puisque c’est le seul service intégralement
automatisé dans le cadre du service A : cela explique le plus grand nombre
d’interventions clients et la plus longue durée. En effet, pour les autres
demandes, une fois que le service A reconnaît la demande, il bascule le
client vers un autre service adapté.
Travail de la vente116
Une régression logistique qui cherche à hiérarchiser les facteurs (motifs
d’appels, nombre d’interventions clients et durée des appels) qui jouent
sur le taux de réussite montre que le motif d’appel explique mieux encore
le taux de réussite que la durée des appels ou le nombre d’interventions
du client. Ce qui favorise l’accomplissement du service est le fait que les
appels relèvent de motifs d’appels très standardisés et répétitifs.
L’analyse de la formulation de la première requête que le client adresse à
l’automate, telle qu’elle est retranscrite par le système de reconnaissance
vocale, confirme ces premiers résultats. On observe une très grande
dispersion des requêtes avec beaucoup d’énoncés très rares et très peu
d’énoncés très fréquents. Les énoncés qui n’apparaissent qu’une fois
représentent 80% des énoncés, mais seulement 20% des requêtes. Ils ont un
taux de succès très bas : 58% contre 75% en moyenne. Inversement, si l’on
se concentre sur les 13 énoncés les plus fréquents, ils ne représentent que
0,3 % des énoncés mais couvrent 50% des requêtes et le taux de réussite
oscille entre 80 et 96%. Ainsi les énoncés les plus fréquemment adressés
à la machine et qui conduisent aux taux de réussite les plus élevés sont :
« Payer ma facture », « Transfert_d’appel », « Allofact », « Accéder à ma_ligne »,
« Messagerie vocale », « Forfaits ». Plus le client exprime sa requête avec un
énoncé fréquemment attesté, plus les chances de « succès » augmentent. En
cela, il apparaît que contrairement aux injonctions données par la machine
qui engage à s’exprimer « naturellement », plus le langage est standardisé plus
les chances d’accomplissement du service sont grandes.
Sur les données du service B nous n’avons pas pu déployer le même type
d’analyse, car il n’y a pas eu de qualication manuelle des motifs d’appels,
de l’échec ou de la réussite. Nous avons cherché à analyser les types de
formulations adoptées par les clients pour exprimer leurs demandes. Pour
ce faire, nous avons extrait les interventions des clients qui venaient juste
après l’énoncé de l’automate :
1 A D’accord avant de vous passer un téléconseiller merci d’exprimer
la raison de votre appel (.) par exemple vous pouvez dire : « je
n’arrive pas à installer ma livebox » c’est à vous.
Ce corpus a été analysé avec Alceste, un outil de statistique textuelle qui
construit une typologie des énoncés en fonction du vocabulaire utilisé
[Reinert, 1993].
Parler aux machines, coproduire un service 117
L’analyse des motifs d’appels nous montre pour commencer que l’expression
en langage naturel d’une demande ne va pas de soi. En effet, la moitié des
réponses sont standardisées et suivent le modèle prescrit par l’automate
je n’arrive pas à » ou « je n’ai plus de… »). Au cours de l’expérimentation,
l’énoncé de l’automate a changé : alors que pendant un temps l’exemple
donné était « je n’ai plus de tonalité sur ma ligne », il est devenu « je n’arrive
pas à installer ma livebox ». Le changement de formulation de l’automate
s’est répercuté immédiatement dans la manière dont une grande partie des
clients ont formulé leur demande.
Un quart des réponses sont sous la forme de groupes nominaux (« problème
de connexion à internet ») et empruntent le modèle de l’interrogation des
moteurs de recherche. Enn, seul un quart des réponses correspond à des
énoncés « en langage naturel », exprimés librement. On peut faire l’hypothèse
que ces derniers sont beaucoup plus complexes à traiter pour la machine.
La machine a donc une forte capacité de prescription et la majorité des clients
s’y conforme. Elle place le client dans une situation d’injonction paradoxale :
elle dit explicitement « exprimez-vous librement » et implicitement « adoptez
mon langage ». Tel est le résultat principal qui ressort de l’analyse.
Quelles conclusions préliminaires pouvons-nous tirer de ces traitements à
gros grain sur les interactions ?
Premièrement, il semble exister un modèle dominant de l’interaction
homme-machine avec une seule intervention du client et de durée courte.
C’est à la fois le modèle le plus fréquent et celui qui conduit au taux de
réussite le plus élevé.
Duxièmement, plus la durée de la conversation s’allonge, plus les chances
d’échec augmentent.
Troisièmement, plus le motif est routinier et/ou clairement circonscrit –
à savoir l’accès à un service spécique – plus le taux de succès est élevé.
Les taux de réussite les plus bas concernent les demandes d’information.
La standardisation des motifs d’appels favorise la réussite de l’interaction.
Enn, l’automate joue un rôle fort de prescription sur la demande du
client, en lui proposant des formulations de sa question. La personne
tend à parler comme la machine, à prendre prise sur le contenu proposé
Travail de la vente118
par l’automate. L’ajustement de vocabulaire qu’opère le client dans la
formulation de la question suite aux « conseils » de la machine a un effet
positif sur l’aboutissement du dialogue.
Dans la suite des travaux de Wooftt et MacDermid (1995), nous proposons
de considérer l’interaction téléphonique entre le client et l’automate comme
une séquence de demande d’aide/offre d’aide qui contient des séquences
insérées de type question/réponse visant à avancer dans la résolution du
problème. Les séquences insérées, qui sont à l’initiative de l’automate,
peuvent avoir des nalités différentes comme l’identication du client, la
précision du problème, la résolution par étapes. En voici un exemple :
Client : demande d’aide
Automate : question 1 (par exemple identication client)
Client : réponse
Automate : question 2 (par exemple précision du problème)
Client : réponse
Automate : offre d’aide
On peut poser comme hypothèse, que moins le nombre de séquences
insérées est élevé, plus la demande a de chances d’aboutir. En effet,
l’analyse globale des interactions ci-dessus montre que le taux de succès
de l’appel atteint son point culminant quand le client n’intervient qu’une
fois, . L’horizon ultime de ces appels serait une séquence ne comportant
que l’énoncé du problème et sa résolution.
C : demande d’aide
A : offre d’aide
Voici à titre d’exemple, une interaction de ce type :
1 A France Télécom bonjour bienvenu sur le 3000
(.) l’appel depuis une ligne xe est gratuit
(.) (jingle) que désirez-vous ?
2 C payer ma facture
3 A veuillez patienter je vous passe le service
telefact (jingle)
Parler aux machines, coproduire un service 119
Le modèle prototypique consiste à favoriser un appariement immédiat (sans
séquences insérées) entre la demande et la réponse. Plus on est proche de
ce modèle – ce qui implique une seule intervention du client, l’évitement
des séquences insérées, l’usage de mots-clefs ou d’expressions normalisées,
et en n de compte une connaissance plus globale de l’univers de l’offre
et des requêtes auxquelles peut répondre l’automate – plus les chances
d’accomplissement du service augmentent. Le bon usage de l’automate vocal
consiste à interagir selon ce modèle standardisé, ce qui relève de compétences
spéciques et d’un travail d’apprentissage qui est une composante nouvelle
de la contribution du client à la coproduction42.
Le travail d’enquête du client face aux dés alignements interactionnels
Comme l’ont montré les analyses statistiques, tous les appels traités
par l’automate n’aboutissent pas à l’accès au service demandé ou à une
réorientation pertinente du client. À partir d’exemples tirés du corpus d’appels
au service A, nous examinons maintenant la structure interactionnelle des
dialogues qui s’écartent du modèle prototypique pour observer les modalités
concrètes de la mise au travail du client43 dans les environnements de parole
automatisée. Pour cela, l’analyse est centrée sur les principes du désalignement
interactionnel et sur les activités des clients pour y faire face, les tentatives de
réparation. Un problème pratique commun caractérise le dialogue homme-
machine : les clients sont confrontés à des échanges qui ont les apparences
d’une conversation sans en posséder les traits essentiels (à savoir l’orientation
des interlocuteurs vers un monde commun et vers des attentes d’arrière-plan
qui permettent un jeu d’anticipation et de projections). Dans ce contexte,
certaines routines conversationnelles s’avèrent pour partie inopérantes et
même contreproductives. Les recherches sur la communication homme-
machine ont déjà montré que la performance des ordinateurs dépend de
notre façon d’interagir avec eux, de notre « posture intentionnelle » qui nous
permet de remplir leurs manques et de négliger les erreurs [Collins, 2000].
Ainsi la régulation des interactions avec les machines est entièrement à la
charge de l’interlocuteur humain à travers un travail constant de réparation
qui prend des formes spécifiques dans les dialogues avec les agents
conversationnels. Ce travail interactionnel devient travail du client lorsqu’il
conditionne l’accès au service.
42 En ce sens, il est une autre forme de la mise au travail du consommateur [Dujarier, 2008)]
43 Pour un développement général de ce concept dans le contexte de l’industrialisation des services,
cf. Tiffon, 2013.
Travail de la vente120
Quel type d’erreurs ou de manques s’agit-il de négliger ou de réparer pour
accéder à un service via une interface vocale ? Le désalignement apparaît le
plus souvent comme une conséquence de la difculté de l’agent articiel à
s’ajuster nement au contexte de l’interaction, ce qui place son partenaire
humain dans des situations inhabituelles il a du mal à identier les
liens de pertinence (ou les liens logiques) entre certains tours de parole.
Le phénomène est double : il arrive fréquemment que l’intervention de
l’automate soit non pertinente par rapport au tour précédent ; mais le
partenaire humain, contrairement aux traitements des malentendus dans les
conversations ordinaires, thématise très rarement la non pertinence de la
machine, sauf dans des épisodes émotionnels au cours desquels s’expriment
l’énervement ou la colère. Cette impertinence est « subie » par l’utilisateur
qui cherche à la contourner (en répétant, en reformulant, en insistant) plutôt
que de la réparer, de demander des explications, comme il le ferait dans une
conversation ordinaire. Ce traitement témoigne d’une orientation normative
vers l’interaction homme-machine qui n’est clairement pas soumise aux
mêmes exigences de continuité de la compréhension mutuelle que la
conversation humaine.
La relative impertinence des tours de la machine est liée précisément à la
façon dont celle-ci traite deux aspects de l’interaction : 1) le savoir implicite ;
2) la structure séquentielle et temporelle du dialogue. Le désalignement
interactionnel apparaît comme résultat de l’un ou de l’autre aspect ou
d’une combinaison des deux44. Les trois interactions présentées permettent
d’observer trois formes typiques de travail du client pour réparer les
désalignements et tenter d’accéder au service : l’ajustement, les répétitions,
les reformulations.
L’automate est en effet un partenaire exigeant en termes de « savoir partagé » et
la coproduction du service repose sur les capacités du client à s’aligner à cette
exigence soit par l’apprentissage (comme le cas 1), soit par la recherche de
solutions en situation (comme les cas 2 et 3). Prenons deux cas de personnes
qui cherchent à connaître leur consommation téléphonique (exemples 1 et 2).
Seule la première y parvient : par un jeu d’essai-erreur, elle retrouve le nom du
service, nom qui est la clef pour une bonne réponse de l’automate.
Exemple 145. Ajustement
44 Les phénomènes de chevauchements et d’interruptions constituent une autre classe importante
de problèmes interactionnels que nous ne traitons pas dans ce texte.
45 Les conventions de transcription se trouvent en annexe.
Parler aux machines, coproduire un service 121
1 A que désirez-vous
2 C Bricogit
3 A [je ne vous ai pas entendu (.) [si vous
4 C [allofact [allofact
5 A Veuillez patienter je vous passe votre service allofact
La cliente dans l’exemple 2 adopte une procédure différente de résolution
de problème : elle répète quatre fois sa demande sans la reformuler (2,
5, 7, 9) et cherche aussi à échapper au mode vocal en utilisant le clavier
téléphonique (4), sans succès.
Exemple 2. Répétitions
1 A prononcez le nom de service qui vous intéresse [ou formulez
librement vot-
2 C [FOR-FAIT]
3 A j’ai compris que vous demandiez un for[fait sinon dites annuler=
4 C [appuie touche
5 C =FOR-FAIT
6 A (5) [dans la catégorie offres tarifaires
7C [FOR-FAIT
8Aj’ai compris que vous demandiez un forfait sinon [dites annuler
9C [OUI FORFAIT
10 A(5) dans la catégorie offres tarifaires [vous pouvez vous abonner
ou vous-
11 C [mais non non ((raccroche))
Le désalignement émerge autour de la confusion entre les deux signications
du mot « forfait » : pour la cliente, il s’agit d’accéder au service qui permet de
consulter l’état de sa consommation ; pour le système, il s’agit de s’informer ou
de s’abonner à une offre. Dans ce cadre, la stratégie de la cliente, qui consiste
à répéter à l’identique sa demande, contribue à maintenir la confusion tout au
long de l’interaction. Au lieu d’aboutir à une solution et de faire progresser le
dialogue, ces répétitions, mènent à deux boucles interactionnelles identiques
(2-6 et 7-10)46 à l’intérieur desquelles le premier énoncé de la demande (2 et
5) active la même réponse de l’automate. À son tour sa répétition (5 et 9) est
traitée comme une conrmation par le système et entraine l’énumération des
options de la rubrique « offres tarifaires ».
46 Pour mieux visualiser les deux boucles interactionnelles, la deuxième est représentée en gras.
Travail de la vente122
De façon typique, la cliente interprète le problème comme relevant de la
reconnaissance vocale et cherche à le résoudre en répétant de façon très
articulée et en haussant le ton (supposant que la machine entend mal ou
comprend mal). Elle ne révise pas cette dénition de l’obstacle rencontré
tout au long de la séquence qui se termine par le constat d’échec dans la
compréhension de la machine (11). Dans les faits, elle est confrontée à
un problème de nature différente qui concerne le savoir implicite supposé
par la machine : pour accéder à son forfait, il faut au préalable être abonné
à une offre tarifaire ce qui n’est pas le cas de cette cliente puisqu’elle se
voit proposer cet abonnement (l’automate vérie les abonnements de la
ligne téléphonique dans le système d’information). Les interventions de
la machine n’explicitent pas ces informations et transfèrent à l’utilisatrice
la tâche de mener l’enquête, de les déduire et de trouver la solution. Les
interventions de l’automate apparaissent de plus en plus impertinentes
par rapport à la demande par l’accumulation des répétitions de la cliente.
Les places séquentielles des différents énoncés du mot « forfait », et leur
coloration émotionnelle, leur confèrent des sens différents : ainsi la deuxième
répétition (7) n’a clairement pas la même signication que le premier énoncé
en ligne 2 et vient même contester et corriger l’interprétation donnée
par la machine en l’interrompant. Pourtant le traitement est identique
quelle que soit la place séquentielle du tour de la cliente. Cette séquence
permet d’observer la difculté que rencontrent les utilisateurs pour gérer
l’affaiblissement des liens de pertinence des tours de l’automate puisque
aucune piste de solution n’est proposée (par exemple, une invitation à
reformuler) et les épreuves émotionnelles qui peuvent surgir. En effet, ce
type de désalignement qui se construit dans la progression de l’interaction
est invisible pour la machine, insensible à la temporalité et à l’énervement
progressif de la cliente. L’interface n’identie aucun problème et réitère à
l’inni son fonctionnement : reconnaissance d’un mot clé – réponse par un
item de la base de données. Le dialogue ne progresse pas.
Au l du développement du dialogue, les tours de la machine deviennent
de moins en moins pertinents : celle-ci ne clarie pas le savoir implicite et
reste indifférente à l’ordre temporel et séquentiel, ainsi qu’à l’amplication
des émotions exprimées par la cliente. La temporalité de l’interaction est
traitée comme réversible par l’automate capable de réitérer autant de fois
le même segment de discours que la reconnaissance du même mot-clé
s’active. L’ordre temporel comme aspect essentiel de la création du sens
partagé de la conversation est inaccessible aux technologies vocales, du
Parler aux machines, coproduire un service 123
moins dans leur état actuel. En conséquence, les personnes sont placées
dans une situation paradoxale de faire sens d’un échange et d’enquêter sur
les façons de s’aligner, dans le domaine de la conversation, avec un artefact
qui ignore ses aspects essentiels, la temporalité et la progressivité.
Dans l’exemple 3, le client adopte une autre méthode pour résoudre le
problème de désalignement qu’il perçoit : la reformulation par la reprise de
segments de discours de l’automate (19, 37, 48). Comme dans l’exemple
précédent, l’interaction est un échec pour le client qui raccroche énervé
(50), mais pas du tout pour le système, qui exécute la chaine d’opérations
sans faute : reconnaissance vocale, appariement du mot reconnu avec une
information de la base de données, synthèse vocale pour la présenter. De
plus, celui-ci fournit à deux reprises l’information pertinente par rapport à la
demande du client (19) qui cherche à parler à un conseiller en lui indiquant
qu’il faut appeler un autre numéro (cf. 22-25 et 49). Comment expliquer alors
les évaluations négatives du client (39, 44, 46) et l’échec du dialogue ?
Cette interaction montre que la conversation ne se réduit pas à un transfert
d’information et que donner une information pertinente sous une forme
impertinente peut néanmoins conduire au désalignement interactionnel.
La façon dont la machine participe à l’interaction et présente l’information
s’avère problématique. En effet, ses interventions s’insèrent mal dans le
contexte interactionnel précis et n’explicitent pas les liens de pertinence avec
les tours précédents. Nous retrouvons ici sous une forme plus sophistiquée
les deux problèmes identiés précédemment liés au savoir implicite et à la
gestion atemporelle (ou « présentéiste ») des interactions par le système.
Travail de la vente124
Exemple 3 (extrait). Reformulations
17 allez-y/ c’est-à-vous\
18
19 C
(2.5)
je voudrais un conseiller\
20
21
22
23
24
25
26
27
28
29
A vous êtes mis en relation avec le trois mi : l\ (.) notre
serveur vocal automatique qui analyse votre demande\
pour cette demande\ contactez le service client en appelant
le dix quatorze\ du lundi au samedi de huit heures à vingt heures\
l’appel est gratuit depuis une ligne xe Telco\ (1)
vous serez alors mis en relation avec un conseiller\ (1)
je retourne à l’accueil\ (.) prononcez le nom du service qui
vous intéresse ou formulez librement votre demande sinon
composez le code du service si vous n’appelez pas de chez vous
dites d’abord \ (.) accéder à ma ligne\ c’est à vous
30 (6)
31
36
A je ne vous ai pas entendu\ si vous souhaitez des exemples
[...] [tour A lignes 32-35]
[allez-y prononcez le nom du serv-
37 C [j veux le dix quatorze
38 A à quel service souhaitez-vous vous abonner\
39 C (3) ooo hh[hh (xxx]
40
41
42
43
44
A [je n’ai pas entendu le service que vous désirez]
(.) si vous souhaitez des exemples dites je voudrais de l’aide\ (.)
prononcez le nom du service qui vous intéresse ou
[alors formulez une description de ce service avec] une phrase simple\
(.) &
44 C [ooo ce sera toujours le même qu’il dit]
45 &je vous écoute
46 C ALORS TU NE COMPRENDS RIEN C’EST TOUT=
47 A =pour quel service souhaitez-vous le tarif\=
48 C =le service client
49 A pour cette demande contactez le service client en appelant le dix quator[ze=
50 C [ouais : ((énervé, raccroche))
51 A =du lundi au samedi de- eu-
Parler aux machines, coproduire un service 125
L’examen de cette interaction permet d’observer comment les liens de
pertinence affaiblis de certains tours de parole de la machine par rapport
au tour précédent du client instaurent progressivement le désalignement.
La première formulation de la demande du client est suivie par une longue
réponse du système qui contient la bonne information – il doit appeler un
autre numéro (segment entouré, 22-26) – information qui reste inaudible
pour le client jusqu’à la n du dialogue. Si on regarde de près la structure
de cette intervention du système (20-29), trois parties bien distinctes
apparaissent : une auto présentation (20-21), l’information demandée (22-
24), retour au point de départ (26-29). Ainsi, le renseignement est entouré
par des segments de discours non-pertinents par rapport à la demande du
client. D’abord l’auto présentation du système n’a pas de lien direct avec la
question posée et constitue une répétition d’un moment précédent (non-
reproduit ici) sans que cela soit précisé (par exemple – « comme je l’ai déjà
dit je suis un système vocal »). Suit ensuite le segment informationnel qui
contient beaucoup trop de détails (comme les horaires d’ouverture), mais
repose surtout sur un élément non-explicité, à savoir que le système ne
peut pas procéder à une mise en relation avec le service demandé, que le
client doit raccrocher et composer un autre numéro. L’ambiguïté sur ce
point s’avérera cruciale pour la suite de l’échange, car jusqu’à la n le client
ne révisera pas cette croyance et cherchera à obtenir la mise en relation.
Enn, le dernier segment du tour du système (26-29), qui annonce un
retour « à l’accueil » et demande quel est le service recherché, représente une
autre source de confusion car au lieu de proposer une clôture après avoir
renseigné le client, il traite la temporalité de l’échange comme réversible. La
succession des trois segments de l’intervention de l’automate contribue à
affaiblir les liens de pertinence à l’intérieur de la paire adjacente constituée
par la demande du client (19) et la réponse donnée (20-29). Un silence assez
long de six secondes marque la perplexité du client (30). À partir de ce
moment le désalignement installé s’approfondit progressivement puisque
les deux parties sont orientées par des perspectives disjointes : le système
cherche à identier quel est le service demandé, le client cherche à être mis
en relation avec le service clientèle47 par des reformulations successives de
sa demande initiale (37 : « je veux le dix quatorze », allant jusqu’à répondre
47 Une raison supplémentaire du désalignement tient au décalage entre l’horizon d’attente du client
et ce que peut offrir le système : le client a une attente normative de type « guichet unique » pour
l’accès aux services d’une entreprise. Cette attente entre en tension avec les nouvelles formes
d’organisation de la relation client reposant sur la multiplication, la spécialisation et le cloisonnement
des points de contacts. Cette tension dépasse la problématique des systèmes vocaux puisqu’elle est
Travail de la vente126
à une question non pertinente (47) en 48 : « le service client »). De cette
façon, il collabore dans les faits au maintien du désalignement en traitant
les impertinences de la machine comme normales, en essayant d’y remédier
unilatéralement, de façon typique pour l’interaction homme-machine.
Pour résumer, le phénomène de désalignement observé présente la même
forme circulaire que celui de l’exemple 2, malgré la méthode différente de
résolution de problème adoptée par le client qui consiste non pas à répéter,
mais à reformuler en reprenant des segments du discours de l’automate.
Dans les deux cas l’action des clients est guidée par des prémisses qui
s’avèrent erronées par rapport au fonctionnement de l’interface, mais ils ne
trouvent aucune prise pour les réviser et mettent n à l’interaction par des
épisodes émotionnels (cf. ex. 2 : lignes 9- 11, ex. 3 : lignes 46-50).
Le désalignement contraint donc le client à s’engager dans des opérations
d’enquête et de résolution de problèmes qui peuvent être pratiquement
et émotionnellement éprouvantes. Si le comportement amnésique et
les légers décalages interactionnels du système peuvent être surmontés
à travers l’apprentissage et le passage par des séquences laborieuses, les
obstacles liés au savoir implicite restent souvent infranchissables.
concLusIon
Une vue d’ensemble sur le corpus des appels aux deux services téléphoniques
automatisés pourrait laisser croire que la promesse des technologies du
dialogue naturel est sur le point d’être accomplie dans le domaine de
l’après-vente : dans la majorité des cas le service est rendu. Pourtant, les
résultats croisés des explorations statistiques plus poussées et de l’analyse
conversationnelle mettent en lumière une réalité plus complexe. Selon la
promesse portée par ces technologies les capacités conversationnelles des
agents intelligents rendraient possible une prise en charge « personnalisée »
de la demande du client, il sufrait que celui-ci s’exprime librement et
spontanément, en « langage naturel ». L’accès aux services serait ainsi
affranchi des contraintes imposées par l’écriture (d’un formulaire du Web
aussi observable dans les interactions avec les conseillers clients en face à face ou au téléphone, mais
les malentendus qu’elle implique sont ingérables par des artefacts.
Parler aux machines, coproduire un service 127
par exemple) ou par des systèmes vocaux à touches de type DTMF, qui
fonctionnent sur un modèle arborescent entièrement déplié face au client.
Or, les analyses statistiques et interactionnelles des dialogues montrent
que l’orientation vers la conversation ordinaire est problématique.
D’une part, la coproduction du service n’est jamais mieux accomplie
que quand la personne se conforme à un modèle standardisé dans son
échange avec l’automate, ce qui relève d’une compétence d’usage de cette
technologie. Paradoxalement, plus l’interaction s’éloigne de la conversation
ordinaire, plus les chances d’accéder au service augmentent. D’autre part,
l’analyse conversationnelle des cas de désalignement montre que, même
statistiquement minoritaires, ceux-ci ne peuvent pas être attribués au
hasard des circonstances. Ils relèvent au contraire d’un problème pratique
régulier consistant à créer un simulacre de conversation tout en désactivant
les régulations essentielles propres à cette activité (l’orientation commune
des partenaires vers un contexte dynamique, vers la séquentialité et la
temporalité de l’échange, les mécanismes de maintien de la compréhension
et de réparation des malentendus, les régulations émotionnelles). Dans
ces situations de désalignement, le client est donc laissé à lui-même pour
mener l’enquête et découvrir des modes de résolution des problèmes
valables dans cet environnement technologique. Il est donc mis au travail
pour enquêter et, dans certains cas, pour apprendre comment interagir
avec les agents conversationnels, comment réparer les désalignements et
faire sens du dialogue an d’accéder au service.
L’automatisation de la relation de service implique ainsi de nouvelles
formes de contribution du client à la coproduction en le mettant face
à des simulacres de conversation : notamment un travail d’apprentissage
de la standardisation et un travail de gestion des désalignements dans
des échanges, affranchis non seulement de la civilité mais aussi de la
temporalité comme régulations de la conversation commerciale. Ces
résultats conrment sur notre terrain d’enquête les critiques à l’égard de
l’IA formulées par des philosophes, des sociologues des sciences et des
ethnométhodologues : les automates vocaux peuvent « rendre service »
pour des tâches bien circonscrites à condition qu’ils soient débarrassés
de l’illusion de naturalité et que leurs limites soient pleinement assumées
et explicitées. Mais ces résultats apportent aussi un éclairage empirique
nouveau à ce constat en identifiant précisément le mécanisme de
désalignement à l’œuvre dans l’interaction avec les interfaces vocales. Ce
Travail de la vente128
mécanisme se caractérise par l’affaiblissement des liens de pertinence
entre les tours de parole à travers le non-traitement des problèmes liés au
savoir implicite, à la structure séquentielle de l’échange et aux expressions
émotionnelles.
En ce sens, la contribution de cette enquête aux débats sur l’intelligence
articielle, à travers l’analyse du phénomène particulier des désalignements
et la mise en lumière des activités des clients, invite à prendre acte des limites
des approches visant à copier la conversation humaine et à explorer plus en
avant les spécicités des échanges avec les automates vocaux an de mieux
équiper et soutenir cette forme particulière d’interaction de service.
Parler aux machines, coproduire un service 129
annexe : conventIons de transcrIPtIon
mot/
mot\
Intonation montante
Intonation descendante
mo : t Allongement vocalique
> mot < Débit plus rapide
mo- Troncation d’un mot
Comme, extra
MOT
° mot °
Prononciation accentuée, appuyée
Volume de voix plus fort
Volume de voix plus bas
xxx Segment inaudible
(mot) Segment difcilement audible, hésitations du transcripteur
[
[
Chevauchement de deux tours de parole
(1)
(.) (. . ) (…)
(1.5) ital.
Pauses en secondes
Pauses de moins d’une seconde (diverses longueurs)
Silence correspondant à l’écoute de l’interlocuteur au
téléphone
=
=
Tours de parole « enchainés » de deux locuteurs (se suivant
sans pause)
&
&
Continuation du tour d’un même locuteur
((rire)) Phénomènes décrits de manière non détaillée
Hhh Respiration ; la répétition de la lettre h correspond à une
durée plus importante
... La relation de service client est également un exemple de transformation et d'adoption « contrainte » des outils numériques (Velkovska & Beaudouin, 2014). Dans un premier temps, la démocratisation des TIC a soutenu l'industrialisation du service de la relation client en proposant un service à distance avec les plateaux téléphoniques et l'introduction d'outils de messagerie instantanée. ...
Thesis
Full-text available
Les outils numériques ont investi notre quotidien professionnel, facilitant le télétravail, mais nous rendant dépendants. Les dernières réglementations du Code du travail français et plusieurs études mettent en avant la dualité entre leurs bénéfices et désavantages pour l'activité des salariés. Pourtant, leur usage n'apparait pas dans la conceptualisation de la qualité de vie au travail. Ainsi, peuvent-ils être réellement qualifiés d'aide et ne sont-ils pas néfastes pour la santé psychologique des salariés ? Nous pensons que la charge mentale de travail est un concept permettant d'aborder nos interrogations. Ainsi, une première étude basée sur des entretiens subjectifs auprès des téléconseillers, témoigne de l'importance de l'évaluation cognitive individuelle des facteurs impactant la charge mentale de travail. La deuxième étude longitudinale porte sur des salariés en situation de télétravail continue et révèle le caractère multifactoriel et dynamique de la charge mentale, au cours du temps. Enfin, la troisième étude met en avant, à l'aide d'un questionnaire, l'importance du contexte d'usage et du niveau d'automatisation des outils numériques sur la charge mentale. Ces résultats participent à l'élaboration individuelle de recommandations pour la qualité de vie au travail des salariés. En effet, le salarié va évaluer l'impact des facteurs contextuels en fonction de son état psychologique du moment. En outre, la prise de recul sur ses pratiques considérant ses ressources et les stratégies d'adaptation pouvant être mises en place est également bénéfique pour les salariés, afin d'obtenir un équilibre entre la demande liée aux tâches dans un contexte donné et leurs ressources cognitives disponibles.
... Le cadre des services clients des opérateurs télécom connaît un contexte en pleine mutation, principalement au regard de l'introduction d'outils numériques de plus en plus nombreux. Afin de limiter les coûts de la relation client, les entreprises tendent à automatiser cette relation de service en déléguant les tâches les plus répétitives et ayant le moins de valeur ajoutée à des automates (Velkovska, 2014). Ainsi, l'explosion de l'utilisation des chatbots en est un exemple. ...
... Les développements technologiques ont toujours constitué l'un des pivots de l'évolution des modalités de gestion de la relation client et de ses médiations (Mallard, 2002 ;Benedetto-Meyer, 2011). L'intégration du courrier électronique au tournant des années 2000 (Licoppe, 2002), l'implémentation d'interfaces de dialogue (chat) sur les sites Web, et plus récemment l'introduction d'automates vocaux dans les centres d'appels (Velkovska et Beaudoin, 2014), répondent à un même processus de rationalisation de l'activité commerciale et de son pendant, le service après-vente (SAV). Les médiations numériques sont étroitement associées à la volonté de personnaliser et d'humaniser la relation, comme en témoignent les figures des assistants virtuels intelligents qui ont proliféré sur les sites Web des entreprises de services. ...
Article
Full-text available
Article paru dans la revue Terrains & Travaux. Dans une perspective interactionniste inspirée des travaux d'Erving Goffman, cet article décrit le travail d'intermédiation des administrateurs de pages Facebook et comptes Twitter de grandes entreprises de services (community managers). Il s'intéresse en particulier aux compétences interactionnelles et langagières mises en œuvre par ces professionnels pour apaiser les clients mécontents avant de réorienter leurs requêtes auprès des salariés chargés de leur traitement au sein des organisations. Partant du constat d'un phénomène de contournement des canaux usuels de la relation client (customer relationship management, abrégé CRM) au profit des plateformes du Web social, l'article restitue la contribution des community managers au processus de rationalisation d'une relation client numérisée, qualifiée de Social CRM. L'analyse s'inscrit, ce faisant, dans le sillage des travaux sociologiques qui questionnent le rôle grandissant de la technologie numérique dans la relation de service.
... The design and study of voice-based and conversational interaction is diverse and interdisciplinary, drawing upon work from many backgrounds including sociolinguistics [8], design and user experience [2], sociology [16], and computational paralinguistics [15]. Furthermore, the work lends itself to myriad research approaches, including ethnomethodological and conversation analytic work [7,10,11,12,17], interviews [4], and Wizard of Oz and technical probe approaches [5]. ...
Conference Paper
Full-text available
Voice User Interfaces are becoming ubiquitously available, providing unprecedented opportunities to advance our understanding of voice interaction in a burgeoning array of practices and settings. We invite participants to contribute work-in-progress in voice interaction, and to come together to reflect on related methodological matters, social uses, and design issues. This one-day workshop will be geared specifically to present and discuss methodologies for, and data emerging from, ongoing empirical studies of voice interfaces in use and connected emerging design insights. We seek to draw on participants' (alongside organisers') contributions to explore ways of operationalising findings from such studies for the purposes of design. As part of this, will try to identify what can be done to improve user experience and consider creative approaches to how we might ameliorate challenges that are faced in the design of voice UIs.
... En organisant l'environnement des individus de façon à maximiser son utilité (Cardon, 2015b). Du point de vue des professionnels du marché, l'intérêt des intelligences artificielles actuelles est alors de constituer une solution possible à l'épineux problème que pose la personnalisation de la relation avec une masse toujours plus importante de consommateurs (Beaudouin & Velkovska, 2014). En cherchant à prédire les comportements de ces derniers à partir des données qu'ils produisent, les algorithmes d'apprentissage artificiel doivent aider les acteurs de l'offre à adapter leurs environnements marchands aux attentes de chacun de leurs clients. ...
Article
Full-text available
De 1957 à 1959, Pierre Naville (1961) observe un large mouvement d’automatisation de la production des biens dans les grandes organisations économiques françaises. Une vingtaine d’années plus tard, avec le développement de ce que l’on appelle les « systèmes experts » (Crevier, 1997), ce mouvement gagne du terrain : il se déplace progressivement de l’atelier au bureau des entreprises. Par exemple, en 1988, la Digital Equipment Corporation (DEC) est composée d’un service d’intelligence artificielle de 700 personnes (Reddy, 1988) travaillant sur la conception et la maintenance de plus de 40 systèmes experts (Kupfer, 1987). L’un d’entre eux, le fameux eXpert CONfigurer (XCON), est par exemple à la charge de la définition des configurations des ordinateurs VAX. Toute la difficulté est alors, pour XCON, de penser ces configurations de façon à ce qu’elles répondent au mieux aux attentes des clients de la DEC. Ceci nous rappelle donc que cela fait plus de quarante ans que les machines se sont immiscées, non plus à l’intérieur des seuls environnements de travail des opérateurs, mais aussi au sein de ceux des techniciens et des décideurs. Il est toutefois important de préciser qu’à ce moment, ce mouvement d’automatisation du travail intellectuel n’a pas connu le succès qu’avaient prédit ses promoteurs. Les formalisations des savoirs humains qui sont au cœur du fonctionnement des systèmes experts deviennent rapidement trop complexes (XCON comporte plus de 10 000 règle en 1987 ; Simon, 1987), ce qui a pour conséquence de limiter leur efficacité. Les spécialistes de l’intelligence artificielle en concluent que les systèmes experts sont trop rigides : ils n’arrivent pas à absorber la complexité du monde et ne peuvent ainsi assister correctement les activités intellectuelles de l’organisation. Il leur manque des capacités d’apprentissage, et surtout, beaucoup de données pour pouvoir les exercer.
Thesis
Avec les outils de l’Analyse Conversationnelle, les travaux portent sur la régulation médicale téléphonique au SAMU. Dans une première partie, nous mobilisons l’ethnographie multi-modale (vidéos, photos et entretiens, in situ) pour enquêter sur les pratiques professionnelles dans les centres de réception et de régulation des appels. Dans une seconde partie, nous nous interrogeons sur la notion d’urgence en régulation médicale. L’analyse des enregistrements et des transcriptions d’appels nous permet de rendre compte des pratiques émergentes des participants aux appels au SAMU et de l’organisation séquentielle complexe de leurs interactions. Nous observons particulièrement le travail interactionnel pour convaincre de la légitimité des motifs d’appels et les processus d’auto-détermination des usagers dans leur choix de contacter le SAMU. L’examen séquentiel offre également la possibilité de rendre visibles certaines perturbations interactionnelles, parfois dissimulées, qui peuvent survenir dans le cours des appels. Le dispositif technologique et organisationnel du SAMU est ensuite envisagé dans sa dimension configurante pour l’interaction et pour les pratiques de qualification des demandes de santé. Nous examinons notamment les conséquences interactionnelles des transferts d’appels d’un interlocuteur du soin et du secours à l’autre. Dans une troisième partie, nous utilisons les analyses interactionnelles pour contribuer à la réflexion sur la transformation technologique et organisationnelle du SAMU. Il s’agit d’envisager l’apport de notre recherche au déploiement de nouvelles technologies en régulation médicale. Particulièrement, nous élaborons des principes et une méthodologie pour la conception d’une technologie d’aide à la gestion interactionnelle des appels.
ResearchGate has not been able to resolve any references for this publication.