Essen + Trinken: Das sind die Grundlagen unseres Lebens...oder nicht?
Gesellschaften, wenn Menschen in Gemeinschaften leben, organisieren sich um die "Grunddaseinsbedürfnisse, um die Daseinsgrundbedürfnisse...", Essen, Dach über dem Kopf, Arbeit und ... Gesundheit der Kinder.
Wie und was Menschen essen und essen können, wie das Essen zubereitet wird, das definiert eine Gesellschaft.
Wir sprechen. Und wir sprechen nicht alle gleich. Und selbst unsere "Muttersprache", unsere "erste" Sprache, die Sprache die wir als unsere Heimatsprache verstehen, selbst diese Sprache zeigt unsere Herkunft und Geschichte.
Wir haben einen... Akzent oder nicht?
Was nun, wenn man die individuelle Sprachform nicht länger besitzen soll? Wenn die Einheitssprache, die Standardsprache, die Normsprache also alle anderen Varianten ausradiert? Wenn der Computer und die KI eine neue, gleichförmige Sprachnorm erst vorstellt, dann allen Sprechern aufzwingt?
Juin 2022, l’entreprise SANAS annonce avoir récolté 32 millions de dollars pour la création d’une technologie basée sur l’intelligence artificielle dont l’objectif est de supprimer les accents. Septembre 2022, la plate-forme voit le jour non sans créer intérêt, curiosité et émoi tant dans le monde anglophone que francophone.
De tels logiciels nous plongent dans une dystopie contemporaine où la technologie vient faire disparaître les différences, les marqueurs de l’identité et les cultures des individus. Cette idée n’est pourtant pas nouvelle : le film « Sorry to bother you » sorti en 2018 abordait déjà la question de l’accent des populations africaines-américaines dans une satire sur les centres d’appel.
Bande-annonce du film « Sorry to Bother You ». Source : Universal Pictures France.
Alors comment peut-on réellement supprimer un accent ? Entre utopie et dystopie, pourquoi développer une intelligence artificielle capable de « supprimer » les accents peut-il être un problème plus qu’une solution ? Que supprime-t-on de plus qu’une marque sonore en neutralisant un accent ?
Comment l’intelligence artificielle peut faire taire un accent
L’accent peut être défini comme un faisceau d’indices souvent oraux (les voyelles, les consonnes, l’intonation, etc.) qui participe à l’élaboration plus ou moins consciente d’hypothèses sur l’origine géographique, sociale ou langagière des individus. Cet accent peut être dit, entre autres, « régional » ou « étranger » en renvoyant à des imaginaires différents. La pertinence de l’identification d’un accent réside dans le fait qu’un certain nombre de caractéristiques sonores semblent homogènes chez des locuteurs d’une langue, d’une zone géographique ou d’un groupe social, comme le souligne Philippe Boula de Mareüil.
Ces technologies issues de start-up constituent souvent une boite noire et peu d’informations concrètes sur les outils employés pour « supprimer » l’accent sont disponibles. Toutefois, les moyens sont multiples et ils visent principalement à transformer en partie la structure de l’onde sonore afin de rapprocher certains indices acoustiques vers une norme perceptivement déterminée. On pourra ainsi jouer sur le timbre de certaines voyelles, la réalisation de consonnes ou encore transformer des paramètres comme le rythme, l’intonation ou l’accentuation en fonction de cibles perceptives attendues. Dans le même temps, on maintiendra un maximum de paramètres vocaux permettant d’identifier la voix du locuteur initial à l’image du voice cloning pouvant conduire à des arnaques au deepfake vocal. Ces technologies permettent de dissocier ce qui est de l’ordre de la parole de ce qui tient à la voix.
Le traitement automatique et en temps réel de la parole pose des difficultés technologiques dont la principale réside dans la qualité du signal sonore à traiter. Néanmoins, il existe différentes solutions en s’appuyant sur le deep learning et les réseaux de neurones, ainsi que les grands corpus de parole, qui permettent de mieux gérer les incertitudes dans le signal.
[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]
Dans le cas des langues étrangères, Sylvain Detey, Lionel Fontan et Thomas Pellegrini repèrent quelques enjeux inhérents au développement de ces technologies, à savoir quelle norme retenir pour mener une comparaison avec ce qui est attendu, ou encore le rôle que peuvent avoir les corpus dans la détermination de ces objectifs – sans qu’il se dégage pour le moment de réponses particulièrement prometteuses.
Le mythe de l’accent neutre
Cependant, l’identification d’un accent ne se limite pas aux seuls indices acoustiques. Donald L. Rubin a pu démontrer que des auditeurs peuvent recréer l’impression d’un accent perçu simplement en associant aux voix des visages aux origines supposées différentes. De la même manière, en l’absence de ces autres indices, les locuteurs ne sont pas si bons dans leur capacité à reconnaître des accents qu’ils n’entendent pas régulièrement ou qu’ils se représentent de manière stéréotypée, par exemple l’idée selon laquelle il y aurait beaucoup de consonnes en allemand.
Vouloir supprimer les accents pour contrer les effets sociaux d’une discrimination sur l’accent revient à poser la question de ce qu’est un accent « neutre ». Or, toutes les variations de prononciation impliquent des représentations. Médéric Gasquet-Cyrus, « spécialiste du marseillais » selon les médias, rappelle que même l’accent dit « parisien » est un accent. En français, l’accent que l’on qualifie de « standard » a évolué en s’appuyant sur des groupes sociologiquement dominants : haute bourgeoisie parisienne, médias (radio, TV), classes moyennes favorisées par exemple.
Tour de France des accents régionaux et la discrimination linguistique (France24).
Depuis plusieurs années, des chercheurs et chercheuses regroupées dans un collectif tentent de déterminer les contours d’un français de référence en s’appuyant sur les similitudes qui existent entre tous les parlers de la francophonie. Le projet « Phonologie du français contemporain » a ainsi permis de mettre à disposition du grand public des accents à entendre.
Il faut également noter que la valeur que l’on attribue à un accent (fort, doux, romantique, dur) dépend largement des individus, des époques et des groupes sociaux. Toutefois, Iván Fónagy, philologue hongrois, a mis en évidence que les individus ont tendance à attribuer les mêmes propriétés à des sons dans son ouvrage La vive voix : Essais de psychophonétique : le /r/ un son bagarreur, le /i/ comme petit, le /u/ (la graphie « ou ») comme opulent, etc.
Supprimer ou garder, l’œuf ou la poule ?
En sociologie, Wayne Brekhus pose la question de la nécessité de porter un regard sur l’invisible et de traiter en même temps le marqué et le non marqué – l’accent et ce que l’on considère être un non-accent. Cela amène à revoir les rapports de pouvoir qui existent entre les individus et la manière dont on homogénéise le marqué : celui ou celle qui a (selon les autres) un accent.
Aussi, nous sommes amenés à questionner comment les technologies émergentes peuvent nous rendre plus « acteur » ou « actrice » qu’« automate », selon Catherine Pascale, en participant à la création d’un cadre éco-éthique. Supprimer un accent, c’est valoriser un type d’accent dominant tout en négligeant le fait que d’autres co-facteurs participeront à la perception de cet accent tout autant que l’émergence de discriminations sur la langue. Supprimer l’accent ne supprime pas les discriminations. Au contraire, l’accent fait entendre l’identité participant ainsi à des phénomènes d’humanisation, d’adhésion au groupe voire d’empathie : l’accent est bien altéritaire.
Si l’évolution des technologies par l’intelligence artificielle et le deep learning proposent à la société des potentialités encore inexplorées, elles peuvent également conduire à une dystopie où la déshumanisation conduit à reléguer au second plan le rôle politique et social, pourtant majeur, sur le vivre ensemble et la diversité dont fait écho la Déclaration universelle de l’Unesco sur la diversité culturelle.
Plutôt que de les cacher, il semble nécessaire de sensibiliser les recruteurs à la manière dont les accents peuvent participer à la satisfaction client et que les politiques se saisissent de cette question. Si l’Assemblée nationale avait fait un pas fort en votant, en 2020, un texte interdisant les discriminations à l’accent, La Provence rappelle que le Sénat ne semble pas s’en saisir puisqu’il n’apparaît toujours pas à son ordre du jour, deux ans plus tard.
Tu touches là à une question vieille comme le monde et qui reste dans une large mesure un mystère, riche en paradoxes et en controverses. « Qu’est-ce que donc le temps ? Si personne ne me le demande, je le sais. Si quelqu’un pose la question et que je veux l’expliquer, je ne sais plus ». Dans sa quête du temps, Augustin d’Hippone (Algérie) ira bien sûr plus loin, mais le dilemme qu’il soulève au IVe siècle reste d’actualité.
Sauf à souffrir d’une des multiples formes de pertes de mémoire, nous pouvons plus ou moins bien nous souvenir du passé, mais, et c’est regrettable, nous ne pouvons plus agir dessus. Aussi, si nous pouvons avoir une vague idée de notre futur immédiat, de ce que nous ferons dans une heure, voire lors de nos prochaines vacances, l’avenir reste indécis.
Quelle est donc l’origine de cette « flèche du temps », comme l’a appelée l’astrophysicien Eddington ? Pour lui, un des paradoxes de la physique est que la flèche du temps est absente des lois fondamentales de la Nature. Pour rester dans un cadre simple, considérons les lois de Newton ou lois de la mécanique classique. Elles permettent de déterminer le mouvement d’objets simples lorsqu’ils sont soumis à des forces, par exemple la gravité. Ces lois sont réversibles. Cela veut dire que si on filmait le mouvement d’une particule sous l’action d’une force, il nous serait impossible de dire si le film nous est projeté à l’endroit ou à l’envers. Et il en ainsi pour toutes les lois fondamentales connues et vérifiées, et ce y compris en mécanique quantique. Le temps peut s’écouler dans un sens ou dans un autre, peu importe.
Très bien, mais c’est clairement en contradiction avec notre expérience quotidienne ! Si une bouteille de jus de fruits en verre m’échappe des mains et tombe – en suivant pour le coup les lois de Newton – elle a toutes les chances de voler en éclats en touchant le sol. Si une personne devait filmer ce moment embarrassant, elle n’aurait aucun problème à faire la différence entre une projection de ce film à l’endroit ou à l’envers car personne n’a jamais vu des débris de verre et des gouttes de jus se regrouper pour spontanément reconstituer la bouteille. C’est regrettable, mais c’est comme ça.
Or, dans une large mesure, notre bouteille de jus est soumise aux mêmes lois que les objets simples. La grande différence est que lorsqu’elle casse (et que son jus se répand), elle se décompose en une myriade d’objets simples (débris de verre et gouttes). C’est là une clé de l’irréversibilité.
Alors que notre bouteille est un objet ordonné et structuré, dont la chute est simple et déterminée, ses débris sont grandement désordonnés et ont de multiples manières de se répandre dans l’espace : il y a une seule bouteille mais d’innombrables versions de la bouteille cassée. Alors que chacun des débris est soumis à des lois déterminées et réversibles, tenter de suivre leur évolution un à un deviendrait rapidement impraticable. En outre, si tant est que nous ayons cette capacité, la moindre altération provoquée par un élément extérieur – une goutte s’évaporant, un petit coup de balai sur les morceaux de verre – rendrait la tâche réellement impossible. Le futur est hautement contingent : une chose peut se produire… ou pas.
Cette évolution vers le désordre est une des lois de la nature. Mais ce n’est pas une loi fondamentale. C’est ce qu’on appelle une loi émergente. Elle existe parce qu’il y a une nouvelle distinction à faire dans le comportement de la matière lorsque l’on passe d’un petit à un grand nombre de constituants. En principe, rien n’empêcherait que notre bouteille ne puisse se reconstituer. En pratique, c’est infaisable car il faudrait pour ce faire maîtriser un grand nombre de paramètres et ce avec une très précision infinie. Dès lors, cela devient hautement improbable. Cette nouvelle loi, valable lorsqu’il y a un grand nombre de constituants, est caractérisée par une nouvelle quantité physique qu’on appelle l’entropie.
La flèche du temps, phénomène macroscopique et émergent, est associée à la tendance qu’a l’entropie d’augmenter, cette tendance naturelle qu’à l’ordre à évoluer vers le désordre.
Dès lors, une question clé est de savoir comment l’ordre peut exister s’il ne s’agit de l’état le plus probable ? Dans le cas de la bouteille, la réponse est claire. C’est un produit manufacturé qui a nécessité de l’énergie sous des formes diverses et variées pour devenir un objet structuré (la bouteille et son jus). Reste que son destin est de se dégrader à plus ou moins court terme et il en est ainsi pour toute chose ordonnée, à commencer par les corps vivants et, voyons large, l’Univers dans son ensemble.
Dès lors, l’origine de la flèche du temps de l’Univers (pour rappel, notre Univers est en expansion et aurait un âge d’environ 13,6 milliards d’années) revient à se demander pourquoi il est apparu « ordonné ». Les anciens ne s’y trompaient pas. Cosmos est issu du grec κόσμος, kósmos, « bon ordre, ordre de l’Univers ». La science propose une réponse partielle qui repose sur l’hypothèse de l’inflation, une expansion rapide qui aurait eu lieu au tout début de l’Univers. Son lien avec l’émergence de la flèche du temps reste matière à débat et touche à la nature même du temps en Relativité générale, mais ceci est une autre histoire.
Si toi aussi tu as une question, demande à tes parents d’envoyer un mail à : tcjunior@theconversation.fr. Nous trouverons un·e scientifique pour te répondre.