[retour à un affichage normal]

Accueil > Outils > Histoire d'une impasse

Histoire d'une impasse


Vers la fin du XXe siècle, un chercheur de l’Institut d’Études Politiques de Grenoble, Dominique Labbé, a développé des enquêtes en paternité fondées sur des statistiques lexicales. Son algorithme mis au point, il en a démontré la fiabilité en se livrant à de nombreuses expériences d'attribution d'auteur en aveugle, toujours avec succès: romanciers anglais du XIXe siècle, textes politiques du XXe siècle ont ainsi paru démontrer la fiabilité de la méthode.

Persuadé de l'importance de sa découverte, D. Labbé a cherché vers qui il pourrait se tourner pour assurer la plus grande publicité possible à son travail, et il a appris l’existence de la trouvaille de Louÿs, reprise textuellement quarante ans plus tard par Henry Poulaille (qui avait racheté une partie de ses manuscrits), et sommairement résumée par Hippolyte Wouters, un avocat belge qui a vu là l’occasion de taquiner l’insupportable sentiment de supériorité des Français. Au lieu d’adopter l’approche scientifique qu’on aurait attendue de la part d’un chercheur universitaire travaillant dans un laboratoire lié au CNRS et qui aurait consisté à consulter les spécialistes d’une des disciplines dont relève l’étude de Molière (historiens de la littérature et/ou du théâtre) pour savoir que penser des travaux de Louÿs et de ses deux successeurs, ou pour s'enquérir auprès d'eux si les pièces de théâtre en alexandrins du XVIIe siècle ne mettaient pas en jeu un vocabulaire et des tournures spécifiques qui pouvaient rendre difficile l'application de son algorithme sur des textes de ce type, D. Labbé s’est jeté sur cette affaire pour «prouver» qu'il avait trouvé le moyen infaillible de faire reconnaître l'auteur d'un texte à partir du seul lexique.

Dépourvu de toute compétence en littérature, et fort de sa seule compétence en statistiques lexicales (que personne, même aujourd'hui, ne lui conteste), il a cru qu'il n'y avait pas de différence entre la prose et les vers, expliquant alors que les textes versifiés n'avaient pour toute spécificité que le fait d'avoir une majuscule en tête de chaque vers et qu'il suffisait donc d'ôter ces majuscules pour se retrouver devant l'équivalent d'un texte en prose!!!…

En outre, décidé à vérifier la trouvaille de Louÿs, il a pensé naïvement que pour savoir si c'est bien Corneille qui a écrit les pièces de Molière, il suffisait de lancer son algorithme sur les seules pièces de Corneille et de Molière. Et, comme on pouvait s'y attendre, son algorithme a permis de relever qu'il y avait bel et bien des ressemblances lexicales entre deux comédies de Corneille écrites durant la première moitié de la décennie 1640 et les pièces de Molière publiées une vingtaine d'années plus tard.

Malheureusement, loin de faire preuve de la prudence des autres spécialistes de lexicométrie en matière de «distance» entre les textes — voir l'étude de Étienne Brunet — il a aussitôt prétendu triomphalement qu’il avait «prouvé» l’intuition de Louÿs grâce à une démarche «scientifique».

Or la méthodologie qu’il a adoptée n’a rien de scientifique.

  1. a – Partant du principe que, lorsque la «distance intertextuelle» entre deux textes est nulle (égale à zéro), on est en présence de la même œuvre ou de deux œuvres du même auteur, la méthode consiste à mesurer les écarts. D. Labbé a estimé que pour seize pièces de Molière, les écarts avec les pièces de Corneille (tout particulièrement Le Menteur et La Suite du Menteur) sont assez faibles pour pouvoir en déduire qu’il s’agit du même auteur.

Malheureusement pour la prétendue scientificité de sa démarche, c’est M. Labbé lui-même qui a déterminé le seuil à partir duquel la distance entre deux œuvres révélerait que c’est un même auteur qui les a écrites.

  1. b - On remarque ensuite que l'essentiel des pièces attribuées à Corneille, à part Don Juan et L’Avare, sont celles qui sont en vers, et toutes celles qui ne sont pas attribuées sont en prose (ainsi que les douteuses). Or, ce qu’ignorait D. Labbé lorsqu’il s’est lancé naïvement dans son entreprise (et ce qu’il refuse d’entendre maintenant qu’on lui a expliqué), c’est que l'emploi du vers implique des contraintes, dans le retour du vocabulaire impliqué par un nombre de rimes relativement réduit et dans les constructions syntaxiques, ce qui confère une uniformité certaine aux centaines de milliers d'alexandrins qui ont été écrits au 17e siècle. De plus, le choix de composer un « poème dramatique » — terme qui englobait alors tragédie, tragi-comédie, et grande comédie — engage automatiquement un certain registre de langue, ce qui réduit considérablement les champs lexicaux.

Or de cela, la méthode Labbé ne tient aucun compte.

    1. Elle a été éprouvée, dit son auteur, sur «plusieurs milliers de textes de toutes origines (romans, articles de presse, discours politiques, entretiens…)» (abrégé français de leur article anglais), bref sur de la prose, c’est-à-dire sur un mode d’écriture qui ne présente aucune contrainte formelle. De ce point de vue, il en va tout autrement des genres relevant au XVIIe siècle de la «poésie», comme le théâtre en vers : les contraintes sont telles qu’elles obligent les auteurs à resserrer considérablement leur «liberté d’expression» et que les différences entre les uns et les autres (ce qui fait par exemple que le vers de Racine est globalement plus «musical» que le vers de Corneille) ne tient pas au choix des mots, mais à leur disposition et au rythme du vers (question de rhétorique et non de lexique).

    • Concernant la question des registres, qui engage le choix des mots, il faut savoir qu’un même auteur ne pouvait pas écrire de la même manière une « petite comédie » en un acte et en prose et une « grande comédie » en cinq actes et en vers. Ainsi, dans une comédie à tonalité farcesque, il ne sera guère fait usage de métaphores amoureuses, telles que «feux», «flammes» et «fers», etc., sauf, exceptionnellement à titre parodique. Les écarts entre la «grande comédie» du Misanthrope et la «petite comédie» en trois actes du Médecin malgré lui, qui sont de la même année, peuvent commencer par s’expliquer par là, avant de conduire à la conclusion que les deux pièces ne sont pas du même auteur.

    • Et à l’intérieur des «grandes comédies», il faut encore mettre à part Don Garcie de Navarre, qualifié par les contemporains (voir encore Donneau de Visé) de « pièce sérieuse ». Comme l’indique la qualité des personnages (princes, princesses et leurs confidents), la pièce ressortit au genre que Corneille avait baptisé «comédie héroïque», impliquant le même très haut style que la tragédie (les règles théâtrales interdisaient de faire parler un prince comme un marchand). Par là s’explique évidemment que Don Garcie puisse être rangé, du point de vue de la statistique lexicale, comme une œuvre de Corneille, au même titre que Psyché. En ne tenant pas compte de cela, la méthode de D. Labbé s’invalide d’elle-même…

    • Tout ce qui précède montre qu’il est normal que l’écart entre les deux Menteurs de Corneille et, par exemple, Les Femmes savantes de Molière soit relativement étroit, alors même que trente années les séparent. Estimant à juste titre que, en trente ans, le style et le vocabulaire d’un même auteur devraient changer, D. Labbé en déduit au contraire une extraordinaire unité dans l’œuvre de Corneille ! Mais ce qui est extraordinaire, c’est cette manière qu’a D. Labbé de gauchir, en faveur de sa thèse, tous les raisonnements au risque de se contredire lui-même. Car ce qu’il faut déduire de sa remarque, étant donné que vocabulaire et style de Corneille auraient dû changer en trente ans, c’est la stabilité des contraintes d’écriture liées à l’expression en vers. Ce que les spécialistes sérieux de lexicométrie appellent la loi des genres.

On lira avec profit l'étude d'un de ces spécialistes sérieux de lexicométrie, Etienne Brunet, qui montrait dès 2004, que la méthode de D. Labbé ne peut rien démontrer en matière de paternité, surtout dans la mesure où elle aboutit à montrer la prédominance des genres (voir son étude: "Où l'on mesure la distance entre les distances").

  1. c – Non seulement la méthode ne tient aucun compte des spécificités du théâtre de l’époque, mais le travail a d’emblée été conçu comme la vérification d’un fait établi (une assimilation Corneille-Molière), et non pas comme la mise à l’épreuve d’une hypothèse. Aussi D. Labbé n’a-t-il lancé sa recherche que sur les œuvres de Corneille et de Molière. Et cela au nom d’un prétendu acquis de sa méthode éprouvée sur des milliers de textes en prose : «Il n’est donc pas nécessaire de comparer Molière à tous les auteurs de théâtre de son temps. Pour trancher la question de savoir si Corneille peut être l’auteur de certaines comédies de Molière, il suffit d’examiner la distance séparant chacune des pièces d’un des auteurs à toutes celles de l’autre…» (C. & D. Labbé)

Une telle affirmation — dont la formulation relève strictement d’un faux syllogisme, c’est-à-dire d’un pur sophisme — est proprement inacceptable concernant le théâtre du XVIIe siècle du fait des contraintes de genre signalées plus haut.

    • - Il aurait fallu au contraire préalablement et parallèlement lancer des recherches du même type sur les correspondances entre Thomas Corneille et Molière, Claude Boyer et Molière, afin d'être sûr qu'on n'aboutirait pas à des résultats "prouvant" que Th. Corneille et Boyer ont écrit la moitié des pièces de Molière (et bien sûr les mêmes pièces que celles que D. Labbé attribue à Corneille).

    • - Inversement, il aurait fallu lancer des recherches permettant de comparer les deux Menteurs de Corneille et d’autres comédies de la même période, soit de Boisrobert, soit du grand rival de Molière en matière de comédies, Monfleury fils, soit de Thomas Corneille, soit d’un successeur. Si toutes ces comédies avaient présenté une valeur supérieure à 0, 22 (moyenne du rapport entre Le Menteur et les comédies de Molière attribuées à Corneille), on aurait pu commencer à discuter sérieusement. On verra un peu plus loin qu'il a fallu attendre que d'autres que D. Labbé se lancent dans ce travail, et qu'il suffisait d'ajouter un tout petit nombre de comédies écrites par d'autres que Corneille et Molière pour invalider la méthode de D. Labbé.

    • - De même, lorsque une bonne partie du corpus théâtral du XVIIe siècle sera pris en compte, on pourra commencer à réfléchir sur les prétendues «signatures» ou «empreintes digitales» que constitueraient les combinaisons de mots. Montrer que l’association «faire voir» se retrouve à un même degré et avec une même fréquence chez Corneille et chez Molière, alors qu’elle est absente chez Racine, ne prouve rigoureusement rien. Non seulement la différence entre les genres n’a pas été prise en compte, une fois de plus, mais on n’est pas allé voir si cette combinaison pouvait se retrouver, et avec quelle fréquence, chez les auteurs contemporains autres que Racine : quelle est donc cette démarche qui se prétend scientifique et qui réduit l’extraordinaire richesse de la production théâtrale du 17e siècle à Corneille, Molière et Racine, c’est-à-dire aux trois auteurs qu’a retenus l’institution scolaire ?

Récapitulons : lorsqu’on prétend déterminer l’attribution d’une œuvre en confrontant seulement deux auteurs — deux auteurs contemporains, pratiquant le même genre littéraire, et dont l’un, comédien, connaissait par cœur les pièces de l’autre —, on a toutes les chances d’aboutir à « prouver » ce qu’on avait préalablement posé. Surtout lorsque ces deux auteurs œuvrent dans un mode d’écriture aussi contraint que le théâtre du XVIIe siècle. Surtout aussi lorsque la pierre de touche n’est constituée que par deux œuvres du premier auteur. Et surtout enfin lorsqu’on a soi-même décidé du seuil qui permet d’attribuer la paternité d’une œuvre ! Bref, une vraie démarche scientifique se serait donné les moyens de montrer que l’écart entre les deux Menteurs de Corneille et les comédies de plusieurs de ses confrères est significativement supérieur à l’écart entre les Menteurs et les grandes comédies de Molière. C’était d’autant plus nécessaire que M. Labbé avait commencé par affirmer lui-même (p. 2 du résumé en français de son premier article paru dans le JQL) : «entre 0.20 et 0.25, il est pratiquement certain que l’auteur est le même. Sinon, les deux textes ont été écrits à la même époque, sur le même sujet et avec des arguments identiques.»

Depuis 2003, il a été demandé à D. Labbé de se prêter à cette véritable démarche scientifique. Et l’article d'Étienne Brunet, cité plus haut, aurait dû contribuer plus que tout autre à le pousser à élargir son corpus pour tenter de prouver qui, de lui ou de E. Brunet, avait raison. Au lieu de quoi, D. Labbé, sourd et aveugle à tout, s’est contenté de reproduire sans arrêt dans des livres, des articles et des communications les mêmes conclusions biaisées tirées de la même enquête initiale incomplète. Il a fallu qu'un autre de ses confrères en lexicométrie, Charles Bernet — il fut l’un des pionniers de cette discipline et avait montré toute sa richesse il y a une trentaine d’années en publiant un Vocabulaire de Jean Racine qui a fait date —, se lance dans ce travail en reprenant l’ensemble du protocole de D. Labbé et en se bornant à ajouter quelques pièces : nous reproduisons ici son étude qui a paru en 2009 (avec son aimable autorisation et celle des éditeurs du volume dans lequel cette étude a paru). Or les conclusions de Charles Bernet sont sans appel :

Les expériences rapportées dans ce travail invalident les conclusions de Cyril et Dominique Labbé et montrent que la lexicologie quantitative n’apporte pas d’arguments en faveur des "intuitions" de Pierre Louÿs.

Il vaut donc la peine de lire l’intégralité de son étude: «La «distance intertextuelle» et le théâtre du Grand Siècle».

On consultera aussi une autre étude de Charles Bernet, à peine plus ancienne, consacrée aux mots placés à la rime dans un corpus de pièces du xviie siècle. Cette étude fait ressortir des différences statistiquement significatives entre les comédies de Corneille et celles de Molière: ces différences affectent aussi bien la répartition de syllabes en fin de vers que la distribution d'unités lexicales thématiques et non thématiques.

Malheureusement D. Labbé aujourd'hui encore s'obstine dans l'impasse dans laquelle il s'est enfermé. Au lieu de tenter d'en sortir élégamment en reconnaissant que son algorithme était parfait pour calculer la distance lexicale entre toutes les formes de textes en prose — ce que tous les spécialistes en statistiques lexicales lui reconnaissent sans réserve —, mais qu'il ne pouvait pas permettre des reconnaissances en paternité pour des textes aussi contraints par la forme que les textes en vers, il continue de tenter de "prouver" en allant chercher des inventions historiques, des textes biaisés, en rejetant des textes et des témoins contemporains qui prouvent le contraire etc (tout ce que nous dénonçons par ailleurs sur le présent site). Et sans observer que AUCUN de ses confrères spécialistes en lexicométrie (qui tous, encore une fois, le suivaient lorsqu'il s'agissait de comparer des textes en prose) n'a accepté ses conclusions sur Corneille et Molière, il reste persuadé de sa juste cause en se croyant victime d'un complot général… Et il invoque quelques conférences qu'il aurait faites ici ou là (l'Université de Paris-Orsay, le Trinity College de Dublin, l'Université de Neuchâtel en Suisse) pour faire croire que ces conclusions ont été acceptées par quelques universitaires français ou étrangers, sans préciser qu'il s'agissait à chaque fois d'exposés non contradictoires présentés devant un auditoire qui n'avait aucune connaissance préalable des contraintes de la lexicométrie en matière de textes en vers et des réalités historiques du XVIIe siècle: comme la présentation des travaux de D. Labbé offre toutes les apparences extérieures de la scientificité, ils peuvent, rapidement exposés devant un auditoire non spécialisé (même s'il s'agit de mathématiciens ou de statisticiens), être tenus pour "vrais". Ils n'en restent pas moins parfaitement faux et n'en continuent pas moins d'être totalement rejetés par la totalité de la communauté scientifique (et en premier lieu, soulignons-le une dernière fois, par tous les spécialistes de statistiques lexicales et de lexicométrie).

____________________________________________________________

Page précédente: Une rapide orientation pour le visiteur pressé

Sous-chapitre suivant: Questions de syntaxe

Chapitre en cours: L'informatique (chap. 2)

Partie en cours: Le témoignage des textes (Troisième Partie)




Présentation | Plan général | Plan détaillé | Index des pages | Accès rédacteurs