Rédouane Taouil et le Nobel de l’économie : La révolution de la crédibilité, la scène et les coulisses

La distinction « Nobel d’Économie » a été décernée en 2021 à trois figures maîtresses des expérimentations naturelles. Rédouane Taouil, professeur à l’Université de Grenoble Alpes, livre des éléments de réflexion sur les méthodes et les résultats représentatifs de cette approche.

En décernant le prix en mémoire d’Alfred Nobel à Joshua Angrist, David Card et Guido Imbes, La Banque de Suède acte la part de plus en plus large allouée à l’économie empirique à travers sa composante expérimentale. Les lauréats, auteurs d’études marquantes sur la relation entre le salaire minimum et l’emploi, les rendements de l’éducation et l’impact des chocs migratoires sur le marché du travail, s’illustrent par le recours à la méthode des expérimentations naturelles. L’objet de ces études, qui s’ingénient à faire parler des données silencieuses est l’identification de relations causales au moyen d’observations opératoirement construites sur le même mode que les expérimentations aléatoires contrôlées issues des sciences biologiques et médicales.

Les résultats obtenus par l’utilisation des dispositifs de variables instrumentales ou de doubles différences sont placés par Angrist et Pischke (2010) sous le signe de la révolution de la crédibilité des méthodes économétriques. A questionner ces résultats, on s’aperçoit qu’ils sont par trop sensibles aux procédures d’identification. Cette contingence affecte leur validité en même temps qu’elle compromet leur prétention à évaluer des propositions théoriques. La crédibilité revendiquée n’apparaît pas, à l’examen, liée à la nature de leurs méthodes mais à des considérations de qualification qui tiennent à leur positionnement dans le champ de la microéconomie appliquée autant qu’à leur imbrication avec des institutions d’actions publiques.

A la recherche de la cause retrouvée

Depuis son émergence en tant que discipline motivée par « le mariage entre la théorie et les faits économiques », l’économétrie connaît un débat récurrent sur les liens entre ceux-ci et celle-là dont les termes sont dominés par l’opposition entre deux démarches. L’une consiste à produire des observations à partir de spécifications déduites de propositions théoriques : par-delà la différence des techniques, les modèles sont conçus sous la tutelle de ces propositions. L’autre forme des énoncés sur la base d’analyses de données en faisant un faible usage de la théorie. L’affirmation de la vogue expérimentale depuis l’orée de la décennie 2000 a manifestement accentué cette configuration en renforçant la défiance à l’égard de tout corps d’assertions a priori. Le recul corrélatif de la théorie au profit de constructions empiriques et de l’expertise n’a pas manqué d’inciter les protagonistes de cette vogue à proclamer un basculement en faveur de leur approche. Angrist soutient, en leader, que grâce aux expériences de terrain et aux expérimentations naturelles, l’économétrie lève la malédiction proférée par Leamer (1983) : « il y a deux choses qu’il vaut mieux ne pas regarder lors de leur fabrication, les saucisses et les estimations économétriques ». La quantification de relations à partir de l’observation fine de données d’expérimentations naturelles, dans lesquelles l’assignation aléatoire est provoquée par des décisions publiques, des comportements individuels ou des aléas, est jugée en mesure d’éviter les écueils consécutifs au choix des variables et de formes fonctionnelles. A cet égard, les estimations par variables instrumentales sont sollicitées en vue d’évaluer l’effet causal de la variable d’intérêt comme c’est le cas dans l’étude de la relation éducation-revenu (Angrist et Krueger 1999 ; 2001). Cette technique, qui revient à supposer que les individus possèdent des caractéristiques similaires, repose sur l’utilisation d’une variable censée avoir un impact sur la variable explicative sans affecter la variable expliquée. Une autre procédure, celle des doubles différences, consiste à repérer l’impact d’un événement en comparant les évolutions du groupe test affecté par cet événement et du groupe témoin. Le rapport causal est saisi sous l’hypothèse que ce groupe constitue le contrefactuel : il ne se différencie du premier que par la seule caractéristique d’être à l’abri de l’évènement.

Les promoteurs de la révolution de la crédibilité confèrent à leur pratique économétrique une triple vertu. D’abord, elle s’assigne la mise au jour d’explications à l’abri de biais par omission de variables ou d’auto-sélection. La comparaison en respect de la clause de toutes choses étant égales par ailleurs est de nature à permettre l’inférence de résultats excluant les facteurs de confusion. Ensuite, les procédures d’identification sont censées asseoir, de par l’évaluation d’impact qu’elles permettent, des préconisations de mesures sur des preuves. Enfin, les résultats peuvent tenir lieu d’instance d’évaluation des théories par le contrôle empirique de leurs énoncés. Par exemple, l’infirmation de la relation inverse entre salaire et emploi est tenue pour emblématique de la valeur critique des expérimentations naturelles.

Sous ces aspects, les adeptes de la révolution de la crédibilité prônent un idéal expérimental où la confirmation d’hypothèses causales se situe dans une perspective résolument empirique suivant laquelle l’observation est à la base de la connaissance du réel. Les études de Card et Krueger (1995) sur l’impact du salaire minimum sur l’emploi et d’Angrist et Krueger (1991) sur l’éducation et les salaires, dont les échos sont manifestes au sein de micro-économétrie, sont des parangons à cet égard.

Ainsi, le repérage d’un impact non significatif voire positif sur le niveau d’emploi d’un relèvement du salaire minimum, qui a créé des effets de surprise parce que contredisant une prédiction théorique, a suscité un vif débat. Il s’agit d’une conclusion dérivée de l’analyse de données d’enquêtes sur 410 entreprises de restauration rapide en New Jersey et Pennsylvanie. A l’aide de la stratégie de doubles différences, cette analyse compare les incidences de la hausse du salaire horaire de 4,25 et 5,05 dollars en 1992 dans le premier État aux évolutions dans le second État où les rémunérations sont restées constantes. L’évolution différenciée ainsi observée est mise en avant comme un signal éloquent de la pertinence des expérimentations naturelles. L’étude des rendements de l’éducation participe également de ce changement. L’effet causal qu’elle met en exergue entre la durée des études et le niveau des salaires est identifié par le recours aux variables instrumentales. En considérant que tout se passe comme si la durée des études est la conséquence d’une affectation aléatoire, Angrist et Krueger utilisent le trimestre de naissance comme substitut à cette variable, indépendant de tout déterminant du revenu y compris les capacités individuelles. A cet effet, ils procèdent à des estimations de l’impact de la durée des études expliquant ainsi les écarts de salaire par les différences entre cette dernière. Cette estimation possède aux yeux des auteurs des attributs pour bénéficier de crédibilité : elle écarte les biais qu’induisent les variables manquantes.

En considérant que leur pratique économétrique est une alternative qui s’impose dans les diverses sous-disciplines, les tenants des expérimentations aléatoires en appellent à une reconfiguration des normes d’analyse selon leur style d’investigation. Ainsi, ils prescrivent un découplage vis-à-vis de la théorie économique en récusant la référence à tout système de concepts et propositions ordonnées selon des règles d’inférence et de combinaison. A ce titre, ils s’inscrivent en faux contre l’usage de principes purement hypothético-déductifs dans la spécification des relations économiques. La conséquence d’une telle position est double. D’une part, l’ambition de l’ancrage empirique est consacrée en matière de construction de vérification des assertions impliquant un rétrécissement de la vocation de la discipline au profit de ses dimensions de description quantitative et opérationnelle. D’autre part, à l’encontre des problématiques globales est privilégié le lotissement de terrains d’études en objets spécifiques où un nombre très réduit de variables est mis en forme par l’intermédiaire de procédures et techniques dans le but de produire des énoncés localement situés.

Validité ou qualification ?

La problématique d’ensemble du programme expérimental se ramène in fine à la dérivation de la relation causale d’intérêt au moyen de procédures d’identification sous l’égide de l’hypothèse toutes choses égales par ailleurs. Si l’on s’interroge sur cet exercice, il apparaît qu’il n’a guère les titres de validité affichés par la rhétorique de la crédibilité. La quête de causalités rencontre des limites qui jettent le doute sur les stratégies d’identification (Angrist, Imbes et Rubin 1996) Ainsi, les estimateurs par variables instrumentales semblent problématiques. Il est hautement improbable que la condition d’exogénéité, dont le rôle est crucial, soit satisfaite. Malgré les apparences, le choix du trimestre de naissance par Angrit et Krueger ne vérifie pas l’hypothèse selon laquelle l’instrument n’exerce pas d’impact sur la variable explicative. Une faible corrélation entre celle-là et celui-ci signale des difficultés liées à l’association entre l’instrument et les variables omises. D’abord, le trimestre de naissance peut être relié à l’origine sociale. Ainsi que l’affirment certaines enquêtes, la probabilité de naître en hiver des enfants de familles aisées est très faible. Ensuite, l’instrument peut être corrélé à des différences entre personnes nées à des périodes différentes en termes de santé physique et santé. Enfin, il existe également des contrastes dans les aptitudes intellectuelles. Ces observations, qui impliquent que les individus ne sont pas équivalents, ne sont pas sans compromettre l’identification du lien causal. Ce défaut de contrôle adéquat grève les estimations de biais analogues à celles des régressions multiples qui, elles, visent à détecter l’impact simultané de plusieurs variables. Si pour ces régressions l’omission d’une variable pertinente fausse l’inférence statistique, les variables instrumentales ne peuvent remédier à cette omission en supposant que les individus sont a priori homogènes. Encore faut-il que la testabilité prouve que l’instrument est conforme aux critères de la connexion causale. Évoquer des motifs qui plaident en faveur de l’exogénéité ne saurait suffire pour exhiber sa qualité. Dans ce contexte, la crédibilité de la stratégie d’identification n’est pas assurée d’autant que l’utilisation d’un instrument faible peut aboutir à des conclusions douteuses comparativement aux régressions multiples qui, si elles ne livrent pas d’interprétations causales sans biais, elles fournissent des descriptions fines de l’impact propre des variables observées. La stratégie des doubles différences est sujette à des difficultés de même nature. Sa validité n’est pas sans pâtir de l’hypothèse d’homogénéité des groupes de traitement et de contrôle. Si dans le cadre des randomisations, le protocole peut fixer les caractéristiques de l’échantillon à travers la constitution des groupes, rien ne garantit a priori, quant aux expérimentations naturelles, la comparabilité. Il est nécessaire dès lors de convoquer des données pour construire des scénarios où les deux groupes ne connaissent des évolutions différenciées qu’à travers l’intervention étudiée. Pareille tâche requiert la collecte d’informations et leur traitement moyennant des hypothèses auxiliaires en vue d’établir des bases de comparaison. A cet effet il s’impose non seulement d’assurer l’homogénéité de l’échantillon, mais de construire le contrefactuel de sorte que la différence d’évolution soit imputée à l’intervention considérée.

Quelle que soit la qualité de ces opérations, qui supposent de nombreuses clauses implicites, il n’est guère possible d’isoler les paramètres d’intérêt sans écarter arbitrairement les interactions qui s’exercent simultanément. Ainsi, mesurer l’impact d’une différence de salaire minimum ne saurait faire abstraction de l’intensité du travail, de la demande des biens ou des marges des entreprises. En conséquence le différentiel d’impact ne saurait avoir nécessairement pour origine la variable observée.

Au regard de ces limites, la réception du programme expérimental s’explique par sa qualification au sens de Lévy-Leblond. Selon cet auteur, l’admissibilité d’une grille d’analyse est due moins à la validité de ses principes de méthode ou de son contenu qu’à son insertion dans des forums disciplinaires, de l’expertise et de la décision publique ou privée. Ainsi des analyses, dont la validité est largement reconnue, peuvent être disqualifiées sans que leur argumentation conceptuelle ou leur énoncés empiriques soient pris en défaut. A l’inverse, d’autres peuvent être en vogue du fait de leur qualification tant par le discours qu’elles tiennent sur elles-mêmes que par leur environnement socio-cognitif. La révolution de la crédibilité se prête à l’interprétation dans ces termes. Ainsi à observer « ses instruments rhétoriques », on constate qu’elle place au rang d’un verdict la célèbre conclusion de Robert LaLonde (1986) selon laquelle les estimations par les méthodes expérimentales sont systématiquement supérieures aux autres techniques économétriques quelle que soit leur nature. Cette affirmation sert d’appui à la promotion des stratégies du programme expérimental et de sa capacité de constituer une base empirique ferme. Si l’on se penche sur ces énoncés, force est de constater leur vulnérabilité. Ils sont, par construction, contingents : leur signification est tributaire des procédés de traitement des données, de leur mise en cohérence, comme de la stratégie identificatrice et des hypothèses auxiliaires. Cette contingence a une double implication. En tant que compte rendu de données expérimentales ou apparentées, les résultats ne présentent pas un caractère catégorique. Du fait de la flexibilité interprétative à laquelle ils se prêtent, la relation causale mise en relief reste occasionnelle. Son degré d’acceptabilité étant dépendant de la confiance portée aux conditions de sa formulation, elle ne peut être contraignante ou conclusive. Dans le même temps, il y a un hiatus entre les énoncés et leur portée normative. La validité externe n’est pas acquise du fait de l’impossibilité d’extrapolation des observations à d’autres contextes. Par conséquent, les résultats ne peuvent fonder des préceptes d’actions publiques.

En second lieu, les énoncés empiriques ne peuvent servir dans la validation ou l’invalidation de propositions théoriques. Celles-ci ne peuvent être mise en relation avec ceux-là du fait de leur disparité. Des observations élaborées à l’aide d’une démarche qui octroie le primat aux données ne peuvent être confortées à des propositions déterminées de bout en bout par des schémas conceptuels. Qui plus est, il n’est légitime de séparer chacun des énoncés d’une théorie pour le soumettre isolément au contrôle empirique fût-il appuyé sur une situation expérimentale. Supposer l’indépendance mutuelle des énoncés théoriques contredit, non seulement, leur caractère nécessairement insécable, mais condamne l’épreuve empirique à l’ambiguïté dans la mesure où on ne sait pas la partie de la théorie à infirmer. Dès lors les énoncés empiriques ne sauraient avoir un pouvoir de confirmation ou de réfutation.

Investisseurs par excellence dans la crédibilité, les adeptes des expérimentations naturelles soutiennent que leur programme marque un changement radical de perspective. Ainsi, ils disqualifient l’économétrie structurelle raillant aussi bien l’économie industrielle que la macroéconomie qu’ils jugent trop abstraite pour intégrer des enjeux pratiques. Sur cette base, ils s’efforcent d’accréditer l’idée que l’originalité de leur projet réside dans la construction de relations causales à l’aide d’un langage d’observation neutre, libre de postulats et d’axiomes. Cette justification du style d’investigation va de pair avec l’intégration dans des réseaux de publication et de circulation des études où des alliances et cautions multiples participent d’une orientation commune autour d’une « boîte à outils », de résultats et d’exemples considérés comme fondamentaux. L’activité scientifique et la mobilisation en vue de la reconnaissance par les pairs sont inséparablement menées pour la diffusion du programme expérimental. Pour autant, l’extension du champ d’explication à d’autres lots de la microéconomie et aux politiques macroéconomiques est fortement encouragée. Le désintérêt pour les questions de théorie et les différends au sein de la macro-économétrie sont exploités en ce sens par les stratagèmes rhétoriques de la crédibilité pour justifier les opportunités qui s’offrent aux expérimentations naturelles.

Outil pour la décision, le programme expérimental doit ses bénéfices réputationnels à sa sollicitation dans le forum des actions publiques pour des évaluations d’impact et la conception de mesures assorties de preuves. Ainsi que l’illustre le financement d’études évaluatives de projets éducatifs en 2002 et 2003 aux États-Unis, les randomisations et les quasi-expérimentations ont renforcé leur autorité en tant qu’outil de connaissance et de preuve pour l’action. L’utilité et l’efficacité qui leur est conféré à cet effet ont favorisé l’attribution de crédits pour d’autres projets concernant notamment le comportement du marché du travail. L’élargissement corrélatif des canaux d’influence par l’intermédiaire des réseaux d’expertise auprès des décideurs publics consolide leur crédibilité. Ces derniers, pour leur part, font appel, dans le but de légitimer leurs actions, à des récits sur les avantages de l’investissement en capital humain ou des dispositifs d’emploi imprégnés précisément de relations causales. Sous ce rapport, le programme expérimental participe à la certification d’objectifs et instruments d’interventions publiques et élargit en retour sa crédibilité.

Au total, la représentation du programme expérimental sur la scène s’adosse à l’accord sur les vertus prêtées aux techniques d’administration de preuves de causalité et à l’ancrage de connaissance dans le dévoilement de faits loin de l’emprise de la théorie. Si l’on regarde du côté des coulisses, la crédibilité apparaît comme le produit conjugué de positions institutionnelles dans les forums de la discipline et des décisions publiques. La qualification qui résulte de l’accord à l’œuvre dans ces forums l’emporte sur les critères de validité afférents à la causalité comme principe organisateur des explications. On est en droit à cet égard de se demander pourquoi un tel principe est propulsé sur le devant de la scène alors que son importance est, comme le souligne Étienne Klein (2018), déclinante depuis longtemps dans les sciences dures. Cette interrogation est d’autant plus légitime que la causalité empirique a pour conséquence l’abandon d’une question fondatrice de l’économétrie à savoir, les rapports avec la théorie. Eu égard à ce prix à payer, on ne saurait donner crédit au découplage tant vanté par le programme expérimental. N’en est-il pas de la crédibilité comme de la vérité selon Richard Rorty (1980) ? Un compliment qu’on adresse à ses propres analyses.