Les big data peuventelles révolutionner l’action politique ?
Le traitement des données numériques permettrait de prendre des décisions plus rapides et plus actualisées
Les données digitales permettraient des décisions plus rapides
Alberto Cavallo a grandi en Argentine à la fin des années 1980, le pays subissait alors une de ses crises monétaires récurrentes. L’inflation galopante transformait les banales courses quotidiennes en un éprouvant marathon. Tous les jours, Alberto Cavallo et sa mère se rendaient à la banque afin de retirer juste assez de pesos pour les achats nécessaires, gardant le reste de leurs économies en dollars. Ils se précipitaient ensuite au magasin du quartier et s’emparaient de ce dont ils avaient besoin le plus rapidement possible, espérant atteindre la caisse avant que la liste des prix ne soit de nouveau mise à jour. “Si nous n’arrivions pas à temps à la caisse, nous devions retourner
à la banque et recommencer”, se souvient-il. Cette histoire a semé les graines de ce qui deviendra l’une des expériences les plus étonnantes dans l’univers traditionnellement figé des statistiques économiques : une tentative d’exploiter l’explosion des “big data” pour améliorer, compléter et peutêtre même remplacer les formes traditionnelles de données qui continuent d’alimenter et de façonner le point de vue d’innombrables décideurs, politiques, universitaires, et d’orienter des centaines de milliards de dollars en investissement. Alberto Cavallo est aujourd’hui professeur d’économie appliquée au MIT, où il dirige le Billion Price Project avec Roberto Rigobon, également professeur au MIT. Le projet a été lancé en 2006 : le
L’exploration de ces nouveaux jeux de données était autrefois l’apanage de hedge funds “quantitatifs” sophistiqués. Certains ministères des Finances, des banques centrales et des organismes de statistique commencent maintenant à se pencher sur ce terrain afin de mieux comprendre les cycles économiques, et cette évolution pourrait avoir d’importantes répercussions sur les politiques publiques
gouvernement argentin d’alors était accusé d’avoir manipulé ses données sur l’inflation. Les deux professeurs ont réalisé qu’ils pouvaient élaborer une mesure plus précise et mieux actualisée du taux d’inflation véritable en compilant les prix publiés en ligne par les commerçants argentins. Depuis le changement de gouvernement en 2015-2016, l’Argentine a mis à disposition un indicateur d’inflation plus précis. Le volet commercial du projet, PriceStats, recueille maintenant suffisamment de données pour fournir des mises à jour quotidiennes de l’inflation de 22 économies nationales. “C’était une sorte d’accident. Mais nous nous sommes vite rendu compte qu’il avait des applications ailleurs”, raconte le professeur Alberto Cavallo. Le projet n’est qu’un exemple parmi d’autres d’une tendance plus large consistant à ratisser l’océan de données pour trouver des indications sur la performance des entreprises, des secteurs ou des économies tout entières. Certaines données fournissent déjà des aperçus utiles, quoiqu’imparfaits. Mais certains experts prédisent que les empreintes digitales de nos vies connectées pourraient, au bout du compte, se retrouver sur une carte en temps réel des tendances économiques, ce qui rendrait les statistiques actuelles aussi archaïques que l’information sur le fret ferroviaire des années 1920. La profondeur de nos empreintes numériques dépasse l’entendement. Une étude de l’International Data Corporation estime que la production annuelle mondiale de données double tous les deux ans, et que sa taille globale devrait atteindre 44 zettaoctets (1021 octats, c’est-à-dire des milliards de giga-octets) d’ici 2020. Si toutes ces informations étaient placées dans des tablettes, la pile atteindrait plus de six fois la distance de la Terre à la lune. “Tout ce que vous voulez savoir sur l’économie est accessible dès maintenant, si vous pouvez puiser dans le jeu de données approprié”, affirme Tammer Kamel, directeur de Quandl, un portail d’accès aux
données alternatif. “C’est l’une des grandes opportunités. Ces rapports économiques sont lents mais influencent directement le marché, et en fouillant au bon endroit, vous pouvez désormais les connaître.” Cela peut sembler ambitieux, étant donné que les big data peuvent être criblées de failles et de biais, qu’ils soient évidents ou plus opaques. Mais certains scientifiques affirment qu’à mesure que nos vies migrent en ligne, nous pourrions nous rapprocher du jour où les statistiques économiques quasi instantanées deviendront réalité. “Ce n’est pas une mince affaire de réunir toutes les données et de les présenter sous la forme appropriée”, reconnaît Jonathan Shaw, directeur, à l’Institut Alan Turing de Londres, d’un nouveau programme consistant à exploiter les données alternatives dans la recherche économique. “Mais dans 10 ans, j’imagine que nous serons beaucoup plus près de disposer d’une carte en temps réel de l’économie. Si nous n’avions pas cela dans dix ans, je serais déçu.” En 2016, lorsque le RoyaumeUni a voté en faveur du Brexit, de nombreux économistes ont prédit une catastrophe rapide. Une enquête a révélé une chute record de l’optimisme dans le secteur des services immédiatement après le référendum sur le Brexit, et Goldman Sachs a prédit que le Royaume-Uni allait sombrer dans une récession. Mais l’économie a jusqu’à présent fait preuve d’une remarquable résilience. Tout le monde ne s’y est pas mépris. En 2015, la société d’investissement britannique Schroders avait mis en place une unité d’analyse des données pour l’aider à évaluer les nombreuses nouvelles informations numériques, y compris les données de cartes de crédit, qui ont fourni un aperçu des tendances de dépenses en temps réel. Malgré le sentiment de morosité généralisé, les données ont révélé un impact négligeable de la décision britannique. “Nous avons pu rassurer nos gestionnaires de fonds : les choses avaient l’air d’aller, et quelques mois plus tard, les données officielles l’ont confirmé”, explique Mark Ainsworth, responsable de l’analyse des données chez Schroders. “Toutes ces données numériques peuvent vous donner un aperçu plus actuel de l’économie”, conclut-il. Le potentiel est vertigineux. Les fils d’actualité des réseaux sociaux peuvent être utilisés pour construire des instruments de mesure de l’opinion en temps réel. Depuis l’espace, les satellites voient quels navires
accostent, où et quand, savent si les cuves de pétrole sont pleines ou vides, connaissent la qualité d’une récolte ou même la productivité d’un haut-fourneau. Les achats par carte de crédit et les factures par mail témoignent des dépenses des consommateurs. Les offres d’emploi publiées sur des centaines de milliers de sites de carrières ou de sites d’entreprises peuvent révéler les tendances du marché de l’emploi. Et les smartphones envoient des données de localisation montrant où nous sommes à tout moment, tandis que l’Internet des objets révèle nos habitudes alimentaires quotidiennes grâce à des réfrigérateurs connectés au web. L’exploration de ces nouveaux jeux de données était autrefois l’apanage de hedge funds “quantitatifs” sophistiqués. Certains ministères des Finances, des banques centrales et des organismes de statistique commencent maintenant à se pencher sur ce terrain afin de mieux comprendre les cycles économiques, et cette évolution pourrait avoir d’importantes répercussions sur les politiques publiques. La crise financière a mis en évidence des failles majeures dans les chiffres officiels. Le comité de datation des cycles économiques du Bureau national de recherche économique (NBER), arbitre semi-officiel des contractions économiques américaines, a attendu décembre 2008 (trois mois après la faillite de Lehman Brothers) pour déclarer que l’économie américaine était effectivement entrée en récession un an plus tôt. Alors que de nombreux économistes étaient arrivés à la même conclusion depuis un certain temps déjà à partir des données mensuelles et trimestrielles, qui se détérioraient rapidement, les statistiques officielles ne permettaient pas de suivre correctement le rythme auquel l’économie s’enlisait, se souvient Diana Farrell, ancienne directrice adjointe du Conseil économique national (NEC) sous l’administration Obama. “L’économie allait beaucoup plus mal que nous ne le pensions, et notre réponse politique reposait sur une estimation de récession beaucoup plus faible”, admet-elle. Diana Farrell dirige aujourd’hui le JPMorgan Chase Institute, un think-tank créé par la banque pour transformer ses propres données clients en précieux renseignements économiques et politiques. Entre autres, il a analysé le rôle de l’économie des petits boulots (ou “gig economy”), l’impact des dépenses directes de santé engagées par les ménages sur le bien-être financier d’une famille, et la façon dont les ajustements des remboursements hypothécaires jouent sur les défauts de paiement ou les dépenses de consommation. Diana Farrell affirme que les big data pourraient avoir un impact “énorme” sur les politiques publiques, surtout en période de récession. “Il y a beaucoup de choses auxquelles les données traditionnelles ne peuvent répondre en temps de crise”,
précise-t-elle. “Je ne pense pas que cela supplantera les statistiques de base, mais il est clair que cela peut les compléter.”p À l’heure actuelle, le Bureau d’analyse économique (BEA) du département américain du Commerce produit les chiffres trimestriels pour le PIB. Mais même les relevés “éclairs” (“flash readings”) arrivent avec un mois de décalage,g, et sont sujetsj à des révisions fréquentes. À l’avenir, les agences pourront produire des données économiques beaucoup plus rapides, prédit Philippe Jordan, président du hedge fund français CFM. “La publication trimestrielle des données sur le PIB paraîtra désuète”, affirme-t-il. “Il est extrêmement complexe de structurer les données. Mais nous pourrions peutêtre commencer par obtenir des données économiques mensuelles plutôt que trimestrielles. Ce serait là un premier pas prometteur.” Il y a encore des sceptiques dans le domaine. Ewan Kirk, directeur des investissements chez Cantab Capital, un hedge fund appartenant au gestionnaire de fortune suisse GAM, souligne que nombre des jeux de données prometteurs examinés par son équipe finissent par s’avérer inutiles à des fins d’investissement : selon lui, il est loin d’être certain qu’ils s’avéreront beaucoup plus utiles pour prédire les tendances économiques. “L’économie est une chose vraiment compliquée, un ordre de grandeur plus compliqué que les marchés financiers”, remarque-t-il. “Ce qui est lucratif en ce moment, c’est d’être un fournisseur de données alternatif, pas un utilisateur de données alternatif.” Les économistes se sont améliorés dans l’élaboration de statistiques mieux mises à jour, à partir de données traditionnelles, pratique connue sous le nom de “prévision immédiate” (ou “nowcasting”). Certains soutiennent que les nouveaux jeux de données numériques n’ajoutent presque rien à la précision d’un modèle de prévision immédiate. Par exemple, le Canada publie déjà des données mensuelles sur le PIB, et le Royaume-Uni le fera bientôt. Les analystes de données et les statisticiens admettent les difficultés parfois importantes pour rendre utilisables des jeux de données souvent confus. L’information sur les citoyens âgés n’est souvent pas couverte par les données des smartphones ou des réseaux sociaux, et les données des cartes de crédit ne saisissent qu’une partie des dépenses. Les images satellites peuvent être paralysées par mauvais temps. Certains avancent que les principaux obstacles sont d’ordre logistique et réglementaire : l’information est répandue dans le secteur privé, entre les mains des banques, des entreprises télécoms, des plateformes de réseaux sociaux ou chez les industriels. Dans certains cas, ces données peuvent être obtenues à un certain coût, mais dans de nombreux cas, des restrictions juridiques limitent ce que les entreprises peuvent partager, et des contraintes pratiques limitent ce qu’elles souhaitent révéler. Parallèlement, de nombreux organismes publics de statistiques manquent souvent des ressources suffisantes pour acquérir et exploiter ces nouveaux jeux de données.
“Les défis techniques sont ardus, mais surmontables… Les gens sousestiment les défis réglementaires”, explique Diane Coyle, professeure d’économie à l’Université de Manchester et chargée de cours au Bureau des statistiques nationales du Royaume-Uni. Elle défend l’idée selon laquelle les organismes publics de statistiques devraient avoir libre accès aux données importantes du secteur privé, étant donné l’enjeu que représente pour les politiques publiques l’accès à des données de meilleure qualité, plus réactives et plus fines. Mais la centralisation d’énormes bases de données soulève des problèmes de sécurité et de respect de la vie privée, car ils comprennent souvent des informations sensibles, explique Mark Ainsworth chez Schroders. “La question que nous devrions nous poser au niveau de la société est de savoir si nous devons protéger la vie privée ou si nous devons regrouper toutes ces données en un seul
endroit”, dit-il. “Parce que c’est numérique et personnel, et cela devrait être traité avec respect.” La perspective d’indicateurs en temps réel, fins et précis dérivés des big data est-elle réalisable, ou est-elle de l’ordre du fantasme ? Les sceptiques notent que “mégadonnées” n’est pas nécessairement synonyme de “bonnes données”. Ce qui est gagné en rapidité peut être largement perdu en exactitude, et cette dernière devrait rester la priorité des organismes statistiques. Le professeur Cavallo conçoit ces nouvelles sources de données numériques comme un complément aux informations traditionnelles. Il doute de voir ces dernières supplantées à court ou moyen terme. “Ce n’est pas parce qu’on peut tout mesurer que tout a de la valeur”, dit-il. Néanmoins, les premières étapes de ce qui promet d’être une révolution des données numériques sont en marche. Les optimistes affirment qu’ils sont déjà capables de mesurer les tendances économiques d’une manière qui aurait été inenvisageable il y a dix ans à peine. Les jeux de données existants présenteront des séries chronologiques plus longues, ce qui permettra une modélisation plus précise, et de nouvelles données seront disponibles. Cela devrait permettre d’améliorer la précision et d’accélérer la création de statistiques globales et actualisées sur des économies entières. Le professeur Coyle estime que le domaine en est au “stade du
battage médiatique”, mais prédit que “les choses progresseront rapidement.”
La perspective d’indicateurs en temps réel, fins et précis dérivés des big data est-elle réalisable, ou estelle de l’ordre du fantasme ? Les sceptiques notent que “mégadonnées” n’est pas nécessairement synonyme de “bonnes données”. Ce qui est gagné en rapidité peut être largement perdu en exactitude, et cette dernière devrait rester la priorité des organismes statistiques