Recherche Big Data désespérément – Saison 5 – La fiction pour maitriser la réalité

Dans cet univers d’infobésité, de proposition de lectures pléthoriques, du toujours plus vite, je mesure la chance et l’honneur que vous me faites d’accéder à cette dernière saison de Recherche Big Data désespérément.

Eh oui, j’ai bien dit dernière saison. Commencée en août 2016, cette série devait bien se terminer avec l’avènement du Big Data et de l’Intelligence Artificielle dans nos vies ! Vous constaterez en lisant les 10 épisodes de cette saison que les choses ont évolué et que l’heure n’est plus à chercher le Big Data car il nous entoure de toutes parts !

Que vous soyez lecteur fidèle depuis la première saison ou nouvel explorateur de cette quête, je vous remercie encore chaleureusement de votre soutien et de vos encouragements. N’hésitez pas à partager et à faire connaitre une série qui a eu pour ambition de démystifier le sujet de la Data. Nous avons pu suivre son émergence et c’est une chance pour nous d’avoir été là !

Episode 1 : Annus horribilis ou pas ?

31 décembre 2019. La société Bluedot alerte ses clients sur le risque d’une pandémie probable. Après coup, la presse s’en fait l’écho. Mais sur le moment qui a entendu ? Personne ! L’heure est à la Saint-Sylvestre et nous sommes un peu groggy, en France, car à peine remis de l’épisode des gilets jaunes, nous avons replongé au cœur d’un conflit social avec la réforme des retraites. Il nous faudra 3 mois pour passer de l’incrédulité au…confinement. L’IA vient de perdre la première bataille : celle de son utilité dans la prédiction ! L’art de l’alerte est une question de timing, d’intensité et de crédibilité du message.

Mais perdre une bataille n’est pas perdre la guerre. Comme un boxeur sonné, remontant sur ses jambes, l’IA et le Big Data retrouvent des couleurs grâce à leur utilisation intensive sur de nombreux cas d’usages comme modéliser l’épidémie, comprendre les flux des populations, tenter d’endiguer la propagation de l’épidémie et trouver un vaccin. En même temps, les populations suivent une formation accélérée à la Data : tous les jours des indicateurs, des commentaires, des tendances où il est question de progression exponentielle d’indicateurs, de courbes atteignant un plateaux ou de vitesse d’accélérations de chiffres… Sans compter les débats sur la pertinence de tel ou tel indicateur. Bref nous y sommes, l’importance du pilotage par la Data est ancrée dans la conscience collective pour le meilleur (lutte contre le virus) et pour le pire (manque de discernement quand le modèle validé par les Data est appliqué sans tenir compte des spécificités locales).

C’est le grand bond en avant alors ? C’est là qu’entre en scène un personnage pittoresque et controversé : le professeur Raoult

Episode 2 : Cher Professeur Raoult

Alors en plein épisode de confinement, la France va connaitre une division d’opinion dont ce pays a le secret : pour ou contre l’hydro chloroquine. Au fond, nous sommes à peu près 99,99 % d’incompétents pour avoir un avis autorisé, mais c’est pas grave car nous sommes 100 % à avoir une certitude et une position sur le sujet. Le professeur Raoult a tout du personnage charismatique qui ne laisse pas les foules insensibles : un look de druide savamment travaillé, une liberté de propos en regard des institutions et de ceux qui les animent, un anti parisianisme convenu et surtout un parcours de grand médecin qui assoit sa crédibilité et la légitimité de ses propos et de sa position.

Alors que le débat fait rage, voilà que notre Big Data va être une victime collatérale. Poussé dans ses retranchements, notre cher Professeur dérape et parle « d’une étude foireuse avec les Big Data ». L’attaque est injuste. J’ai éprouvé d’ailleurs la nécessité d’exprimer ma solidarité dans une lettre ouverte de réconfort à mon Cher Big Data dans laquelle je renvoie dos à dos d’un côté les partisans de l’observation clinique et de l’expérience, d’après eux suffisantes pour comprendre et expliquer tout phénomène ; et de l’autre côté les défenseurs de l’exploitation aveugle des Data, persuadés de révéler par les données les mystères de la nature.

Nous aurions pu en rester là mais voilà qu’au lieu de calmer le jeu, un article du Lancet, revue qui fait autorité dans le milieu médical, relance le débat. La solidité scientifique de l’argumentation de l’article sera contestée par la suite. Son effet sur notre bon professeur est terrible. En pleine audition, lors la commission d’enquête sur la gestion de l’épidémie du coronavirus, le professeur Raoult assure que « les mathématiques sont les habits des idées », que « les données chiffrées brutes sont les moins manipulables », que « tous les gens qui font des modèles projectifs sur des maladies qu’on ne connait pas sont des fous » et enfin que « la croyance aux mathématiques finie par être une religion ». Et je cours, pour une seconde fois, à l’aide, mais cette fois de ma chère Machine Learning.

Alors que je crois avoir enfin trouvé mon Big Data, le scepticisme s’exprime là où je ne l’attendais pas : au cœur même du monde de la recherche et des scientifiques !

Episode 3 : Le « Bug » Data

Ça aurait pu être une plaisanterie…si le sujet n’était pas le Covid. Nos amis d’outre-manche se prennent les pieds dans le tapis à suivre leurs statistiques de cas contaminés sur Excel en « oubliant » qu’une feuille Excel a aussi des limites.

Loin de moi l’idée de pointer du doigt l’administration britannique car franchement ce genre d’erreur peut arriver à tout le monde et surtout aux grandes administrations et aux grandes entreprises qui sont submergées par des tableaux Excel. Cet outil reste, et restera encore pour un moment, LA référence en termes de manipulation de données et en corollaire de pilotage d’entreprise. Excel fait partie de l’équipement de tout consultant, c’est l’outil chéri des contrôleurs de gestion, artistes des tableaux dynamiques croisés, c’est le moyen le plus simple pour tout à chacun dès lors qu’il faut faire une liste de chose avec des données.

Bref, Excel n’est pas mort. Bien au contraire, les dernières annonces de Microsoft d’ajouter des nouveaux types de données personnalisées, vont dans le sens de faire d’Excel un partenaire incontournable de l’IA et du Big Data. Intéressant à condition de ne pas oublier les limitations comme l’administration britannique…

Episode 4 : Du côté du fil rouge RGPD

Qui se rappelle que 2020 était un jalon important pour les entreprises sur le front de la mise en œuvre du RGPD ? 2020 marquait la fin de la période de transition définie par la CNIL, en d’autres termes la fête était finie et la CNIL devait reprendre son costume de gendarme moins bienveillant. Mais le virus est passé par là ! Et l’importance et l’urgence du RGPD ont été dégradées au second plan derrière la nécessité de s’adapter aux nouvelles règles sanitaires.

Le RGPD, notre fil rouge depuis 2018 pour la lutte pour la protection personnelle, ne tiendrait-il plus qu’à un…fil ? Je conseille à chacun de regarder le mur d’actualités de la CNIL pour se rendre compte qu’en 2020 le déploiement du RGPD est resté actif. Sur le plan sanitaire bien sûr puisque la CNIL a été impliquée dans la mise en œuvre de l’application « Stop Covid », avec d’ailleurs une étonnante « entorse » aux principes du RGPD avec la règle qui précise (je le dis avec mes mots) que l’accord de l’usage de données personnelles n’est pas nécessaire si cet usage est dans un but de protection de la santé publique. C’est un beau sujet à débattre non ?

Le gendarme n’est pas non plus resté inactif pour faire entrer des deniers dans les caisses avec récemment le cas de Carrefour pour une amende de 2,5 M€. Plus spectaculaire, les cookies d’Amazon et de Google n’ont manifestement pas été préparés avec la bonne recette ! Et bim ! Les sanctions tombent 35 M€ pour Amazon et 100 M€ pour Google ! Le plus étonnant est, en pleine négociation du Brexit, cette action conjointe avec l’organisme ICO, sorte de CNIL britannique, pour poursuivre British Airways (22 M€) et la chaine d’hôtel Marriott (20 M€). Paradoxal non ? Au moment du divorce nous trouvons de belles synergies avec les britanniques !

2020 n’a donc pas été une année blanche sur le front du RGPD et c’est le moment, à l’occasion des hommages qui sont rendus, de se rappeler que la CNIL a été créée sous le septennat de Valéry Giscard d’Estaing, suite au vote de la loi « Informatique et Liberté » dont il n’est pas mauvais de rappeler l’article 1 qui s’applique aussi à l’IA et au Big Data : « L’informatique doit être au service de chaque citoyen. Son développement doit s’opérer dans le cadre de la coopération internationale. Elle ne doit porter atteinte ni à l’identité humaine, ni aux droits de l’homme, ni à la vie privée, ni aux libertés individuelles ou publiques. »

Episode 5 : La re modélisation du SI au pouvoir

D’abord il y eut la mode des Data Lake. Sortes de grandes bassines de données avec lesquelles les data scientist de tout poil pensaient révolutionner le monde en découvrant des signaux faibles capables de nous faire comprendre l’incompréhensible. Ces Data Lake sont rapidement devenus de grands dépotoirs où s’est entassé tout et n’importe quoi. Les Data Lake sont devenus une grande décharge de données pour brocanteurs du machine Learning.

Ensuite, le Big Data a fait les yeux doux au Datawarehouse. De cette union est issue une architecture hybride qui a un gros potentiel mais qui reste encore à déployer. Architecture coûteuse qui reste quand même réservée aux entreprises qui ont les moyens d’empiler les couches et d’entretenir les compétences.

La question intéressante est : « pourquoi ne pas chercher les données dans le SI ? ». Jusqu’ici, la réponse était simple que je résumerai par « touche pas à ma production » qui sous-entend qu’on ne mélange pas les torchons de la qualité de services aux clients avec les serviettes des requêtes consommatrices des professeurs Nimbus de la Data.

Pourtant le potentiel de connaissances contenu par les données du SI est évidente à condition de s’interroger sur de nouveaux usages et de remodéliser les données en un modèle adéquat pour les moteurs d’IA. Cette question de la re modélisation est bien connue des experts de la Business Intelligence. Elle n’était pas simple, dans ce cas, car il fallait réconcilier la vision opérationnelle du SI à la vision stratégique des systèmes de pilotage. Dans le cas de l’IA, le sujet peut s’avérer plus accessibles, car il s’agit de mettre à disposition des données de qualité (c’est le cas du SI), sans trop les transformer (données quasi brutes), en quantité et à la sémantique claire car définie et produite par les règles de gestions programmées dans le SI.

Pour illustrer l’usage des données du SI, prenons deux exemples. D’abord, le cas de AAA Data, société qui avait le monopole de la gestion (et donc des données) des cartes grises en France et qui, attaquée sur son monopole, a cherché à se diversifier en utilisant sa mine d’or de données sur les véhicules pour en tirer une segmentation « Client » originale et pertinente. L’autre cas, pour rester dans cette année très médicale, est en France avec le SNDS (Système National des Données de Santé), reconnu pour posséder la meilleure base de données de santé au monde. Cette base, initialement conçue pour répondre aux besoins de la gestion des remboursements de soin, est utilisée pour traquer les médicaments dangereux et pourquoi pas, demain, prédire une épidémie ou suivre son évolution.

Les entreprises doivent aussi savoir de quoi elles sont riches ! Peut-être sont-elles juste assises sur le tas de données en or qu’elles recherchent !

Episode 6 : Le gag de l’année

Le club de football écossais Caledonian Thistle FC a décidé de s’économiser le coût d’un cadreur en utilisant des caméras automatiques dotées d’une Intelligence Artificielle, pour filmer son match contre Ayr United. Ces caméras disposent d’une fonction de suivi automatique du ballon. C’est plutôt une bonne idée pour garder l’image centrée sur l’action. Sauf qu’un des arbitres de touche a eu la mauvaise idée d’être…chauve. Et voilà qu’au lieu de centrer l’image sur le ballon, notre pauvre IA revient inlassablement sur le beau crâne de notre arbitre. L’effet est saisissant et amusant (sauf pour les supporters qui voulaient suivre le match !). Pour voir c’est ici.

Cette anecdote souligne le chemin qu’il reste à parcourir et rappelle que nous ne sommes qu’au tout début de l’aventure de l’Intelligence Artificielle. Elle appelle à la prudence mais à une prudence raisonnée car elle est plutôt drôle et finalement assez pédagogique pour expliquer l’IA par un cas d’usage et pourquoi il y a un défaut.

Episode 8 : Les artistes de demain ?

Quel peintre d’aujourd’hui peut se prévaloir d’avoir vendu une toile 432 500 $ chez Christie’s ? L’IA l’a fait ! Sûrement un effet de la nouveauté mais il est intéressant en 2020 d’observer la pénétration de l’usage de l’IA dans les différents domaines artistiques : la peinture, la musique, la danse, l’écriture… et même la cuisine (oui ! oui ! la cuisine est un art !).

Google par exemple investit beaucoup dans le domaine et la visite de son musée digital, installé dans son siège parisien, est une expérience immersive étonnante au milieu de milliers de tableaux et de photos. Utiliser l’IA et le Big Data, construit avec ces millions de données artistiques, pour un usage de classification est une idée de base, premier pas vers la reproduction puis la production d’œuvres originales.

L’IA va-t-elle être créative et supplanter l’homme dans ce domaine ? Dans le domaine de la création, comme dans les autres domaines, l’IA a une limitation : elle doit partir sur une base de connaissance. Elle rejoindra assez facilement les artistes au talent honnête, à la production de qualité mais au style finalement académique et assez convenu. En revanche, le créateur de génie, capable de sortir du cadre pour « inventer » un nouveau paradigme créatif aura toujours un avantage sur l’IA. Avantage qui sera de courte durée car l’IA s’appropriera rapidement ces nouveaux modèles esthétiques. Les suiveurs, eux, ne pourront plus faire sans l’IA !

Episode 9 : Plus jamais seul

Que vous soyez Data Scientist, Data Ingénieur, Data Architecte, un professionnel du digital (avant nous disions de l’informatique) ou tout simplement curieux, vous ne pouvez plus vous sentir seul. Que ce soient les groupes sur les réseaux sociaux, les MOOC gratuits (comme le cours de Yann LeCun sur le Deep Learning) ou les communautés de développeurs (notamment sur GitHub), il est aujourd’hui impossible de vous sentir seul.

La mode des webinaires (merci COVID) est aussi l’opportunité d’avoir des présentations intéressantes sur le sujet de l’IA et du Big Data (même si elles ont souvent une dimension marketing).

L’écosystème autour de l’IA et du Big Data est vivant et vivace. Des millions de cerveaux font tous les jours avancer le schmilblick de la Data ! J’ai personnellement observé sur le site Slack d’appel aux bénévoles, pendant le premier confinement, combien les demandes de compétences sur la Data étaient rapidement couvertes.

Sur la Data, comme le chantait Nicoletta, « la solitude ça n’existe pas » ou plutôt « ça n’existe plus ».

Episode 10 : The last but not the least

Le 3 août 2016, lassé de l’écart entre le discours ambiant sur le nouvel eldorado du Big Data et ce que j’observais au quotidien, je publiais, sur LinkedIn, « Recherche Big Data désespérément (sans Madonna dans le casting) », en référence au film avec Madonna « Recherche Susan désespérément ».

Depuis, chaque année, constatant que nous n’étions pas encore au rendez-vous de la promesse du Big Data, j’ai publié une nouvelle saison. En 2018, j’ai même eu le bonheur de réaliser une saison 3 fabriquée grâce à la contribution d’un collectif enthousiaste et passionné (ils se reconnaitront).

2020 est l’année de l’épidémie du COVID. C’est aussi l’année de l’explosion du télétravail, du e-Commerce, des webinaires, des web-apéros, de la démocratie et des polémiques sur les réseaux sociaux… en un mot du digital ! Et qui dit digital, dit Data à gogo ! La 5G qui arrive (c’est une certitude maintenant) et l’explosion des IOT va encore créer plus de données !

Il manquait la prise de conscience collective. L’avalanche des chiffres quotidiens sur l’évolution de l’épidémie mais aussi sur n’importe quel sujet (pour s’en convaincre il suffit de regarder un journal), a fait basculer le journalisme et l’opinion publique. La production d’une donnée chiffrée devient un gage d’objectivité de l’information et parfois…de polémique !

Alors, après 5 ans de quête, je peux dire avec certitude que j’ai trouvé le Big Data accompagné de son acolyte l’Intelligence Artificielle !

Je crois en l’avenir, je crois au Big Data, je crois à l’IA mais je crois surtout à l’humain et à la planète qui doivent rester les grands bénéficiaires des apports de ces technologies.

Pour rester lucides, n’oublions jamais ces deux citations paradoxales qui nous obligent à garder notre libre arbitre : « sans mesures, tout n’est qu’opinion » et « les chiffres sont des êtres fragiles qui, à force d’être torturés, finissent par avouer tout ce qu’on veut leur faire dire. »

Mentions

Si vous avez aimé faites-le savoir en partageant ce billet. N’hésitez pas également à livrer vos commentaires et vos expériences.

Si vous voulez accéder à mes autres billets c’est ici.

Si vous ne voulez pas manquer les prochains articles : demandez à être enregistré à mon blog.

Crédit photo : montage personnel tiré du net

Retour aux autres saisons de Recherche Big Data désespérément

Retour au coin de l’IA et de la Data

Retour à la page d’accueil du blog de Jean