Recherche Big Data désespérément – saison 4

Publié par

Trois ans déjà ! C’est bien en 2016 que je témoignais sur ma quête du Big Data alors que j’étais en charge du sujet dans un grand groupe bancaire. Depuis de l’eau a coulé sous les ponts et je ne suis pas certain qu’elle ait alimenté en eau potable les milliers de data lake qui se sont créés dans le monde.

En 2018, la saison 3 a été jouée a plusieurs mains et ce fût un opus très riche et réussi. Pour cette saison 4, je reviens à une écriture en solo. J’ai créé avec mon épouse Hilldale Conseil sur le concept de « la fiction pour maîtriser la réalité » et le changement de projet professionnel a fait bouger les lignes de mes activités autour de la Data. Je n’en ai pas moins été actif sur le sujet et l’évolution de mon point de vue me permet d’aborder d’autres aspects dans cette saison. J’en ai d’ailleurs profité pour écrire en 2019 une autre série pour expliquer l’épopée de la Data à travers les âges (pour ceux que ça intéresse c’est ici).

La donnée personnelle avait été la grande star des années 2017/2018 avec la mise en place du RGPD. Aujourd’hui, l’Intelligence Artificielle attire tous les projecteurs des médias sur elle faisant parfois oublier que, sans la Data, l’IA serait restée dans une époque d’hibernation…

Reconnaissons qu’il nous reste beaucoup de travail pour concrétiser la promesse de l’IA et de la Data et que le sens de ma quête pour trouver le Big Data perdure ! Dans cette saison il sera notamment question du foisonnement des start-up, de Hadoop qui se démode, de la percée des usages de l’image et du Langage naturel ou de l’explosion de la vocation des professeurs de l’IA.

Episode 1 : dis Papa quand est-ce qu’on arrive ?

Flashback. Mars 2019. Grand amphithéâtre du Palais des Congrès. Le salon du Big Data a ouvert ses portes. C’est l’occasion d’établir le bilan annuel sur les usages de la donnée. Le BCG nous explique que la Chine et les US font la course en tête ; que l’Europe est en retard mais peut revenir si les investissements sont importants ; que les entreprises sont en retard sur leur intention de déployer des projets Data, projets Data qui trop souvent encore ne transforment pas la promesse du POC… Impression générale largement confirmée par les retours d’expériences clients, intéressantes sur le papier (je devrais dire sur les slides) mais dont il est évident que tout est en chantier… Et en même temps des grandes envolées lyriques sur l’éthique, la féminisation de l’IA, les enjeux politiques… Bref, je peux déjà annoncer la saison 5 de cette série ! La route est encore longue et je ne sais dire combien de temps il reste avant que la science de la Data soit digérée par les entreprises mais, comme je suis optimiste, je préfère retenir que le sujet continue à avancer…

Episode 2 : start-up nation

Un après-midi d’avril dans les locaux prestigieux de la Bpifrance. Lors de la journée organisée par le think tank Data et IA, des startups vont, selon le terme à la mode, « pitcher » leur offre. Venus pour supporter nos amis de Synaplus et leur belle offre COSMO (outil pour améliorer la productivité des Data Scientists), nous écoutons la demi-douzaine d’entreprises retenues ce jour-là. Depuis début 2019, mes contacts avec les start-up opérant (ou voulant opérer) dans la sphère de la Data se sont accélérés. La série d’interventions de ce jour confirme mon analyse sur l’extrême morcellement des offres qui est la conséquence du foisonnement des créations de start-up dans la DataTech. Pour m’y retrouver je vois finalement trois catégories d’entreprises : celles qui n’ont pas de produit et qui proposent des services (en fait de l’assistance technique de Data Scientists), celles qui ont un produit générique (comme un framework pour data science ou un atelier de développement) et enfin celles qui ont un produit Métier. Vue des clients, c’est très compliqué de s’y retrouver et souvent c’est la composition de différentes solutions qui couvrira leur besoin. Le foisonnement a du bon pour créer une dynamique mais viendra un moment où la survie de ces start-up passera par leur rapprochement et leur concentration dans des offres plus complètes et cohérentes et surtout plus lisibles pour les acteurs du marché et c’est d’ailleurs bien ce qui se passe dans l’univers Hadoop.

Episode 3 : mais où est passé Hadoop ?

Trois ans en arrière, impossible de parler Big Data sans parler Hadoop. Si ce terme était la super star des dîners technologiques en ville (voir saison 1), il a cédé le pas au vocabulaire de l’Intelligence Artificielle. Les 3 champions de cette époque sont en pleine mutation (pour na pas dire en pleine déconfiture). Hortonworks et Cloudera se sont rapprochés après nous avoir expliqués pendant des années combien ils étaient différents l’un de l’autre créant ainsi des chapelles entre spécialistes, sans d’ailleurs que le commun des mortels comprenne quoique ce soit à ce débat un peu mystique. Le troisième larron, MAP/R a, quant à lui, été racheté par HPE. HPE ! Autant dire un représentant de l’antiquité de l’informatique mais qui, lui, se porte toujours bien. La preuve ! La MagIT titre même sur « l’hiver des pure-players du Big Data ». Winter is coming ! L’architecture Hadoop, que j’appelle plutôt le framework Hadoop, n’est pas morte mais elle est maintenant remisée au clou des offres du cloud et il n’est plus très intéressant de parler de ce qui se passe sous le capot de la Data…

Episode 4 : changer de paradigme ?

Data lake. Data centric. Data driven. La Data nouvel or noir. Le paradigme du Big Data est-il toujours aussi pertinent ? Centraliser dans un endroit unique toutes les données afin d’en tirer la substantifique moelle est le Graal de tout Data Scientist. N’est-ce pas l’origine des difficultés à transformer les projets Data ? Regrouper toutes les données de l’entreprise impose de s’entendre sur la sémantique, sur la sécurité (attention RGPD veille), sur la gouvernance (prendre la meilleure donnée et gérer les évolutions), bref c’est créer une synergie entre les différents Métiers de l’entreprise qui est juste une tâche titanesque. Les GAFA n’ont pas eu ce problème car par construction ils se sont construits autour de la donnée. Prendre les GAFA en modèle et l’appliquer, c’est oublier l’histoire de l’entreprise, pour certaines centenaires. La Data ne sera pas forcément là où on l’attend (Data Lake) mais là où elle se trouve réellement (dans les systèmes). C’est tout l’enjeu des architectes Data de trouver l’équilibre entre centraliser la donnée (paradigme actuel) et utiliser la donnée source grâce notamment à l’ouverture des API.

Episode 5 : là où ça marche !

Quand je prétends chercher encore le Big Data, je dénature un peu la réalité en oubliant qu’il existe des domaines où le Big Data existe et fait ses preuves ! Deux exemples : le traitement des images et le traitement du langage. Tous les jours je suis épaté par les progrès dans le traitement des images que ce soit pour la reconnaissance faciale ou pour l’analyse radiologique en médecine. Concernant le langage, reconnaissons que les Siri, Cortina, Google home et cie ont fait des progrès incroyables depuis quelques années. Quel est l’origine de ce succès dans l’usage de la donnée ? Le volume (des milliards de clichés disponibles ou de textes lus), l’apprentissage (des milliers de personnes payées à former les modèles) et surtout peu de débat sémantique : un chat est un chat, un mot est un mot. N’oublions jamais que quand un ordinateur analyse une photo, il analyse un espace de pixels et par analogie avec des milliers de photos décide si c’est un chat, un chien ou tata Jeannine alors qu’un humain le sait pour l’avoir vu une fois !

Episode 6 : de la confiture aux cochons

Le marketing n’est pas une science exacte. On le sait. Les personnes du marketing sont des créatifs souvent passionnés. Mais comme « qui aime bien châtie bien », je ne peux m’empêcher dans cette saison 4 de pousser un petit coup de gueule sur tous les services marketing de la planète. Enfin ! Voilà des acteurs qui ont l’usage de la donnée encré dans leurs gènes professionnels, qui n’ont pas attendu la mode du Big Data pour manier statistiques, modèles, segmentation pour mieux cerner leur marché. Des acteurs qui ont été naturellement les premières cibles des vendeurs de Big Data et qui ont bénéficié des premiers modèles comme le churn (attrition). On pourrait s’attendre que le marketing soit le fer de lance de l’usage du Big Data. Que neni ! Je n’ai jamais reçu autant de sollicitations commerciales par tous les canaux : téléphone, courrier, mail, sms… A quoi ces données et l’IA servent-elles sinon à être plus intelligent dans la relation client ? Nous sommes encore très loin du compte !

Episode 7 : les gendarmes et les voleurs

En 2018 entrait en vigueur le Règlement général sur la protection des données (RGPD). Début 2019 le journal Les Echos titrait : « RGPD : plus de 95.000 plaintes déposées, pour trois sanctions ». La CNIL avait prévenu qu’elle serait bienveillante sur les premiers contrôles. Cela peut expliquer l’écart entre le nombre de plaignants et le nombre de sociétés redressées. En mai, un article de la news letter de LCI relevait 144 300 plaintes soient 50 000 de plus en 5 mois ! Je n’ai pas encore les chiffres mis à jour mais nous restons probablement sur des chiffres importants illustrant combien nos systèmes et nos pratiques sur les données sont obsolètes. Les amendes tombent (en novembre 500 K€ pour Futura Internationale) mais les accidents demeurent. Il suffit de faire un achat en ligne pour recevoir rapidement des messages commerciaux d’autres entreprises. Les lois changent. Les pratiques demeurent. Et les voleurs de données courent toujours (ce n’est pas Facebook qui dira le contraire avec les données personnelles de 267 millions d’utilisateurs parties récemment dans la nature). Et pendant ce temps-là je m’agace plusieurs fois par jour à valider la politique de confidentialité des sites que je consulte…

Episode 8 : tous professeurs

Vous souhaitez vous intéresser à la Data et à l’Intelligence Artificielle ? Vous êtes débutants ou expérimentés ? Vous cherchez à vous mettre à niveau ? Rien de plus facile que ce soit sur YouTube, Médium, WordPress etc… des dizaines voir des centaines de personnes vous expliquent le Machine Learning, le Deep Learning, le Rain Forest. Les Mooc très bien faits vous forment à Python, R, Scala… (j’ai d’ailleurs appris Python cette année !). Tout le monde devient professeur y compris moi ! L’avantage est qu’il existe forcément quelqu’un dans le monde qui aura l’approche pédagogique qui vous convient pour vous expliquer ce qui vous échappe. L’inconvénient c’est que nous croulons sous tant d’informations et qu’évidemment la qualité est hétérogène mais si tout cela procède à démocratiser l’usage de la donnée à travers l’Intelligence Artificielle, cela aide moins sur les autres usages en entreprise notamment les PME.

Episode 9 : une expérience de l’open data

Souhaitant mettre en pratique mes nouvelles compétences techniques de Python et des librairies proposant des services de Machine Learning, je me suis lancé dans l’exercice audacieux de trouver un modèle qui permette de prédire le succès d’un film au cinéma. Je dis tout de suite que je n’ai pas encore trouvé ce modèle qui pourtant servirait à tous les Producteurs ! Néanmoins cet exercice m’a permis de découvrir le monde de l’Open data et plus particulièrement celui que nos impôts financent : le site « open data gouv ». Une mine inestimable d’information ! A conseiller à tous les Data Scientists en herbe. Non seulement des données sont disponibles sur des domaines économiques très variés mais il existe aussi des exemples d’usage de ces données ! Remercions la vague du Big Data d’avoir apporter l’idée du partage de données ! Attention tous les sites d’open data ne sont que partiellement gratuits – open ne veut pas forcément dire gratuit !

A venir

Dans la prochaine saison il sera sûrement question de l’apport des ordinateurs quantiques, de l’industrialisation et du passage à l’échelle de la Data dans les entreprises, des DPO après 2 ans de RGPD et de tous les autres sujets que vous aurez peut-être envie d’aborder

Si vous souhaitez participer à la rédaction de la saison 5 me le faire savoir par l’onglet contact de mon blog, par message privé linkedin ou par mail à jean.meance@hilldaleconseil.com

Mentions

Si vous avez aimé faites-le savoir en partageant ce billet. N’hésitez pas également à livrer vos commentaires et vos expériences.

Si vous ne voulez pas manquer les prochains articles : demandez à être enregistré à mon blog.

Crédit photo : image de la série « Big Data, bigger pizza »

© Ecrit par Jean Méance en janvier 2020

Autres articles sur la Data :

Un commentaire

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.