Recherche Big Data désespérément – Saisons 1 et 2

Publié par

Recherche Big Data désespérément (sans Madonna dans le casting) – saison 1 – 2016

Dépositaire d’un entrepôt de données, probablement parmi les plus importants en Europe, il était fatal que ma route croise celle du Big Data. Encore faut-il  identifier et comprendre ce que ce terme de Big Data signifie ?

Je n’ai pas résisté à l’envie de partager mon témoignage d’une quête qui n’est pas terminée…

Episode 1 : l’empire des 3V

Se lancer dans de nouveaux concepts passe par l’écoute de ceux qui savent ! J’ai donc consulté les conseils de tout bord, lu la presse spécialisée, écouté les retours d’expérience. J’ai bien noté que c’est grâce au Big Data que Barack Obama a gagné les élections (moi qui croyait que c’était par les urnes…), que les GAFA avaient pris leur avantage concurrentiel. Et pourquoi ? Parce qu’ils ont saisi avant les autres l’importance des 3V !!  Me voilà riche d’un premier indice pour continuer ma quête.

Episode 2 : la guilde des Data Scientists

Tout ceux qui comme moi sont à la recherche du Big Data rencontrent rapidement ces êtres étranges, chargés d’une mission quasi mystique de réhabilitation des mathématiques pour sauver le business et plus tard probablement l’humanité. Ils scrutent les signaux faibles dans les données et modélisent – le genre de truc inaccessible au commun des mortels. Ils élèvent un cheptel de machines « learning » nourries avec ces modèles.

J’ai compris aussi que pour réussir leur mission, il faudra une armée de techniciens, d’ingénieurs et d’experts Métier pour livrer des données qui soient un minimum nettoyées et compréhensibles…mais de cela les Data Sientists en font rarement état.

Episode 3 : le monde merveilleux d’Hadoop

Courir derrière le Big Data est aussi l’occasion de rajeunir son vocabulaire (ça peut se faire de concert avec le changement de sa garde-robe). Hadoop, Cloudera, NoSQL, Hive, R, Python, Lapin à plume, Cassandra, mongoDB…(trouvez l’intrus), bref j’en ai encore la tête qui tourne d’autant plus que dans ce monde des logiciels open, à peine vous connaissez votre récitation que c’est déjà obsolète… En tout cas ceux qui maitrisent, impressionnent les autres. De mon côté, j’attends que ça se décante car comme toujours en technologie il y aura des vainqueurs et des perdants.

Episode 4 : POC et monde…GO

Il y a aussi les aventuriers, courageux et versés dans l’innovation qui ont tenté l’expérience du Big Data. Ça communique beaucoup, c’est souvent très alléchant mais aussi déceptif quand il s’agit de transformer l’essai.

Episode 5 : Viens plonger dans mon Data Lake

Toutes ces données du Big Data, toutes ces millions de milliard de  données, faut bien les mettre quelque part ! C’est ici qu’arrive le concept du Data Lake. Moi qui ne connaissais que support magnétique, système de fichier ou de bases de données etc… j’avoue que le concept m’a perturbé. Impossible de faire le lien entre le Data Lake et mon paradigme précédent jusqu’au jour où j’ai compris que…c’était la même chose !!! Mais chut ! là est un secret que seuls les spectateurs de l’épisode 7 pourront comprendre…

Episode 6 : La revanche des ringards

Le Big Data devait être la déroute des SGBD traditionnels, des DWH du siècle dernier, des éditeurs de logiciels hors de prix… En 1982, mon premier job a été de mettre en place un système UNIX qui devait remplacer tous les OS et le langage C devait remplacer tous les langages… J’observe que les solutions existantes s’adaptent, intègrent le fatras des technologies et, même s’il est un peu tôt pour le dire, ne s’en portent pas plus mal.

Episode 7 : Les architectes ont la parole

Architecture Data Centric !! Les oracles de l’architecture ont parlé. Il n’était pas question de laisser se déployer ce  Big Data sauvagement et surtout sans que l’urbanisation passe par là. D’accord, mais ça veut dire quoi exactement ? Heu…pour faire simple disons que toutes les données sont centralisées dans une grande bassine qui accueille différentes technologies : les anciennes comme les nouvelles répondant aux usages passés et à venir ! Mon DWH n’est pas mort alors ? Ben non, on ne va pas refaire ce qui marche déjà…

Episode 8 : La machine à frustration

Super ! J’ai compris du Big Data : l’intérêt par les POC, les compétences nécessaires, l’architecture et même un peu la nouvelle technologie – ça roule alors ! Presque mais il faudra passer les obstacles réglementaires présents (CNIL, secret bancaire…) et à venir (Loi protection des données personnelles) mais aussi les obstacles disons…politiques car l’intérêt dans tout ça est aussi de partager ses données – s’ouvrir n’est pas toujours la posture la plus naturelle.

 Episode 9 : Le gouvernement de la donnée

Le Big Data, comme la République, se doit  d’avoir une organisation qui régit, vérifie, contrôle, sanctionne (bon là je m’emballe) la livraison et l’usage de la donnée. Je constate beaucoup d’initiatives que ce soit sur le front réglementaire (par exemple BCBS239) ou celui du business. En fait, sur un territoire en friche, tout se passe comme si chaque communauté d’explorateurs éprouvait le besoin de légiférer sur son domaine. L’arrivée des Chief Data Officer (CDO) saura-t-elle mettre de l’ordre dans tout cela ?

Episode 10 : La revanche du bon sens

Finalement le Big Data est un terme aussi générique que « Client-serveur », « Transactionnel », « Modèle Objet », « Internet »… bref en cherchant le Big Data j’ai trouvé des concepts, des technologies, des success stories suffisamment porteuses pour y croire, des lobbyistes, en somme tout ce qui fait la marque des nouveaux virages technologiques. Mais après le virage vient la longue, longue ligne droite de la maturation. Et c’est là que je reprends ma quête non plus du Big Data mais bien des cas d’utilisation du Big Data qui apporteront réellement une valeur pérenne à l’entreprise et à ses clients. Ce sont ces cas d’utilisation qui tireront les autres sujets vus précédemment comme la gouvernance des données ou l’architecture. Ils seront ainsi traités non pas ‘hors sols’ mais bien plaqués sur un objectif concret.

Les Episodes auxquels vous avez échappé…

Je n’ai pas traité dans cette saison plusieurs sujets souvent en adhérence avec le Big Data comme l’Open Data, la monétisation des données, les objets connectés et aussi un sujet qui me tient à cœur : « quel est le modèle de production pour le run du Big Data ? » – autant de raisons de revenir peut-être pour une saison 2 🙂

Recherche Big Data désespérément – Saison 2 – 2017

Devant l’intérêt de la première saison et comme je l’avais annoncé, voici la saison 2 de « Recherche Big Data désespérément ». Alors qu’en 2016 nous avons laissé notre quête en pleine perplexité technologique, organisationnelle et surtout en manque d’usages, nous allons suivre les traces de notre héros et découvrir comment se sont transformés les enjeux.

Episode 1 : du Big Data au Bide Data

Coup de théâtre chez les sondeurs !! Si le succès du Brexit peut être considéré comme un accident de parcours pour les prévisionnistes, ne pas avoir vu la victoire de Donald Trump aux élections américaines ressemblerait presque à une faute de la profession !! Comment est-ce possible alors qu’on nous bassine avec la puissance du Big Data ? Les sondages d’opinions enrichis de multiples corrélations avec d’autres données devraient être un usage de base non ? Peut-être que les effets de la frustration et de la colère d’un peuple sur son vote ont-ils manqué d’un modèle « de bon sens » ?

Episode 2: le Big Data s’maque !!

En cette fin 2016, le Big Data en a manifestement assez de vivre seul le soir auprès du feu de camps dans les grandes plaines balayées par les vents des promesses et des succès éphémères. Je relève plusieurs articles et conférences sur la cohabitation du Big Data avec les plateformes décisionnelles existantes. Le Big Data se « maque » donc avec le Dataware House suivant l’idée que le Big Data ne couvrira pas tous les usages mais que les Dataware non plus et que la gestion globale des deux paradigmes apportera de la valeur. Nous l’avions perçu dans la saison 1 sur l’architecture Data Centric. De cette union vont naître le fils aîné DataHub, la fille cadette SmallData et la benjamine SmartData.

Episode 3 La chair de ma chaire

Deux constats à écouter le marché de l’emploi des nouvelles technologies : les Métiers autour de la Donnée sont en explosion et il y a pénurie de candidats disponibles. De plus, le « mythe » du Data Scientist l’a finalement plus satellisé que mis au centre du jeu (voir saison 1 sur la guilde des Data Scientists). Son profil (agrégé de Mathématiques), son prix, sa rareté marginalise cette profession qui a du mal à constituer un corps en entreprise. Du coup, la grande idée est plutôt de financer des chaires avec les grandes écoles et les universités, dans un modèle gagnant-gagnant pour l’éventuel futur employeur, pour l’étudiant et pour l’école avec un message en creux sur la qualité de l’enseignement et la fraîcheur intellectuelle des jeunes pousses. Tout ceci est vrai et probablement utile mais pose quand même la question suivante : où sont passées les générations d’étudiants formés aux Mathématiques (surtout Appliquées), aux Statistiques et à la Recherche Opérationnelle ? Dans un trou noir ? Les entreprises ne savent probablement pas de quoi elles sont riches sur leur potentiel humain et la voie est à ouvrir chez les Data Miner, les spécialistes de ciblage, les experts de domaine, bref la chaire c’est bien, l’accoster au corps de l’entreprise c’est mieux.

Episode 4 : l’empire des 3 « V » fait place au royaume des 2 « I »

IOT et IA voilà la combinaison technologique pleine de promesse du royaume des 2 « I ». Pourtant quand mon smartphone m’affiche « 3h et 15 mn pour arriver chez vous – Prenez L’Océane, la circulation est fluide » alors que je vais continuer plutôt ma route vers les vacances, je mesure le chemin qui reste à parcourir au modèle prédictif de mon smartphone. C’est bien là tout l’enjeu de la chaine de valeur du royaume des 2 « I » : capter la bonne donnée au bon moment, l’interpréter seule ou agrégée grâce à un modèle prédictif « intelligent » et fournir une proposition qui nous apporte de la valeur pour améliorer notre vie. L’intention est belle mais le prédictif est encore très rudimentaire et probabiliste et manque encore « d’intuition » – ce n’est pas 2 mais 3 « I » minimum qu’il nous faut.

Episode 5: Big Data et Small Salon

Mars 2017, palais des congrès à Paris, c’est la bousculade au salon Big Data 2017. 13 000 participants d’après les organisateurs soient + 30% par rapport à 2016. J’y suis passé « en coup de vent » pour constater la vitalité des exposants, l’engouement des participants. Si le Big Data n’est plus un sujet à la mode pour les « early adopters » et s’il n’est pas encore un sujet mature pour les autres, ce salon marque néanmoins un tournant dans la maturité du sujet de la Data et les offres logiciels et de services sont de plus en plus visibles et surtout lisibles. Pour l’année prochaine, en parodiant la pub Cadbury : « Mr Big Data ton salon tu pourrais pas le faire un petit peu plus grand ? ».

Episode 6 : les corrélations dangereuses

Une promesse du Big Data est de mettre à disposition un volume de données tellement énorme que les modèles statistiques basés sur des échantillons représentatifs deviennent dépassés. Et là, nos Data Scientists vont plonger dans ce foisonnement d’information pour recherche des signaux faibles. Typiquement trouver des corrélations entre des séries de données que personne n’aurait eu l’idée d’associer. Pour les statisticiens, s’il y a corrélation entre données, c’est qu’il existe un modèle et si une donnée évolue, on pourra prédire l’évolution de l’autre. L’humoriste Alphonse Allais (1854-1905) a écrit : « La statistique a démontré que la mortalité dans l’armée augmente sensiblement en temps de guerre ». ça c’est une corrélation évidente ! Sur cet excellent lien, on voit quelques exemples des effets pervers d’une recherche exaltée de signaux faibles comme la corrélation entre le taux de divorces dans l’état du Maine et la consommation par personne de margarine ou bien la corrélation entre la consommation par personne de mozzarella et le nombre de diplômes remis aux Docteurs en Génie Civil ! Au-delà de l’apport des technologies, il est indispensable de mettre du jus de cerveaux pour donner du sens car le test du Khi-2 ne fera pas tout…

Episode 7 : Eldorado de la donnée : un nouveau veau d’or ?

Prenons le cas des données personnelles, une chose est certaine : avec notre smartphone, notre voiture, notre maison, nos surfs sur internet, etc… nos actes de la vie quotidienne laissent de plus en plus de traces et donc de données. Conscients ou pas, nous construisons une manne d’information qui a de la valeur. Si aujourd’hui le principe de la valeur de la donnée est acquis, les deux questions suivantes restent complètement ouvertes : « Comment valoriser une donnée (€uro, valeur d’usage…) ? » et « Qui est le bénéficiaire et qui est le payeur ? ». L’offre gratuite des Open Data pour des données plutôt publiques et les offres payantes existantes forment un marché où le producteur de la donnée est souvent exclu de la chaîne de valeur. Or nous sommes les producteurs de nos données personnelles. Pour une fois grâce au régulateur (européen notamment en réaction aux GAFA), la prise de conscience fera émerger d’autres modèles économiques avec le client au cœur. Deux paradigmes se feront alors face : des entreprises avec un modèle économique orienté résultat et des entreprises qui mettront plutôt en avant l’éthique et la confiance dans la relation avec le client.

Episode 8 : la guerre des 2 tours

Maintenant que les usages du Big Data commencent à se déployer, que la valeur des données est avérée, que les entreprises et leurs clients se projettent dans le grand bain de la transformation digitale, la guerre des 2 tours s’organise. D’un côté la Tour Noire avec au côté de Sauron et des orques : les hackers de données, les liberticides, les mercantiles, les sans-scrupules ; et de l’autre côté la Tour Blanche avec au côté de Gandalf, des elfes et des hobbits : les éthiques, les éco-responsables, les humanistes. Les champs de bataille seront nombreux : l’Open Data, GDPR, DSP2, l’identité numérique, le monde de la recherche notamment dans les domaines d’application de l’Intelligence Artificielle et des Robots. Cette lutte d’influence incertaine dessinera le monde digital de demain. Passionnant non ?

Les Épisodes auxquels vous avez échappé…

Ma Cassette ! Ma Cassette ! Ils m’ont volé ma Cassette ! – ou les difficultés de construire un data lake commun pour mettre à disposition sont patrimoine de données

La culture c’est comme la confiture – l’adage est-il vrai aussi sur la culture des données ?

Un modèle de production disruptif – entre nouvelles plateformes, cloud et attente des clients, le modèle de production actuel n’est plus adapté

Pour la saison 3 c’est ici !

Un commentaire

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.