Data : le principal risque reste la sémantique !

L’épidémie du COVID revient à la charge à commencer sur les plateaux des chaînes d’information. Le débat fait rage sur ce qui a été fait, n’a pas été fait, aurait dû être fait ou devrait être fait… Mais ce matin, un échange entre un célèbre journaliste et un haut fonctionnaire de la santé a attiré toute mon attention.

Le journaliste : « Oui ou Non avons-nous plus de lits dans les services d’urgence aujourd’hui qu’en mars ? »

Le haut fonctionnaire : « ….un lit d’urgence ce n’est pas seulement un matelas et un sommier mais aussi du personnel autour pour s’en occuper… ».

Et voilà que la sémantique de la Data a encore frappée. Alors que les médias nous bassinent, depuis de nombreux mois, de statistiques sur le nombre de lits dans nos hôpitaux, nous découvrons (ou feignons de découvrir) que derrière cette statistique se cache une réalité différente de celle que nombreux s’imaginaient.

J’ai déjà écrit sur l’importance de la sémantique (voir liens en fin de ce billet), mais à l’heure où beaucoup est fait pour acculturer les entreprises à la nécessité de mettre en place une gouvernance de la données, pour les sensibiliser à la qualité de leurs données, pour leur fournir des solutions pour les aider justement à améliorer finalement l’implémentation d’une stratégie et d’une culture Data, je ne résiste pas à l’envie de revenir sur un de mes sujets préférés : la sémantique de la donnée.

La sémantique est la discipline fondamentale sur laquelle doit se construire toute stratégie Data. Partir sur le déploiement de tableaux de bord ou de modèles d’Intelligence Artificielle sur des données dont le sens n’est pas le bon est probablement pire que les biais très souvent et justement mis en avant comme la sur-représentation ou la sous-représentation de populations, fait porter le risque majeur de la mauvaise interprétation du résultat et de mauvaises décisions en conséquences. Prenons le cas présent de nos lits d’hôpitaux, il est certain que si la décision doit être prise sur le simple nombre de lits installés sans intégrer les personnes nécessaires, la conséquence sera d’accueillir des malades sur des lits mais dont personne ne s’occupera…

La sémantique est un enjeu majeur dans la préparation des données. Lorsqu’il arrive dans une entreprise, tout data scientist connait la difficulté de trouver les bonnes données sur lesquelles il pourra construire son exploration et son modèle. Les outils actuels, très utiles par ailleurs, vont l’aider à comprendre les données dans leur dimension statistique (je dirai même mathématique) : dispersion, moyenne, valeur incohérente ou aberrante mais en général rien sur le sens de ces données. Pour le connaître, il lui faudra revenir au Métier à l’origine de la capture de cette donnée. Elle n’est pas là par hasard. Quelqu’un un jour dans l’entreprise a décidé qu’il fallait la stocker, et cette personne est la mieux placée pour en donner le sens. Bien sûr la recherche de cette personne n’est pas toujours aisée car entre turn-over des individus ou même l’arrivée de données apportées dans la boîte noire des progiciels, une donnée peut être orpheline de son concepteur. Mais d’une façon ou d’une autre, il faut absolument comprendre les données qu’on veut voir alimenter des tableaux de bord et des modèles de machine learning car ces derniers servent à piloter l’entreprise et prendre des décisions !

Les Métiers restent les plus pertinents pour donner le sens aux données. La question de la sémantique pour trouver le sens des données passe par l’implication des principaux intéressés : les Métiers. Nous le voyons bien avec le sujet des lits dans les hôpitaux, c’est la vision opérationnelle des médecins urgentistes qui donne la vision d’ensemble et conduit à intégrer la logistique notamment humaine à dans la réponse.

Revenir à des données élémentaires et les agréger peut faciliter la compréhension du sens. Dans mes anciens cours sur la modélisation des données, un principe était de (tenter) de construire un système d’information avec des données « non sécables ». Cela avait pour utilité notamment de réduire la donnée à un seul sens. Pour des raisons plutôt techniques de performance des systèmes, de maintenabilité (entretenir un système avec des formes normales pures peut devenir un cauchemar avec des index dans tous les coins) ou simplement de paresse des développeurs, nos SI sont bourrés de données qui sont sécables, de zones de base de données squattées par d’autres données qui n’ont rien à voir (par exemple une ligne de commentaire utilisée pour mettre une adresse ou vice versa). Bref, la vraie vie des SI ne rend pas le patrimoine de données facilement exploitable. Pourtant, il faudra bien revenir dans la phase de préparation des données à des informations pures, non sécables qui pourront ensuite être agrégées pour simplifier les entrées des moteurs d’Intelligence Artificielle et surtout pas de prendre celles qui sont disponibles sans prendre les précautions d’usage.

Je remercie le débat sur le Covid de m’avoir donné l’occasion d’écrire à nouveau un billet sur le sujet de la sémantique des données qui me tient à cœur. Voir aussi mes articles sur le Langage Commun sur LinkedIn (Data & Langage Commun : le réglementaire au secours de l’Espéranto de la Data ! et Data : une autre histoire de Langage Commun) et je vous recommande également sur mon blog mes autres articles sur le coin de l’IA et de la Data

Mentions

Si vous avez aimé faites-le savoir en partageant ce billet. N’hésitez pas également à livrer vos commentaires et vos expériences.

Si vous voulez accéder à mes autres billets c’est ici.

Si vous ne voulez pas manquer les prochains articles : demandez à être enregistré à mon blog.

Crédit photo :

Retour au coin de l’IA et de la Data

Retour à la page d’accueil du blog de Jean

Mentions

Partager :

Laisser un commentaire Annuler la réponse.