L’observabilité des données, un enjeu capital

Photo : Pixabay 

La qualité des données utilisées dans les opérations quotidiennes a un rôle prépondérant pour les entreprises. Tout le monde souhaite s’appuyer sur des données intègres pour éviter des erreurs simples liées à des problèmes d’alimentation dans des flux, ou à des données mal organisées, répliquées, etc.   

 

L’ observabilité des données, c’est quoi ?

En termes simples, l'observabilité des données fait référence à la surveillance de la progression du cycle de vie d'un flux de données depuis les sources opérationnelles jusqu'à leur exposition (i.e. leur consommation), ce à travers tout le cycle de transport/transformation. Avec l'observabilité des données, il devient possible de connaître les incomplétudes ou les erreurs potentielles qui sont sous-jacentes à la phase de consommation.

 

Exécuter un programme de gouvernance des données

Lorsque les utilisateurs accèdent aux données d’une entreprise, ils ne doivent pas accéder qu’à une petite proportion des données, mais à leur exhaustivité, au moins sur le périmètre qui les concernent.

L'observabilité des données donne la possibilité aux entreprises de résoudre rapidement les problèmes avant qu'ils n'aient un impact négatif sur les objectifs et potentiellement les résultats de l'entreprise. Cela permet de résoudre les problèmes en amont, versus en aval. Mieux vaut prévenir que guérir ! C’est en définitive un vrai sujet de data gouvernance.

 

Composants du cycle de vie de l'observabilité des données

Chaque entreprise peut concevoir sa propre observation du cycle de vie des données (ou DOL pour Data Observation LifeCycle), qui est une manière plus ou moins standardisée de mettre en œuvre ces pratiques d’observation.

Les éléments structurant de l'observabilité des données incluent des métriques, des KPI’s. Ceux-ci permettent aux entreprises de visualiser et de configurer des alertes pour tout risque, tout en évaluant la santé globale su système d’information. On notera que très peu d'entreprise ont mis en œuvre un DOL ! 

 

Besoin business d'observabilité des données

Nous vivons dans un monde économique hautement concurrentiel, qui s’appuie chaque jour un peu plus sur la donnée. On parle d’entreprises « data driven ». La donnée n’a plus seulement vocation à déconstruire une activité économique, mais à la projeter dans l’avenir.  Chacun aura besoin d'informations en temps réel basées sur des données qualitatives afin de répondre à cette exigence.

 

C'est la principale différence entre l'observabilité des données et la simple surveillance des données. Lorsque vous surveillez les données, vous savez si quelque chose ne va pas, mais les analyses introspectives n’y sont pas associées. Lorsque vous utilisez l'observabilité, vous pouvez déterminer la cause du problème. Vous pouvez aller plus loin, et vous assurer que ces causes profondes sont corrigées afin qu'elles ne soient plus à l’œuvre à l’avenir.

 

2 options

 

  • De nombreuses plates-formes modernes Cloud en particulier incluent des fonctionnalités intégrées que l’on pourrait assimiler à des fonctionnalités d’observabilité des données. Si votre entreprise n'utilise typiquement qu'une seule base de données, peu d’outils de data visualisation, ce pour une population réduite, le choix de cette approche est probablement préférable.
  • Cependant, si vous avez une gestion de données complexe, avec de nombreuses sources, de nombreuses technologies de stockage, de data visualisation, différents schedulers, des ESB, etc., l’intégration de véritables outils d’observabilité des données sera capitale. Les solutions logicielles « maison » nécessitent un effort d'ingénierie important, et récurent. Ça les rend peu engageantes pour la plupart des entreprises,


Et le ROI d’une solution d’observabilité ?

Lorsque vous examinez l'impact réel d'une nouvelle technologie, il est particulièrement important de prendre en compte le retour sur investissement (ROI) que vous obtiendrez de son utilisation. Mais comme l'observabilité des données est un sujet vaste et complexe, il a été difficile de déterminer exactement en quoi consiste son ROI. Il y a cependant 2 impacts financiers vertueux qu’il conviendra de mesurer

 

  • Gains financiers d’ordre opérationnel : la composante opérationnelle comprend les gains d'efficacité obtenus en améliorant l'utilisation des données ou en éliminant le temps consacré aux processus manuels qui peuvent désormais être gérés automatiquement. Par exemple les gains d’efficacité liés à l’élimination des temps d'arrêt dus à des données inexactes ou incomplètes, ou le temps gagné en collecte en automatique vs manuel, etc.
  • Analytique : Lorsque les managers ont une confiance forte dans la qualité des informations qu’ils mettent en œuvre pour prendre des décisions, leur audace est décuplée, ce au service de la performance de l’entreprise.

 

Quelques attributs essentiels d’une solution de « data observation »

 

  • Ma solution peut-elle me permettre d’avoir la certitude que les données sont à jour ? Y’a-t-il un composant de monitoring du scheduler ?
  • Ma solution peut-elle m’aider à mieux architecturer mon système d’information pour que les données puissent être véhiculées correctement vers les bonnes personnes ? Ma solution me permet-elle de rendre mon système plus simple, plus lisible, plus efficace ?
  • Ma solution peut-elle me permettre de valider que mes données sont complètes et calculées correctement ? Est-il possible de passer d’une vue « high level » de mes flux de données, aux détails techniques qui ont prévalu à leur mise en œuvre ?  
  • Ma solution me permet-elle de suivre les modifications apportées aux données et de préciser quand/qui/qu'est-ce qui les a faites ? Est-ce que tout le processing est versionné, y compris dans les couches de data visualisation ?
  • Est-ce que ma solution permet de remonter les flux d’information de la couche de data visualisation jusqu’aux sources opérationnelles ? Est-ce que ma solution dispose d’une fonctionnalité de « data lineage »
  • Est-ce que ma solution vulgarise les terminologies techniques en y associant la terminologie métier, pour partager réellement la connaissance à tous ?
  • Est-ce que ma solution fonctionne de façon automatique, dynamique, pour des réponses continuellement à jour ?

Liste non exhaustive 😊   

 

Conclusion :

Avoir une confiance absolue dans ses données est un impératif à l’ère des entreprises « data driven ».

Pour ce faire il faut nécessairement mettre en œuvre des mécanismes d’observabilité de la donnée. Ce peut être fait « papier -crayon », mais l’évolution rapide des systèmes et des règles de gestion, rendra la copie très rapidement obsolète. Nous pensons que l’automatisation de l’analyse du système, i.e. le reverse engineering des processus de transformation / transport de la donnée à travers tout le système, qu’il soit on premise ou Cloud, et le partage d’outils d’investigation est la réponse idéale à cet impératif.

 

       

Commentaires

Posts les plus consultés de ce blog

La Data Observabilité, Buzzword ou nécessité ?

BCBS 239 : L'enjeu de la fréquence et de l'exactitude du reporting de risque

Le data lineage, l’arme idéale pour la Data Loss Prevention ?