La Data Observabilité, Buzzword ou nécessité ?

 



 

La Data Observabilité,

 

Buzzword ou nécessité ?

 

La qualité des données utilisées dans les opérations quotidiennes a un rôle prépondérant pour les entreprises. 

 

Une étude du Gartner de 2022 suggère que les "mauvaises données" coûtent aux organisations environ 12,9 millions de dollars par an. 

Le Data Quality Hub du gouvernement britannique estime que les organisations consacrent entre 10 % et 30 % de leurs revenus aux problèmes de qualité des données, ce qui peut représenter des centaines de millions de dollars pour des entreprises de premier plan. 

Dès 2016, IBM estimait que la mauvaise qualité des données coûtait aux entreprises américaines 3 100 milliards de dollars par an.

...

Tout le monde souhaite s’appuyer sur des données intègres pour éviter des erreurs simples liées à des problèmes d’alimentation dans des flux, ou à des données mal organisées, répliquées, etc. Mais comment ? 

 

Les techniques d' "observabilité des données" sont une option. 

 

 


L’observabilité des données, c’est quoi ?

 

En termes simples, l'observabilité des données fait référence à la « surveillance de la progression du cycle de vie d'un flux de données depuis les sources opérationnelles jusqu'à leur exposition (i.e. leur consommation) », ce à travers tout le cycle de transport / transformation.

 

Avec l'observabilité des données, il devient possible de connaître les incomplétudes ou les erreurs potentielles qui sont sous-jacentes à la phase de consommation des données.

 



Un énorme besoin business d'observabilité des données

 

Nous vivons dans un monde économique hautement concurrentiel, qui s’appuie chaque jour un peu plus sur la donnée. On parle d’entreprises « data driven ».

 

La donnée n’a plus seulement vocation à déconstruire une activité économique, mais à la projeter dans l’avenir.  Chacun aura besoin d'informations en temps réel basées sur des données qualitatives afin de répondre à cette exigence.

 

C'est la principale différence entre l'observabilité des données et la

simple surveillance des données.

Lorsque vous surveillez les données, vous savez si quelque chose ne va pas, mais les analyses introspectives n’y sont pas associées

Lorsque vous utilisez l'observabilité, vous pouvez déterminer la cause du problème. Vous pouvez aller plus loin, et vous assurer que ces causes profondes sont corrigées afin qu'elles ne soient plus à l’œuvre à l’avenir.

 

2 options :  

De nombreuses plates-formes Cloud en particulier incluent des fonctionnalités intégrées que l’on pourrait assimiler à des fonctionnalités d’observabilité des données.

  • Si votre entreprise n'utilise typiquement qu'une seule base de données, peu d’outils de data visualisation, ce pour une population réduite, le choix de cette approche est probablement préférable.
  • Cependant, si vous avez une gestion de données complexe, avec de nombreuses sources, de nombreuses technologies de stockage, de data visualisation, différents schedulers, des ESBs, etc., l’intégration de véritables outils d’observabilité des données sera capitale. Les solutions logicielles « maison » nécessitent un effort d'ingénierie important, et récurrent. Ça les rend peu engageantes pour la plupart des entreprises.


 



Et le ROI d’une solution d’observabilité ?

 

Lorsque vous examinez l'impact réel d'une nouvelle technologie, il est particulièrement important de prendre en compte le retour sur investissement (ROI) que vous obtiendrez de son utilisation.

Mais comme l'observabilité des données est un sujet vaste et complexe, il a été difficile de déterminer exactement en quoi consiste son ROI.

Il y a cependant 2 impacts financiers vertueux qu’il conviendra de prendre en considération :

 

  • Gains financiers d’ordre opérationnel : la composante opérationnelle comprend les gains d'efficacité obtenus en améliorant l'utilisation des données ou en éliminant le temps consacré aux processus manuels qui peuvent désormais être gérés automatiquement. Par exemple les gains d’efficacité liés à l’élimination des temps d'arrêt dus à des données inexactes ou incomplètes, ou le temps gagné en collecte en automatique vs manuel, etc.

 

  • Economique : lorsque les managers ont une confiance forte dans la qualité des informations qu’ils mettent en œuvre pour prendre des décisions, leur audace est décuplée, ce au service de la performance de l’entreprise.

 



Quelques attributs essentiels d’une solution de data observabilité ?

 

  1. Ma solution peut-elle me permettre d’avoir la certitude que les données sont à jour ? Y’a-t-il un composant de monitoring du "scheduler" ?
  2. Ma solution me permet-elle de rendre mon système plus simple, plus lisible, plus efficace ?
  3. Ma solution peut-elle me permettre de valider que mes données sont complètes et calculées correctement ? 
  4. Est-il possible de passer d’une vue « high level » de mes flux de données, aux détails techniques qui ont prévalu à leur mise en œuvre ?  
  5. Est-ce que ma solution permet de remonter les flux d’information de la couche de data visualisation jusqu’aux sources opérationnelles ? 
  6. Est-ce que ma solution dispose d’une fonctionnalité de data lineage ?
  7. Est-ce que ma solution vulgarise les terminologies techniques en y associant la terminologie métier, pour partager réellement la connaissance à tous ? 
  8. Est-ce que ma solution fonctionne de façon automatique, dynamique, pour des réponses continuellement à jour ?

 

Liste non exhaustive 😊   

 

 



Notre réponse : une cartographie basée sur le data lineage

 

Chez Ellipsys, nous éditons un logiciel de data lineage, {openAudit} qui permet d’adresser ces enjeux d’observabilité de façon complétement automatisée en délivrant une cartographie exhaustive et automatisée du système d’information. Quelques caractéristiques à forte valeur ajoutée de cette "cartographie" :  



Une vision métier et IT pour tout le système : les termes métier utilisés pour définir les données sont stockées dans ce qu’on appelle les couches sémantiques ou assimilées. {openAudit} propage dans la mesure du possible cette terminologie dans le système de façon à ce que les métiers puissent aussi investiguer les systèmes "les yeux ouverts". 



Un monitoring de l’ordonnancement des flux de données : {openAudit} permet de détecter les flux cassés ou ralentis en analysant en continu les jobs du scheduler.

Au départ de jobs défaillants, le data lineage granulaire de {openAudit} permet d'agir sur les chaînes en permettant d’accéder au code sous-jacent. 

 




Une analyse d’impact de bout en bout sous forme cartographique : cette cartographie d'{openAudit} permet de simuler l’impact de quelconque changement dans le système d’information. L’ajout d’une colonne dans une table peut littéralement obérer la qualité d'indicateurs cruciaux de l'entreprise. Avoir des outils d’analyse d’impact n’est pas une option.





Un data lineage dans la couche dataviz :  aujourd’hui, l’intelligence est largement construite au sein des solutions de data visualisation. Le data lineage de {openAudit} investigue aussi les solutions de dataviz pour faire la lumière sur les formules impropres, les règles de gestion obsolètes, etc., le tout en 3 clics de souris !

 




Améliorer l’observabilité en décommissionnant les "branches mortes" du système : les systèmes d'information embarquent un nombre incalculable d’informations ; en large partie pour rien. Une étude récente de Flexera indique que 70 % des données dans les systèmes sont inutiles.

{openAudit} permet une simplification amont du système en identifiant les données inutilisées et leurs sources, i.e., les "branches mortes" du système. Ça permet de sensiblement améliorer l’intelligibilité d’un système et donc d'accroître fortement son observabilité.

 

Réduire la dette IT 

 

 

Conclusion

 

Avoir une confiance absolue dans ses données est un impératif à l’ère des entreprises « data driven ».

Pour ce faire il faut nécessairement mettre en œuvre des mécanismes d’observabilité de la donnée. Ce peut être fait « papier-crayon », mais l’évolution rapide des systèmes et le foisonnement des règles de gestion, rendront la copie très rapidement obsolète.

 

Nous pensons que l’automatisation de l’analyse du système, i.e. le reverse engineering des processus de transformation / transport de la donnée à travers tout le système, avec des réponses sous forme cartographique est la réponse la plus simple, la plus partageable qui soit. Et la plus pérenne, puisque rejouée tous les jours. 

 

A lire aussi : 

 

Baisser les coûts du Cloud

Commentaires

Posts les plus consultés de ce blog

BCBS 239 : L'enjeu de la fréquence et de l'exactitude du reporting de risque

Le data lineage, l’arme idéale pour la Data Loss Prevention ?