Maîtriser les processus dans la couche de dataviz

 

Maîtriser les processus dans la couche de dataviz

Selon un rapport du Gartner de 2023, il y a une tendance marquée au déplacement des processus de transformation des données des bases de données vers les outils de dataviz.

 

Ça n’est pas très surprenant, les outils de dataviz récents sont d’une prise en main facile, ils sont riches et expérienciels. Le métier s'en sert de plus en plus pour faire de la "data prep'".

La gouvernance des données, et en particulier la traçabilité des données, est profondément complexifiée par cette décentralisation des environnements.

Par ailleurs, l'intelligence dans les rapports n'est pas partagée, ni partageable, ni centralisée (car propre au dashboard), ce qui créé de l'opacité sur les règles de gestion utilisées par le métier pour consolider les données.

Dans ce contexte, le data lineage technique dans la couche de data visualisation est un asset clef. 

 

Tracer les données dans la couche de dataviz, un challenge  

 

La complexité des transformations

Les données dans la couche de dataviz passent souvent par de nombreuses transformations complexes : calculs, agrégations, filtres, expressions, etc.

Chaque transformation modifie la nature et la structure des données. Pour faire du véritable data lineage, il n'y pas le choix, il faut tout adresser.

 

Une absence de standardisation

Les solutions de dataviz, comme Power BI, Qlik, Looker, Tableau…utilisent des langages et des approches différents pour définir et manipuler les données. Par exemple le DAX pour Power BI, les Expression pour SAP BO, ou le LookML pour Looker. Cette absence de standardisation complique l'intégration des différentes étapes de transformation dans un flux unique de data lineage "end to end". Et les utilisateurs créent souvent des expressions ou des calculs spécifiques dans les dashboards sans documenter leur logique... 

 

Une réponse ?

 

L'introspection fine pour déconstruire la complexité des dashboards

Notre solution {openAudit} analyse en continue la structure interne des dashboards, inspecte les métadonnées et révèle l'intelligence sous-jacente, y compris les sources de données, les transformations appliquées et la logique métier.

 

Spécificité : une représentation automatique de tous les flux 

Dans une des interfaces d'{openaudit}, les sources sont positionnées à gauche et les cellules du dashboard à droite.

Entre les deux, l'ensemble des transformations est détaillé (variables, expressions, etc.) pour exhumer toute la complexité et pour la porter à la connaissance du plus grand nombre.  

 

 Option.1 - faire du data lineage au départ d'une liste multi-technologique de dashboards 

data lineage in the dataviz layer

1. Au clic sur l'intitulé du dashboard, le data lineage est représenté avec l'ensemble des flux. Le détail des variables, expressions, etc. est disponible au survol. Les cellules du dashboards sont à droite. Ce data lineage peut être étendu aux bases de données sous-jacentes. 

2. Possibilité de "zoomer" au départ de n'importe quel datapoint du dashboard...

3...ne reste que le flux en question à l'écran. 

 

Option.- le data lineage directement au départ de la représentation graphique d'un dashboard

1. Activation de l'extension {openAudit} au départ d'un dashboard. 

2. Choix d'une cellule au sein du dashboard. 

 

3. Le sourcing de la cellule du dashboard vient d'afficher. On peut remonter aux sources. 

 

Spécificité : un data lineage basé sur des analyses exhaustives

Pour Power BI par exemple, le data lineage va englober des composants d'Analysis Services tels que Power Query (code M), des requêtes SQL, les expressions calculées en DAX, ainsi que les analyses en langage MDX. Pour SAP BO, le data lineage va englober les Univers, les requêtes SQL générées par les Data Providers des rapports Webi, les variables et formules, quel que soit le niveau d'imbrication.

 

Spécificité : une analyse d'impact des alimentations jusqu'aux usages 

Nous proposons une vue permettant d'effectuer une analyse d'impact instantanée à partir de n'importe quel datapoint dans les sources.

Depuis un champ ou une table, il est possible de visualiser son impact jusqu'à l'ensemble des tableaux de bord concernés, technologie par technologie. Nous y intégrons également les requêtes ad hoc, les transferts vers d'autres systèmes, etc.

 

Faire du l'analyse d'impact de bout en bout au départ d'un champ ou d'une table

1. Au départ d'une donnée dans les bases de données qui sont en source, l'ensemble des impacts vient s'afficher instantanément. La taille du "point" va donner des indications sur la taille de la requête et sur son coût (dans le Cloud).  

 

2. L'ensemble des technologies impactées sont listées. Elles peuvent être sélectionnées ou écartées de l'analyse.

3. Chaque "impact", donc usage, peut être analysé : utilisateur(s), dernière exécution, nombre d'exécutions, taille de la requête, coût.

 

Conclusion 

La complexité croissante des processus de transformation dans les outils de dataviz pose des défis importants pour la traçabilité des données et la compréhension générale des systèmes.

Le data lineage granulaire au sein même des outils de dataviz, raccordé à l'analyse des alimentations, permet de mettre en lumière instantanément l'ensemble des règles de gestion pour pouvoir les harmoniser au sein de plateformes complexes. Cette introspection fine permet également d'identifier des nuances entre dashboards, souvent à peine perceptibles, mais potentiellement lourdes de conséquences.  Pour ça, nous avons aussi des réponses 😉.

 

Technologies adressées (d'autres en développement) :

Commentaires

Posts les plus consultés de ce blog

La Data Observabilité, Buzzword ou nécessité ?

Migrer de SAP BO vers Power BI, Automatiquement, Au forfait !

BCBS 239 : L'enjeu de la fréquence et de l'exactitude du reporting de risque