Le data lineage d'{openAudit} pour renforcer Dataplex de GCP

 

Le data lineage d'{openAudit}

pour renforcer 

Dataplex de GCP

 

Google s’est lancé dans le grand bain du Data Management avec Dataplex !

 

Dataplex, c’est essentiellement un catalogue central de données pour BigQuery, le DWH managé de Google. 

 

L’étendu des technologies analysées ne cesse de croître, avec une prise en charge d'autre bases de données disponibles dans GCP, en particulier Cloud SQL, BigTable et Spanner, mais aussi de la solution de data visualisation phare de GCP, Looker. Dataplex commence aussi  à automatiser la collecte des métadonnées depuis des sources tierces : MySQL, Snowflake, Databricks….

 

Grâce à cela, les clients Dataplex disposent d'une vue complète des données au sein d'un seul catalogue unifié avec leurs descriptions et leurs contextes. 

 

Google cherche maintenant à compléter Dataplex pour le rendre exhaustif et compétitif dans le monde du Data Management, trusté par Informatica, Collibra et d’autres. C'est ainsi que Google a intégré dans Dataplex une fonctionnalité de "Data Lineage".

 

Le Data Lineage permet de suivre le déploiement d'un donnée dans un Système d’Information : son origine, ses transformations successives et ses impacts finaux.

 

A quoi sert le "Data Lineage" ? 

  • Pour avoir la certitude qu’une donnée provient d'une source faisant autorité.
  • Pour faire de l’analyse d’impact en cas de modification ou suppression d’une table.
  • Pour s’assurer que les données sensibles sont correctement utilisées dans l’entreprise et garantir le respect des exigences réglementaires.
  • Pour tracker les erreurs dans un flux de données jusqu'à leurs causes racine.
  • Pour préparer une migration en cartographiant un système dans le détail.

De toute évidence le « Data Lineage » est un élément capital dans la panoplie d’une solution de Data Management. 

 

Cependant, la fonctionnalité Data Lineage de Dataplex n'a pas à ce jour les caractéristiques que nous pensons indispensables pour garantir que l'ensemble des promesses relatives au Data Lineage puissent être tenues.

Nous pensons que Dataplex peut être judicieusement associé à {openAudit}pour une solution de Data Management complète. 

 


Les limites actuelles du data lineage de Dataplex

Bien que l'API Data Lineage reçoive automatiquement des informations sur les éléments à partir des sources GCP et via des appels d'API pour les sources externes, la forme graphiques du data lineage n’est disponibles que pour les entrées provenant du Data Catalogue de Dataplex. Or ce Data Catalogue ne collecte les informations automatiquement que dans BigQuery, Cloud Data Fusion (l’ETL de GCP) et dans Cloud Composer (l’orchestrateur de GCP). 

Le data lineage de Dataplex ne propose pas d'analyse "au champs", ce qui réduit assez considérablement l'éventail des analyses possible. 

L'administrateur Dataplex a un accès complet aux différents projets concernés dans GCP, ce qui d'un point de vue sécurité n'est pas idéal.

Toutes les informations de traçabilité ne sont conservées dans le système que pendant 30 jours. 

Une vue unique : la représentation graphique de Dataplex  permet seulement de visualiser  le data lineage en le déployant de façon itérative. Avec à chaque fois, la source, la transformation et la cible. Quand il y a des centaines de transformations, les analyses peuvent être fastidieuses.

 
 

Associer {openAudit} 

à Dataplex

{openAudit}, notre solution de Data Lineage permet de renforcer avantageusement Dataplex dans différentes directions : 

  • Pour intégrer dans le Data Lineage l'information des bases de données tierces de façon automatisée : 

Une base de données qui est elle-même hors du scope Google (Teradata, Exadata…), et qui ne peut donc pas « nourrir » à ce jour l’API Data lineage de Dataplex de façon automatisée, implique qu’une large partie du système n’est pas analysée. Nous proposons d'intégrer dans le Data Lineage sur large palette de technologies, en automatisant le processus à 100 % ! 

  • Pour intégrer dans le data lineage les transformations traitées par des ELT/ELT tiers : 

Les ETL / ELT, DataStage, BODS, Stambia, Talend sont encore très nombreux dans les architectures Cloud. Si les transformations qu’ils gèrent sont passées sous silence, une large partie des transformations est occultée. La feuille de route de Google ne le prévoit pas  ce jour. 

  • Pour intégrer dans le data lineage les transformations dans la couche de dataviz :

Looker n’a pas encore attiré dans ses filet la totalité des utilisateurs de GCP. Et de nombreuses entreprises utilisent des solutions tierces quand bien même elles ont migré dans GCP. Typiquement QlikSense ou Power BI. Et la data préparation ayant été largement transposée dans les solutions de dataviz, il est capital de comprendre ce qui s’y passe.

C’est ce qu’{openAudit} propose aussi à travers son Data Lineage granulaire dans la couche de data visualisation (avec une mise en lumière de l'ensemble des règles de gestion). 

  • Pour avoir une vue "de bout en bout" des flux :

Nos clients nous indiquent que dans l’idéal, un des composant graphique de Data Lineage doit permettre des analyses complètes d'un seul coup d'oeil, typiquement pour faire du sourcing d'une donnée de décision pour faire de l'analyse d'impact full scope. {openaudit} propose différentes vues avec différents niveaux de granularité.  

  • Pour avoir une solution sécure :

Personne n'accède aux projets, quels qu'il soit dans le contexte de {openAudit}, puisque les métadonnées (seulement) sont extraites de façon autonome pour traitement. 

  • Pour connaitre en plus les usage de la données et baisser les coûts :

Au-delà du processing, du scheduling, de la couche de dataviz, {openAudit} va analyser les logs des bases d’audits, typiquement certains logs de Google Cloud Operations, de façon à adjoindre au Data Lineage les usages et les coûts de l’information.

Ça peut permettre de pousser l’exigence en termes de sécurité (contexte DLP = Data Leak Prevention) : qui consulte telle ou telle donnée indûment.

Et cela permet d’identifier les leviers de baisse de coût du Cloud à travers des opérations de décommissionnement de pipelines de données inutiles (contexte FinOps). 

 

En savoir plus : 

Baisser les coûts du Cloud
 
 

 

Conclusion 

 

Dataplex fait une entrée remarquée dans le monde du Data Management en particulier avec son data catalogue de plus en plus large, associé à la gestion des sécurités.

Le Data Lineage de Dataplex est pour l’instant prévu pour épouser précisément les différents composants disponibles dans GCP. C’est une limite qui nous permet de positionner {openAudit} de façon complémentaire. Pour un data lineage multi technologique, automatique, incluant la couche de dataviz, et permettant en parallèle de rationaliser les systèmes (volumétrie / coûts).


Commentaires

Posts les plus consultés de ce blog

La Data Observabilité, Buzzword ou nécessité ?

BCBS 239 : L'enjeu de la fréquence et de l'exactitude du reporting de risque

Le data lineage, l’arme idéale pour la Data Loss Prevention ?