Le data lineage d'{openAudit} pour renforcer Dataplex de GCP

Le data lineage d'{openAudit}

pour renforcer Dataplex de GCP

Google s’est lancé dans le grand bain du Data Management avec Dataplex !

Dataplex, c’est essentiellement un catalogue central de données pour BigQuery, le DWH managé de Google.

L’étendu des technologies analysées ne cesse de croître, avec une prise en charge d'autre bases de données disponibles dans GCP, en particulier Cloud SQL, BigTable et Spanner, mais aussi de la solution de data visualisation phare de GCP, Looker. Dataplex commence aussi à automatiser la collecte des métadonnées depuis des sources tierces : MySQL, Snowflake, Databricks….

Grâce à cela, les clients Dataplex disposent d'une vue complète des données au sein d'un seul catalogue unifié avec leurs descriptions et leurs contextes.

Google cherche maintenant à compléter Dataplex pour le rendre exhaustif et compétitif dans le monde du Data Management, trusté par Informatica, Collibra et d’autres. C'est ainsi que Google a intégré dans Dataplex une fonctionnalité de "Data Lineage".

Le Data Lineage permet de suivre le déploiement d'un donnée dans un Système d’Information : son origine, ses transformations successives et ses impacts finaux.

A quoi sert le "Data Lineage" ?

Pour avoir la certitude qu’une donnée provient d'une source faisant autorité.
Pour faire de l’analyse d’impact en cas de modification ou suppression d’une table.
Pour s’assurer que les données sensibles sont correctement utilisées dans l’entreprise et garantir le respect des exigences réglementaires.
Pour tracker les erreurs dans un flux de données jusqu'à leurs causes racine.
Pour préparer une migration en cartographiant un système dans le détail.

De toute évidence le « Data Lineage » est un élément capital dans la panoplie d’une solution de Data Management.

Cependant, la fonctionnalité Data Lineage de Dataplex n'a pas à ce jour les caractéristiques que nous pensons indispensables pour garantir que l'ensemble des promesses relatives au Data Lineage puissent être tenues.

Nous pensons que Dataplex peut être judicieusement associé à {openAudit}pour une solution de Data Management complète.

Les limites actuelles du data lineage de Dataplex

Bien que l'API Data Lineage reçoive automatiquement des informations sur les éléments à partir des sources GCP et via des appels d'API pour les sources externes, la forme graphiques du data lineage n’est disponibles que pour les entrées provenant du Data Catalogue de Dataplex. Or ce Data Catalogue ne collecte les informations automatiquement que dans BigQuery, Cloud Data Fusion (l’ETL de GCP) et dans Cloud Composer (l’orchestrateur de GCP).

Le data lineage de Dataplex ne propose pas d'analyse "au champs", ce qui réduit assez considérablement l'éventail des analyses possible.

L'administrateur Dataplex a un accès complet aux différents projets concernés dans GCP, ce qui d'un point de vue sécurité n'est pas idéal.

Toutes les informations de traçabilité ne sont conservées dans le système que pendant 30 jours.

Une vue unique : la représentation graphique de Dataplex permet seulement de visualiser le data lineage en le déployant de façon itérative. Avec à chaque fois, la source, la transformation et la cible. Quand il y a des centaines de transformations, les analyses peuvent être fastidieuses.

Associer {openAudit} à Dataplex

{openAudit}, notre solution de Data Lineage permet de renforcer avantageusement Dataplex dans différentes directions :

Pour intégrer dans le Data Lineage l'information des bases de données tierces de façon automatisée :

Une base de données qui est elle-même hors du scope Google (Teradata, Exadata…), et qui ne peut donc pas « nourrir » à ce jour l’API Data lineage de Dataplex de façon automatisée, implique qu’une large partie du système n’est pas analysée. Nous le proposons sur une large palette de technologies en automatisant le processus à 100 %.

Pour intégrer dans le data lineage les transformations traitées par des ELT/ELT tiers :

Les ETL / ELT, DataStage, BODS, Stambia, Talend sont encore très nombreux dans les architectures Cloud. Si les transformations qu’ils gèrent sont passées sous silence, une large partie des transformations est occultée. La feuille de route de Google ne le prévoit pas ce jour.

Pour intégrer dans le data lineage les transformations dans la couche de dataviz :

Looker n’a pas encore attiré dans ses filet la totalité des utilisateurs de GCP. Et de nombreuses entreprises utilisent des solutions tierces quand bien même elles ont migré dans GCP. Typiquement QlikSense ou Power BI. Et la data préparation ayant été largement transposée dans les solutions de dataviz, il est capital de comprendre ce qui s’y passe.

C’est ce qu’{openAudit} propose aussi à travers son Data Lineage granulaire dans la couche de data visualisation.

Pour avoir une vue "de bout en bout" des flux :

Nos clients nous indiquent que dans l’idéal, un des composant graphique de Data Lineage doit permettre des analyses de détail à travers une vue granulaire certes, mais surtout qu’il doit permettre d’embrasser d’un seul coup d'œil toutes les sources et tous les impacts d’un "data point" (champ, table, base de données) pour gagner en efficacité dans les analyses.

Pour avoir une solution sécure :

Personne n'accède aux projets, quels qu'il soit dans le contexte de {openAudit}, puisque les métadonnées (seulement) sont extraites de façon autonome pour traitement.

Pour connaitre en plus les usage de la données et baisser les coûts :

Au-delà du processing, du scheduling, de la couche de dataviz, {openAudit} va analyser les logs des bases d’audits, typiquement certains logs de Google Cloud Operations, de façon à adjoindre au Data Lineage les usages et les coûts de l’information.

Ça peut permettre de pousser l’exigence en termes de sécurité (contexte DLP = Data Leak Prevention) : qui consulte telle ou telle donnée indûment.

Et cela permet d’identifier les leviers de baisse de coût du Cloud à travers des opérations de décommissionnement de pipelines de données inutiles (contexte FinOps).

En savoir plus :

Baisser les coûts du Cloud

Conclusion

Dataplex fait une entrée remarquée dans le monde du Data Management en particulier avec son data catalogue de plus en plus large, associé à la gestion des sécurités.

Le Data Lineage de Dataplex est pour l’instant prévu pour épouser précisément les différents composants disponibles dans GCP. C’est une limite qui nous permet de positionner {openAudit} de façon complémentaire. Pour un data lineage multi technologique, automatique, incluant la couche de dataviz, et permettant en parallèle de rationaliser les systèmes (volumétrie / coûts).

Rechercher dans ce blog

Le data lineage et l’usage des données pour transformer un système : simplifications / migrations

Le data lineage d'{openAudit} pour renforcer Dataplex de GCP

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Migration automatisée de SAP BO vers Power BI, au forfait.

La Data Observabilité, Buzzword ou nécessité ?

La 1ère action de modernisation d’un Système d'Information : Ecarter les pipelines inutiles ?