The data lineage of {openAudit} to reinforce GCP Dataplex

 


The data lineage of {openAudit}

to strengthen GCP Dataplex

 

Google has taken the plunge into Data Management with Dataplex!

 

Dataplex is essentially a central data catalog for BigQuery, Google's managed data warehouse. 

 

The breadth of technologies analyzed continues to grow, with support for other databases available in GCP, in particular Cloud SQL, BigTable and Spanner, but also for GCP's flagship data visualization solution, Looker. Dataplex is also starting to automate the collection of metadata from third-party sources: MySQL, Snowflake, Databricks, etc.

 

With this, Dataplex customers have a complete view of data within a single unified catalog with their descriptions and contexts. 

 

Google is now looking to complete Dataplex to make it comprehensive and competitive in the world of Data Management, dominated by Informatica, Collibra and others. This is how Google has integrated a "Data Lineage" functionality into Dataplex.

 

Data Lineage makes it possible to follow the deployment of data in an Information System: its origin, its successive transformations and its final impacts.

 

What is the purpose of “Data Lineage”? 

  • To be sure that data comes from an authoritative source.
  • To perform impact analysis in case of modification or deletion of a table.
  • To ensure that sensitive data is used correctly within the business and ensure compliance with regulatory requirements.
  • To track errors in a data stream to their root causes.
  • To prepare for a migration by mapping a system in detail.

Clearly, “Data Lineage” is a key element in the range of a Data Management solution. 

 

However, Dataplex's Data Lineage functionality does not currently have the features we believe are essential to ensure that all of the promises of Data Lineage can be delivered.

We believe that Dataplex can be judiciously combined with {openAudit} for a complete Data Management solution. 

 

Current Limitations of Dataplex Data Lineage

Bien que l'API Data Lineage reçoive automatiquement des informations sur les éléments à partir des sources GCP et via des appels d'API pour les sources externes, la forme graphiques du data lineage n’est disponibles que pour les entrées provenant du Data Catalogue de Dataplex. Or ce Data Catalogue ne collecte les informations automatiquement que dans BigQuery, Cloud Data Fusion (l’ETL de GCP) et dans Cloud Composer (l’orchestrateur de GCP). 

Le data lineage de Dataplex ne propose pas d'analyse "au champs", ce qui réduit assez considérablement l'éventail des analyses possible. 

L'administrateur Dataplex a un accès complet aux différents projets concernés dans GCP, ce qui d'un point de vue sécurité n'est pas idéal.

Toutes les informations de traçabilité ne sont conservées dans le système que pendant 30 jours. 

Une vue unique : la représentation graphique de Dataplex  permet seulement de visualiser  le data lineage en le déployant de façon itérative. Avec à chaque fois, la source, la transformation et la cible. Quand il y a des centaines de transformations, les analyses peuvent être fastidieuses.

 
 

Associer {openAudit} à Dataplex

{openAudit}, notre solution de Data Lineage permet de renforcer avantageusement Dataplex dans différentes directions : 

  • Pour intégrer dans le Data Lineage l'information des bases de données tierces de façon automatisée : 

Une base de données qui est elle-même hors du scope Google (Teradata, Exadata…), et qui ne peut donc pas « nourrir » à ce jour l’API Data lineage de Dataplex de façon automatisée, implique qu’une large partie du système n’est pas analysée. Nous le proposons sur une large palette de technologies en automatisant le processus à 100 %. 

  • Pour intégrer dans le data lineage les transformations traitées par des ELT/ELT tiers : 

Les ETL / ELT, DataStage, BODS, Stambia, Talend sont encore très nombreux dans les architectures Cloud. Si les transformations qu’ils gèrent sont passées sous silence, une large partie des transformations est occultée. La feuille de route de Google ne le prévoit pas  ce jour. 

  • Pour intégrer dans le data lineage les transformations dans la couche de dataviz :

Looker n’a pas encore attiré dans ses filet la totalité des utilisateurs de GCP. Et de nombreuses entreprises utilisent des solutions tierces quand bien même elles ont migré dans GCP. Typiquement QlikSense ou Power BI. Et la data préparation ayant été largement transposée dans les solutions de dataviz, il est capital de comprendre ce qui s’y passe.

C’est ce qu’{openAudit} propose aussi à travers son Data Lineage granulaire dans la couche de data visualisation.

  • Pour avoir une vue "de bout en bout" des flux :

Our customers tell us that ideally, one of the graphic components of Data Lineage should allow detailed analyses through a granular view, of course, but above all it should allow us to take in at a glance all the sources and all the impacts of a "data point" (field, table, database) to gain efficiency in the analyses. 

  • To have a secure solution:

No one accesses the projects, whatever they are in the context of {openAudit}, since the metadata (only) is extracted autonomously for processing. 

  • To learn more about data usage and reduce costs:

Beyond processing, scheduling, and the dataviz layer, {openAudit} will analyze the logs of the audit databases, typically certain logs from Google Cloud Operations, in order to add the uses and costs of the information to the Data Lineage.

This can help to push the requirement in terms of security (DLP context = Data Leak Prevention): who consults such and such data unduly.

And this makes it possible to identify the levers for reducing the cost of the Cloud through operations to decommission unnecessary data pipelines (FinOps context). 

 

Learn more: 

Lowering Cloud Costs
 
 

 

Conclusion 

 

Dataplex is making a remarkable entry into the world of Data Management, particularly with its increasingly broad data catalogue, associated with security management.

Dataplex Data Lineage is currently designed to precisely match the different components available in GCP. This is a limitation that allows us to position {openAudit} in a complementary way. For a multi-technological, automatic data lineage, including the dataviz layer, and allowing in parallel to rationalize the systems (volume / costs).

Commentaires

Posts les plus consultés de ce blog

Migrer de SAP BO vers Power BI, Automatiquement, Au forfait !

La Data Observabilité, Buzzword ou nécessité ?

BCBS 239 : L'enjeu de la fréquence et de l'exactitude du reporting de risque