| Talend-dbt Migration:a passport to modernizedata |
|
|
|
|
|
Talend ETL is very well known for its OS version, “OS” for Open Studio . Talend, the publisher of the eponymous ETL, was acquired by Qlik in May 2023. The free version of Talend ETL ("TOS") is no longer distributed since early 2024. This implies that "TOS" is no longer maintained or updated. Talend Data Fabric, the paid version of “TOS”, is taking over, with better support, new features, etc. Many companies that had chosen "TOS" are considering leaving the platform to escape the paid model, among other reasons. In addition, a tool called "dbt" (Data Build Tool) is experiencing dizzying growth. In this article, we explain how to consider a transition from TOS to dbt. |
|
|
|
|
|
| ETLs including Talend, are generally less popular. |
|
|
|
|
|
The end of ETLs? ETLs, which allow the data transformation process to be "outsourced" to third-party machines, and therefore "relieved" by databases, have less added value with the advent of powerful Cloud databases, such as BigQuery, Snowflake, Redshift and others. With an ELT, transformations are performed directly within the DWH. |
|
| |
|
|
|
| The incomparable added value of SQL Workflows designed with ETL interfaces are easy to learn, but rigid, whereas the latest generation ELT frameworks, in “quasi” SQL, have great flexibility and use a universal language: SQL (or dialects of SQL) ! |
|
|
|
|
|
Parmi les frameworks connaissant la croissance la plus soutenue, il y a dbt (de dbt Labs), né en 2016 avec déjà 3500 entreprises utilisatrices ! Quelques-unes de ses caractéristiques : - dbt permet de modulariser le SQL en utilisant des modèles (« models ») et des macros (via Jinja).
- dbt utilise de simples fichiers YAML pour gérer des configurations / définir les dépendances et spécifier les relations entre les modèles (dans un DAG : Directed Acyclic Graph).
- Les tests de qualité sont définis dans les fichiers YAML.
- dbt est versionné avec Git, l’outil de versioning le plus utilisé dans le monde.
…. Et dbt propose une version open source (dbt Core), et donc un modèle « freemium» qui d'ailleurs avait permis l'éclosion rapide de Talend il y a quelques années... |
|
| |
|
|
|
Au-delà de cette migration de Talend vers dbt qui peut faire consensus, la forte profondeur d’historique de la plateforme source, avec des flux intriqués qui ont pu foisonner pendant des années, implique que la migration sera nécessairement un challenge complexe. En tous cas, en mode « papier / crayon » . Nous pensons que l’automatisation de cette migration s’impose. |
|
|
|
|
|
| Migrer de Talend à dbt en automatisant le processus |
|
|
|
|
|
Définir ce qui doit être migré {openAudit} analyse les flux de données et les croise avec les usages de la donnée, pour ne migrer que ce qui doit l’être et pour définir une roadmap par métier. Comment : - Analyse des flux : {openAudit} analyse les processus internes via un data lineage physique, au champ, dans la base de données en source et dans Talend : analyse des vues, des vues imbriquées et des autres scripts associés à l'alimentation des flux.
- Analyse des usages de la donnée : {openAudit} analyse certains logs des bases d'audit, pour la consommation et l’injection des données.
|
|
| |
|
|
|
| Conversion des logiques de Talend en SQL avec {openAudit} - Ordonnancement des transformations élémentaires : {openAudit} détecte les sources, les cibles, les filtres et les logiques de transformation de l’ensemble des Jobs et sous-Jobs Talend, et isole les transformations qui seront portées vers dbt.
- Conversion en SQL : les transformations de Talend sont converties en requêtes SQL par {openAudit}, étape par étape.
- Points de contrôle : chaque étape SQL correspond à une étape du Job en source, ce qui permet à {openAudit} d'introduire de vrais points de contrôle.
|
|
|
|
|
|
Conversion des logiques ETL de Talend vers la logique de dbt - Adaptation to dbt: the generated SQL can be adjusted by {openAudit} to adapt to the syntax of dbt & BigQuery (for example) - Option: adding models in the project configuration, defining dependencies between models.
- Tests: SQL tests in "dry run" in the target database with {openAudit} . - Option: data tests to guarantee their integrity.
|
|
| |
|
|
|
CONCLUSION The transition from Talend to dbt represents a strategic ambition for companies that want to adopt lightweight, flexible solutions and want to leverage the power of the latest Cloud architectures. With {openAudit} , this migration is optimized upstream, and the precise conversion of ETL logic into SQL can enable this “move” in a short time frame and on a fixed-price basis. Rigorous testing will ensure the reliability of the migration. |
|
|
|
|
|
|
Commentaires
Enregistrer un commentaire