La 1ère action de modernisation d’un Système d'Information :

Ecarter les pipelines inutiles ?

Un système de données pourrait être comparé à un vaste réseau routier, composé de voies diverses, chacune créée pour répondre à un besoin spécifique à un moment donné.

Quand ce réseau se déploie et vieillit, certaines voies (data pipelines) deviennent sous-utilisées ou inutilisées (répliquées, obsolètes).

Les impacts financiers et organisationnels sont nombreux :

60 % des données dans le Cloud ne sont pas utilisées selon NTT.

Source : IT Social

Selon Civo, pour pratiquement la moitié des entreprises de plus de 500 salariés, le coût annuel du Cloud dépasse le million de dollars, avec des taux de croissance difficilement soutenables.

Source : ChannelNews

L’origine de ces data pipelines inutiles,

ces "voies fantômes" ?

Avec le temps, les Systèmes d’Information agrègent des pipelines devenus inutiles :

Pipelines créés pour des projets désormais abandonnés.
Doublons de pipelines, faute de coordination entre services. L’avènement des architectures "data mesh" apparait comme un gros accélérateur de cet état de fait.
Pipelines obsolètes conservés par mesure de précaution ("on ne sait jamais !"), ou pour couvrir un risque quelconque.

…
Ces "voies fantômes" consomment beaucoup de ressources dans le Cloud (stockage, processing, bande passante), qui pourraient être utilisées autrement !

Nous avons avancé sur une réponse logicielle qui permet de remédier à cette dérive naturelle, vieille comme la physique : l’entropie, i.e. le "degré de désordre reflétant la tendance naturelle des choses à évoluer vers un état de chaos".

Cette dérive n'est pas une fatalité. En revanche, c’est une course de vitesse, car les systèmes ont une telle inclination pour l’entropie que seuls des mécanismes industrialisés peuvent permettre de faire face.

Cette réponse est l'une des fonctionnalités d'{openAudit}. Avec 2 mécaniques :

Identifier techniquement et continuellement les pipelines à décommissionner

Il est possible de cartographier précisément ces enchevêtrements complexes et d’identifier les pipelines inutilisés.

Cette démarche nécessite 2 actions techniques coordonnées que nous proposons avec notre logiciel {openAudit} :

Analyse des usages de la donnée : pour identifier les "impasses informationnelles".

{openAudit} va analyser le stack technique principal pour connaître toutes les données consommées dans et en dehors des chaînes batch.
Les données consommées par des satellites (applications non "parsées") sont également analysées pour identifier l'exhaustivité de l'information utile.
Cette double analyse peut être subtile et va être paramétrée pour prendre en considération la cible métier : une information réglementaire peut être consommée de façon très périodique par exemple, tout en ayant une valeur ajoutée importante.

Par une "analyse en miroir", les impasses informationnelles sont factuellement définies en temps continu.

Data Lineage : remonter les flux pour isoler les chaines inutiles

Le data lineage permet de remonter le pipeline depuis la donnée inutilisée jusqu'à la première table qui sera à l'origine d'une information consommée dans une autre branche.
A partir de cet embranchement, il est possible de supprimer la fraction de chaîne inutile sans incidence.

Cleaner le Système d’information

Le run d’{openAudit} est opéré en continue, ce qui permet d’organiser le décommissionnement de tous les flux inutiles sur un temps long avec les équipes internes.

Une classification peut s’opérer de surcroît par métier, outils, autres, pour hiérarchiser le processus.

Modéliser un système harmonieux

Nous développons actuellement un algorithme, que nous avons baptisé "Harmony", qui permettra de modéliser de façon automatisée un système pour qu’il soit le plus rationnel et efficace possible, ce, même quand de nombreuses technologies propriétaires sont à l’œuvre (ETL, outils de dataviz). Des nouvelles à venir !

Si vous le souhaitez, nous pouvons prévoir un échange individuel en visio (15 à 20 mn) dans les prochains jours pour discuter de ces thématiques en lien avec vos propres enjeux.

Pour réserver un créneau, suivez ce lien :

Réserver un créneau de 20' dans mon agenda

Et si vous souhaitez échanger sur des sujets de migration automatisées autour des thèmes suivants (ou autres), nous nous ferons un plaisir également :

"Migrer de Talend (ou tout autre ETL) vers DBT"

"Migrer de SAP BO vers Power BI de manière automatisée" :

"Passer de DataStage au SQL en mode ELT ou en mode ETL"

"4 options pour changer d'outils de dataviz"