Opinion : la virtualisation des données, une réponse pertinente pour le traitement de données massives, oui, non?

mars 01, 2022

La virtualisation des données, une réponse pertinente pour le traitement de données massives, oui, non ?

Il y a de fortes chances que votre ancien DWH n'évolue pas ou pas assez vite, couvre insuffisamment de domaines et fonctionne avec l’appui d’un ETL/ELT dont la maintenance est complexe, ou à peine partagée. Votre récent investissement dans un Data Lake a du mal à fournir le ROI promis. Et puis vous entendez parler de la data virtualisation… mais est-ce vraiment une solution ?

Il y a quelques années, Gartner a annoncé l’avènement du "Data Warehouse Logique" comme architecture révolutionnaire s’appuyant sur la virtualisation des données.

Mais la virtualisation des données est-elle le meilleur moyen d’avancer vite et bien dans ses projets data ? L'entrepôt de données logique remplacera t’il complètement l'entrepôt de données centralisé traditionnel ?

Comment fonctionne la virtualisation de données :

Réception et analyse les demandes des utilisateurs ;
Split des demandes, chaque composant va venir interroger son système source ;
Collecte les résultats de chaque requête, les données renvoyées sont souvent mises en cache sur le serveur pour accélérer les requêtes futures ;
Agrégation des résultats individuels, et push à l'utilisateur.

Les outils de virtualisation des données traitent les complexités de la connexion à plusieurs systèmes sources et offrent un moyen cohérent d'interroger tous les assets de l'entreprise.

Pourquoi c’est utile :

Un DWH logique est circonscrit. La couche de data virtualisation agit comme une couche unifiée couvrant l'ensemble du scope des données d'entreprise. Il s'agira essentiellement d'une couche de métadonnées avec des définitions cohérentes des assets d’entreprise. Cette couche propose des moyens d'accéder aux données et de les interroger.
Les technologies de virtualisation des données facilitent ainsi l'accès centralisé par des requêtes SQL en lecture/écriture aux systèmes de stockage sous-jacents : fichiers plats, bases de données relationnelles, DWH NoSQL et systèmes opérationnels tels que les CRM, ou les ERP via des API Rest…etc.
La virtualisation des données pour les PoC « agiles » : en éliminant le besoin de développer des pipelines ETL et de stocker des données, la virtualisation de donnée accélère considérablement l'exploration des données et permet des processus de développement rapides et itératifs pour alimenter la couche de data visualisation. Les couches de virtualisation des données agissent comme des intermédiaires et des « traducteurs » efficaces entre les outils de dataviz et les systèmes source, y compris le DWH. Plutôt que de créer des environnements de développement, de test, et de les répliquer à outrances, la data virtualisation permet de "simuler" ces environnements à outrance et d’aller vite à la cible, et de façon « légère » ;
Qui dit moins de stockage, mois de processing dit moins de de consommation RAM, CPU..., et donc d’énergie. Ce sera un pas vers la Green IT, un véritable enjeu en ce moment.

Les limites de la virtualisation des données

La virtualisation des données repose sur une disponibilité à 100 % des systèmes source. Si l'un des systèmes échoue, les requêtes échoueront. Ça peut être partiellement traité par la mise en en cache des données sur les serveurs de virtualisation des données
La virtualisation des données ne renvoie que les données les plus récentes et ne stocke pas l'historique des modifications de source – qui est un des intérêts majeurs du stockage dans un DWH.
Les performances des requêtes sont médiocres pour les jointures à cardinalité multiples et les agrégations complexes entre les systèmes sources ;
Les queries nombreuses peuvent avoir un impact sur les performances des applications CRM ou ERP ;
La virtualisation des données a de fortes limites pour gérer la qualité des données ;
La virtualisation des données est incapable de gérer des transformations complexes, e.g. nécessitant des recherches itératives.
La virtualisation des données ne sera pas une bonne option quand les systèmes sous-jacents présenteront une trop forte complexité. Il conviendra aussi d’effacer la « dette IT » dans la mesure du possible, i.e. tenter de détecter tout ce qui est inutilisé dans le système d’information ou qui est répliqué. Il faudra capter les usages de l’information et remonter les flux correspondant à leurs alimentations pour définir les parties du SI qui ne servent pas. Les équipes pour construire leurs projets de virtualisation sur des bases saines, et par extension le SI deviendra plus simple à administrer, à migrer … etc.

Pour résumer, les plates-formes de virtualisation et de fédération de données offrent des moyens rapides et efficaces de prototyper et d'explorer les données, mais elles ne peuvent pas remplacer les pipelines physiques dans les applications critiques de production.

Et tout indique qu’avant d’avancer vers la data virtualisation, comme avant d’avancer vers n’importe quel projet data, il faudra s’atteler à réduire la dette IT, pour retrouver des systèmes propres, effaces, dont la compréhension est partagée au plus grand nombre.

#greenIT #ITdebt #datavirtualization #datapipeline

www.ellipsys-bi.com

ellipsys@ellipsys-bi.com

Rechercher dans ce blog

Le data lineage et l’usage des données pour transformer un système : simplifications / migrations