in

Du Data Warehouse au Data Lake, tirer parti du meilleur des deux mondes – Frédéric Brousse, Directeur Général d’Informatica France

Selon une récente enquête réalisée par le cabinet de conseil PAC, le Big Data est amené à croître de 35% par an en France d’ici à 2019. Se pose alors la problématique du stockage, de l’intégration, du traitement, de la protection et de l’analyse de cette volumétrie de données, qui devient une ressource clé pour l’entreprise : Comment valoriser les données ainsi obtenues ?  Comment optimiser les SI pour une bonne gestion et analyse de ces multitudes de données en provenance de tous horizons ?

En effet, pour faire face à la croissance exponentielle des données, les entreprises sont amenées à repenser et à organiser le département IT de manière cohérente pour intégrer efficacement les applications à la fois sur site et dans le cloud. Elles doivent ainsi faire le choix entre des bases de données relationnelles « robustes » et des technologies de données plus évolutives, telles que NoSQL et Hadoop.

Pour adresser ces problématiques, Frédéric Brousse revient sur les caractéristiques clés du Data Lake et du Data Warehouse et démontre comment ces deux approches sont complémentaires.

Qu’est-ce qu’un Data Lake  et quelle est sa valeur ?

Le « Data Lake », ou « lac de données », est un concept simple et relativement nouveau qui s’inscrit dans la mouvance du Big Data. L’objectif principal est de pouvoir fournir un stockage / entrepôt global des informations présentes dans une entreprise. Par le passé, la plupart des entreprises n’ont pas eu à gérer cette masse de données en provenance de plusieurs flux entrants, car la quasi-totalité des données était interne à l’entreprise.

Aujourd’hui, les entreprises ont besoin de pouvoir stocker les données internes et externes, brutes ou non, dans un seul et même lieu. Elles sont également confrontées à des exigences en matière de capacité et de flexibilité à traiter et analyser l’information le plus rapidement possible. A la différence d’un Data Warehouse, le Data Lake offre la possibilité de créer sa propre transformation et d’analyser les données sans avoir un chemin particulier imposé par le système ETL (Extract-Transform-Load). Ainsi, chaque utilisateur peut matérialiser son propre besoin et extraire les données sources nécessaires pour son analyse de manière rapide tout en tirant pleinement parti de l’évolutivité et de l’efficacité opérationnelle qu’offre le Data Lake.

A titre d’exemples, les institutions de services financiers sauvegardent et analysent les données transactionnelles et d’autres signaux connexes afin d’enrichir les techniques de détection des fraudes, suivre l’évolution des réglementations mondiales, et ainsi renforcer la confiance des consommateurs sur la sécurité de leurs services fournis.

Dans le secteur de la santé, les organismes conservent les données de dossiers médicaux électroniques afin de proposer des soins plus personnalisés. Le Data Lake permet ainsi, dans un même lieu, de recueillir tous types de données, de les mettre en relation afin de pouvoir les analyser rapidement et en tirer une vraie valeur ajoutée pour améliorer l’expérience client et  garantir la confidentialité au patient.

Data Lake vs. Data Warehouse

Mais le Data Lake ne vient pas remplacer le Data Warehouse, au contraire, il le complète.

Le Data Warehouse entrepose des données de façon structurée. Il conserve ainsi une qualité et une fiabilité liées à la structuration des données imposée à l’origine du schéma/processus de stockage.  Ainsi, il permet d’avoir accès à des données à forte valeur ajoutée mais répondant à un nombre limité d’algorithmes analytiques qui ne prend en compte que des formats spécifiques de données.

Le Data Lake offre une véritable agilité qui vient répondre à l’évolution du marché et l’explosion de la volumétrie des données, avec l’émergence du mobile computing, des objets connectés et autres changements disruptifs. Ces évolutions entraînent le besoin d’utiliser, d’examiner et de tester des données de toutes sortes et de tous horizons à des fins analytiques ou applicatives, et à faible coût.

Le Data Warehouse possède peu de données mais d’une valeur importante. Le Data Lake conserve quant à lui une multitude de données diverses et variées à faible coût.

Ainsi, il convient aux entreprises en phase de restructuration, de repenser les usages et besoins en matière d’analyse des données à l’ère du digital, avant de se décider à remplacer définitivement le Data Warehouse par le Data Lake. Des outils existent qui permettent de standardiser la gestion des données à travers les deux univers. Il faudrait ainsi tenter de développer une synergie entre les deux approches pour en tirer le meilleur parti.

Corinne
Corinne

Depuis plus de 25 ans dans le métier de la communication et du marketing, Corinne a démarré sa carrière à la télévision avant de rejoindre une agence événementielle. Curieuse dans l’âme, elle poursuit sa carrière dans l’IT et intègre une société de conseil en éditique puis entre chez un éditeur de logiciels leader sur son marché, SEFAS. Elle est ensuite nommée Directrice Communication chez MGI Digital Graphic, constructeur de matériel d’impression numérique et de finition international coté en bourse. Revenue en 2008 chez SEFAS au poste de Directrice Marketing et Communication groupe, elle gère une équipe répartie sur 3 géographies (France, Etats-Unis et Angleterre), crée le groupe utilisateurs de l’entreprise et lance un projet de certification ISO 9001, ISO 14001 et ISO 26000 couronné de succès. Pendant 7 ans membre du conseil d’administration de l’association professionnelle Xplor France et 2 ans sa Présidente, Corinne a créé dès 2010 TiKibuzz, son agence de marketing et de communication. Elle devient Directrice de la Communication en charge des Relations Presse, du Lobbying et du marketing digital chez DOCAPOST, groupe La Poste, durant 3 ans avant de rejoindre la start-up FINTECH Limonetik, en 2013. C'est cette même année qu'elle crée votre média professionnel, DOCaufutur, l'avenir du document.

Written by Corinne

Depuis plus de 25 ans dans le métier de la communication et du marketing, Corinne a démarré sa carrière à la télévision avant de rejoindre une agence événementielle. Curieuse dans l’âme, elle poursuit sa carrière dans l’IT et intègre une société de conseil en éditique puis entre chez un éditeur de logiciels leader sur son marché, SEFAS. Elle est ensuite nommée Directrice Communication chez MGI Digital Graphic, constructeur de matériel d’impression numérique et de finition international coté en bourse. Revenue en 2008 chez SEFAS au poste de Directrice Marketing et Communication groupe, elle gère une équipe répartie sur 3 géographies (France, Etats-Unis et Angleterre), crée le groupe utilisateurs de l’entreprise et lance un projet de certification ISO 9001, ISO 14001 et ISO 26000 couronné de succès.
Pendant 7 ans membre du conseil d’administration de l’association professionnelle Xplor France et 2 ans sa Présidente, Corinne a créé dès 2010 TiKibuzz, son agence de marketing et de communication.
Elle devient Directrice de la Communication en charge des Relations Presse, du Lobbying et du marketing digital chez DOCAPOST, groupe La Poste, durant 3 ans avant de rejoindre la start-up FINTECH Limonetik, en 2013. C'est cette même année qu'elle crée votre média professionnel, DOCaufutur, l'avenir du document.