Les habitudes à adopter en 2018 – 5 bonnes résolutions à l’attention des data scientists – Par Xavier Guerin, Datastax

Que réserve l’année 2018 ?

A l’occasion du sommet le plus influent de la scène Big Data hexagonale, Big Data Paris (12 et 13 mars prochain au Palais des Congrès – Paris), Xavier GUERIN, Vice-Président Europe de l’Ouest de DATASTAX propose 5 conseils pour les data scientists :

Résolution n°1 – Préparez-vous à ce que l’intelligence artificielle attise la méfiance

Aujourd’hui, l’intelligence artificielle est un phénomène de mode. IA et machine learning sont annoncés comme deux domaines voués à améliorer les performances des applications, tandis que l’engouement pour le deep learning s’intensifie lui aussi.

Cependant, s’il y a fort à parier que le battage médiatique qui auréole ces nouveautés incitera certaines entreprises à y affecter des budgets, il est tout aussi probable que les attentes des décisionnaires tombés sous le charme s’avèrent irréalistes. Pour éviter la douche écossaise et la suspicion qui s’ensuit, il faudra donc anticiper en élaborant conjointement des modèles concrets et des cas d’usage.

Résolution n°2 – Familiarisez-vous avec le streaming et les translytics sans pour autant négliger les processus plus classiques de traitement par batch

Dans certains cas de figure, l’utilisation d’outils classiques d’analyse par batch reste la méthode la plus adaptée. Dans d’autres, mieux vaudra opter pour des outils d’analyse qui s’activent au moment de l’exécution d’une transaction.

Dans son expression la plus simple, le streaming analytics, ou analyse de données en temps réel, s’applique à des objets qui respectent certaines conditions. Ainsi, tout événement est analysé dès qu’il survient. Dans les entreprises qui brassent de larges volumes de données, la méthode suppose d’analyser dès leur exécution les centaines ou milliers d’actions qui ont lieu à chaque seconde. Or, les outils de traitement par batch seront très vite dépassés face à une telle charge de travail.

En complément émerge une nouvelle catégorie que Forrester nomme translytics. Elle englobe la façon dont on peut exploiter des données opérationnelles en les analysant dès l’instant où elles sont générées. Le résultat final devrait être semblable à celui obtenu via le streaming analytics. Dès lors, il importera de savoir quand opter pour le streaming, quand choisir une base de données translytique et quand utiliser les opérations de traitement par batch.

Résolution n°3 – Sélectionnez soigneusement le partenaire à qui vous témoignerez votre confiance pour éviter d’être coincé avec un prestataire qui n’est pas à la hauteur

De nos jours, il est devenu impossible de tout faire soi-même. On peut construire et gérer son propre Datacenter ou bien confier cette tâche à un fournisseur cloud, voire les deux. Pour les entreprises, la migration vers le cloud public est le gage d’une réduction des dépenses, mais l’opération peut également se solder, avec le temps, par une hausse des coûts opérationnels.

Cependant, l’un des grands problèmes tient à la marge de manœuvre dont vous disposerez si l’envie vous prend de changer de prestataire. Vous faudra-t-il payer des frais de désengagement pour exfiltrer vos données des griffes d’un fournisseur ? A contrario, une procédure simplifiée de migration est-elle prévue ? Quels services sont l’apanage d’un seul prestataire ?

Sachant que l’on ne peut faire cavalier seul, il est impossible de contourner le problème du lock-in, c’est-à-dire de la dépendance envers un prestataire. Ceci dit, c’est à vous qu’il revient de choisir l’entreprise à qui octroyer votre confiance, celle qui deviendra votre partenaire au long cours.

Résolution n°4 – Devenez un pro du graph analytics

Le graph analytics est voué à se démocratiser cette année. Bien que la méthode présente de nombreuses qualités, ses caractéristiques sont très différentes des autres. Si vous ne l’avez pas déjà fait, vous devriez prendre le temps de découvrir les fonctionnalités du graph et de déterminer les tâches dont il pourrait s’acquitter avec plus d’efficacité que les autres méthodes d’analyse. Avant de foncer tête baissée, tâchez de comprendre les techniques de modélisation et d’interrogation des données dans ce système. Une maîtrise rudimentaire du langage transverse Gremlin vous suffira pour mesurer combien le graph est différent et combien il peut être utile pour peu qu’on l’utilise dans les bonnes circonstances.

Résolution n°5 – Repensez les modes d’échange de données entre les différentes équipes amenées à collaborer

Compte tenu de l’intérêt croissant que suscitent l’intelligence artificielle et le machine learning, il est plus que probable que de nouveaux rôles émergent en entreprise. Hier, le cloisonnement s’opérait entre l’IT et les analystes opérationnels, puis entre les Chief Data Officers et les Data Scientists. Au-delà de leurs différences, ces rôles supposent de comprendre et d’exploiter les données de façon novatrice. Trouvez un domaine qui vous passionne, puis faites-en une force. Gardez en tête qu’il faudra toujours être capable de traduire la technologie en business et vice-versa. Si vous voulez vous démarquer, n’hésitez pas à évoquer les raisons commerciales qui motivent l’adoption d’une technologie au-delà de sa capacité à accomplir certaines tâches.

Retrouvez Datastax lors du congrès Big Data Paris (hall Passy, stand A25).

Morgane Palomo
Diplômée d'un master un brand management marketing, sa curiosité et sa soif de savoir ne sont étanchées. De nature créative, elle a su diversifier ses expériences. De la création graphique, à l'événementiel en passant par la communication interne et le marketing digital, elle s’est construit un savoir pluriel et avant tout polyvalent.

More from author

Restez connectez !

Nous diffusons une Newsletter mensuelle incluant des dossiers thématiques, interviewes et investigations réalisées par nos journalistes indépendants.
Vous souhaitez recevoir notre lettre d’informations?