Provenance des mégadonnées : quels sont ses défis ?

{{brizy_dc_image_alt entityId=

Qu’est-ce que la provenance dans le contexte du Big Data ?

Le terme « provenance » désigne la collecte d'informations sur l'origine des données et leur méthode de traitement.

La provenance des données nous aide à identifier leur authenticité et leur qualité. Maintenir la provenance de volumes importants de données peut s'avérer complexe, car elles passent par de multiples étapes de traitement.

Pour simplifier la traçabilité, les données disponibles sont classées en trois étapes clés : en cours de transmission, en cours de traitement et en stockage. Ces étapes sont respectivement appelées données en transit, données en cours d'utilisation et données au repos.

La mise en œuvre et l'exploitation de la provenance des données massives présentent plusieurs défis pour les data scientists. Nous aborderons ces défis dans cet article.

Architecture de provenance des mégadonnées

La provenance des données est utile pour le débogage des données et des transformations, l'évaluation de leur qualité et de leur fiabilité, la mise en œuvre du contrôle d'accès aux données extraites, l'audit des données et la création d'un modèle d'authentification.

Pour comprendre l'importance de la provenance des données dans le contexte du Big Data, examinons l'architecture de provenance du Big Data.

Défis liés à la provenance des mégadonnées :

La mise en œuvre de la traçabilité des données présente certaines difficultés en raison de l'analyse axée sur les flux de travail.

Ces défis liés à la traçabilité des données massives sont généralement dus au volume important de données, aux outils existants orientés applications et aux modèles de jeux de données distribués (DDP).

Nous allons recenser certains des principaux défis liés à l'utilisation de la traçabilité des données massives.

Frais généraux de collecte plus élevés

L'un des principaux défis liés à la provenance des données massives réside dans l'important volume de tâches de collecte.

Un grand nombre d'ensembles de données en flux continu sont utilisés dans un modèle à plusieurs étapes pour l'analyse des données massives. Ces ensembles de données augmentent les coûts de collecte.

Il faut également prendre en compte le coût de calcul associé à l'analyse. Toute incohérence dans cette base de données pourrait engendrer des résultats erronés.

Et si ces coûts sont distribués, le problème des surcharges ne fera que s'aggraver.

Flux de travail importants

La plupart des data scientists utilisent des modèles de programmation MapReduce pour traiter les données.

Il arrive que le nombre de fonctions définies par l'utilisateur se compte en millions, et que le volume de données enregistrées dépasse celui des données originales.

Gérer des données aussi volumineuses est considéré comme très complexe, et les data scientists doivent les enregistrer efficacement. Ils doivent trouver un moyen de réduire leur taille sans en altérer les fonctionnalités.

Difficulté à reproduire l'exécution

La reproduction d'une exécution dans les applications Big Data est un processus complexe.

La plupart des systèmes de traçabilité des données existants n'enregistrent que les données intermédiaires générées lors de l'exécution et leurs dépendances.

Ces systèmes négligent souvent un aspect crucial de la reproductibilité : les informations relatives à l'environnement d'exécution.

Ces informations comprennent les configurations des paramètres des moteurs Big Data et les données matérielles.

Elles sont essentielles au bon déroulement de l'exécution et peuvent également influencer les résultats finaux.

Comme la plupart des systèmes Big Data ne disposent pas de cette fonctionnalité, il devient difficile de reproduire une exécution fidèle.

Intégration et stockage de la provenance des données distribuées

Les data scientists trouvent le stockage et l'intégration de la provenance des données complexes.

Ils enregistrent généralement la provenance des champs définis par l'utilisateur (UDF) exécutés sur des systèmes Big Data sur des nœuds non permanents.

Ils doivent ensuite assembler les informations collectées ou les mettre à jour au fur et à mesure de l'analyse.

La première option est généralement plus efficace, mais elle nécessite une étape supplémentaire : le chargement des informations avant la libération des nœuds de calcul.

La seconde option engendre une surcharge de communication importante, mais peut s'avérer utile pour le suivi de l'avancement des applications. Cependant, l'assemblage des données requiert des étapes supplémentaires dans les deux cas.

Cela complexifie le stockage et l'intégration de la base de données, ce qui représente un défi majeur pour le Big Data.

Points clés à retenir :

Malgré les nombreux défis que présentent actuellement la mise en œuvre et l'exploitation de la traçabilité des données massives, il est indéniable que cette traçabilité est un élément essentiel du processus d'analyse des données massives.

L'importance de la traçabilité est capitale dans le domaine des données massives, et si vous parvenez à surmonter ces difficultés, vous disposerez d'une plateforme performante.