Le Comité d'orientation stratégique (COS) information et communication d'Afnor, organe de gouvernance de la normalisation du domaine de l'information (les TC46 et CN46) a commandité un rapport sur l'état de l'art et les recommandations pour la normalisation du sujet Big Data ou données massives ou encore nommé Megadonnées !
La définition extraite de la documentation de l'IUT-T précise que les Big Datas se caractérisent par :
- [bien évidemment] les volumes pour lesquels on parle de Tera voire de Peta octets,
- la rapidité à laquelle sont produites les données (génération, transmission, stockage, effacement quand applicable)
- la variété des données qui sont structurées comme non structurées (texte, données de capteurs, images, son, vidéo, données issues des réseaux sociaux, bases de données, etc.)
- et enfin la véracité, dernier point mais non des moindre, puisque des décisions sont prises sur la confiance accordée à ces données.
Deux remarques sont exposées :
- d'une part la nécessité d'une gouvernance pour favoriser le suivi et réponse aux simples questions comme "qui est producteur de la donnée ? qui en qualifie la qualité ? quel est le circuit de validation en place ? d'où la recommandation de la nomination d'un chief data officer (CDO)
- d'autre part l'intérêt de disposer rapidement de cadres normatifs pour 2 principaux sujets : A/ standardiser le processus de pseudonymisation (réversibilité comprise), B/ normaliser les nouveaux langages d'exploitation et de requête comme les langages NoSQL (alternatives aux standards SQL).