Collectées par différents équipements ou capteurs, sauvegardées sur le « cloud » ou échangées sur Internet, les données stockées sur notre planète atteignent le volume faramineux de 33 zettaoctets et celui-ci sera sans doute multiplié par 5 d’ici 2025. L’intérêt qu’elles suscitent repose sur la possibilité d’en extraire des informations pour modéliser, prévoir ou décider.
Une donnée résulte d’une observation du monde qui nous entoure. Représentation de cette observation, elle peut être codée et sauvegardée notamment sur un support numérique. Dès lors qu’on peut y accéder, elle devient objet de calculs et de raisonnements. La statistique la modélise comme la réalisation d’une variable aléatoire, ouvrant la porte à son exploitation par des algorithmes dit d’apprentissage statistique, composants essentiels des systèmes intelligents.
C’est d’abord l’émergence d’Internet, des moteurs de recherche et de l’indexation des pages web qui a permis l’éclosion des Big Data avec l’intérêt de traiter des données complexes (Not only SQL) et la nécessité de passer à l’échelle (schéma Map/reduce). Puis plus récemment la concomitance de trois avancées a ré-ouvert la voie à l’Intelligence Artificielle , marquant une seconde rupture : la disponibilité d’immenses bases de données annotées, la montée en puissance des capacités de calcul et les progrès réalisés par les algorithmes d’Apprentissage (machine learning) et tout particulièrement en deep learning.
Cette dernière rupture qui propulse les données comme la matière première essentielle à la conception de systèmes intelligents ne va pas sans questionnement. La qualité des données influençant directement les résultats des algorithmes d’apprentissage, l’équité et le respect de la vie privée dans la collecte comme dans l’exploitation tout comme la fiabilité des données deviennent des défis qu’il va falloir relever.
Ce texte est un résumé de l’intervention de Florence d’Alché-Buc au « Réveil Digital » d’ENGIE du 5 juin 2019
https://youtu.be/O2uOsK49R5g