Les réseaux de neurones profonds sont à l’origine d’avancées spectaculaires dans le traitement des signaux audio musicaux. Le mercredi 12 février 2020, Geoffroy Peeters, professeur à Télécom Paris, a été invité au Collège de France dans la chaire « Mathématiques et Sciences du numériques/ Science des données » de Stéphane Mallat pour y présenter un séminaire intitulé : « Réseaux de neurones profonds pour le signal audio musical ».
Ce cours présente en trois temps les caractéristiques des signaux audio musicaux et les adaptations nécessaires des réseaux de neurones profonds pour la modélisation de ces signaux.
En premier lieu, Geoffroy Peeters rappelle certains éléments de traitements du signal audio et montre comment ces éléments s’inscrivent dans l’approche machine-learning traditionnelle pour construire des « hand-crafted features » donnés en entrée d’algorithmes de classification. Puis il indique comment les réseaux de neurones profonds (en particulier convolutionnels) permettent d’effectuer du « feature learning ». Enfin, Geoffroy Peeters énonce les différents paradigmes d’apprentissage utilisées dans le domaine audio musical : classification, encoder-decoder (séparation de source, contraintes sur l’espace latent), metric learning (triplet loss) et semi-supervised learning.