Yousef Taheri Sojasi est un passionné d’apprentissage statistique et de traitement du langage naturel. Son stage intitulé « Signaux faibles sur des données textuelles » est encadré par Stephan Clémençon, professeur à Télécom Paris et Matthieu Labeau, maître de conférences à Télécom Paris. Ce stage, qui a débuté le 30/03/2020 et qui s’achèvera le 31/08/2020, porte sur le développement de méthodes de représentation visant à faciliter la détection de signaux faibles sur des données textuelles. La détection de signaux faibles est un enjeu majeur sur le plan applicatif. La méthode est inspirée par approches et critères fondés sur la théorie des valeurs extrêmes ayant permis d’étendre les techniques d’apprentissage supervisé ou non supervisé.
Mots-clés: traitement automatique du langage naturel, représentations de mots, théorie des valeurs extrêmes, apprentissage supervisé, apprentissage non supervisé