Ce stage s'inscrit dans le cadre d'un projet de veille épidémiologique exploitant des enregistrements issus de radios africaines locales, souvent diffusés dans des langues peu dotées telles que le wolof, le peul ou l'ewondo. L'objectif est de développer un pipeline automatique combinant transcription de la parole et fouille de données thématique (ex. agriculture, santé).
Une première expérimentation a été menée sur des enregistrements en français du corpus VoxPopuli. Un modèle de reconnaissance vocale basé sur Wav2Vec2 a été fine-tuné, puis les transcriptions ont été classées par thématique à l'aide d'un modèle mBERT. Les résultats montrent une précision encourageante (~97 %) pour la classification, et un WER d'environ 27 % pour l'ASR.
Des travaux sont en cours pour adapter la méthode au corpus ESTER2, plus représentatif d'un environnement réaliste (bruit, chevauchement, parole spontanée), avant une extension vers les langues africaines ciblées.
- Presentation



