Stagiairothon 2025 - Maison de la Télédétection

mtd-stgrothon25 : Stagiairothon 2025 - Maison de la Télédétection

12-12 Jun 2025 Montpellier (France)

Fouille de données vocales sur les langues africaines

Dan Hou 1, @

1 : Territoires, Environnement, Télédétection et Information Spatiale

Centre de Coopération Internationale en Recherche Agronomique pour le Développement, AgroParisTech, Centre National de la Recherche Scientifique, Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement, Centre de Coopération Internationale en Recherche Agronomique pour le Développement : UMR91

Ce stage s'inscrit dans le cadre d'un projet de veille épidémiologique exploitant des enregistrements issus de radios africaines locales, souvent diffusés dans des langues peu dotées telles que le wolof, le peul ou l'ewondo. L'objectif est de développer un pipeline automatique combinant transcription de la parole et fouille de données thématique (ex. agriculture, santé).

Une première expérimentation a été menée sur des enregistrements en français du corpus VoxPopuli. Un modèle de reconnaissance vocale basé sur Wav2Vec2 a été fine-tuné, puis les transcriptions ont été classées par thématique à l'aide d'un modèle mBERT. Les résultats montrent une précision encourageante (~97 %) pour la classification, et un WER d'environ 27 % pour l'ASR.

Des travaux sont en cours pour adapter la méthode au corpus ESTER2, plus représentatif d'un environnement réaliste (bruit, chevauchement, parole spontanée), avant une extension vers les langues africaines ciblées.

Subject :	:	Presentation (4 slides)
Topics	:	Session 3 — Textual Data, Web, and Linguistic Approaches for Environmental and Social Analysis

Presentation

Privacy | Accessibility