ParisTech se présente
 Evénements
 
 Etudier à ParisTech
 La coopération internationale
 Ressources documentaires
 Vivre à ParisTech
 ParisTech et les entreprises
 ParisTech Libres Savoirs
 
 

Optimisation du graphe de décodage d’un système de reconnaissance vocale par apprentissage discriminant.

Accueil || Parcours || Recherche || S'enregistrer || Mon Compte || Contacts || Aide || Langues

Lin, Shiuan Sung (2007) Optimisation du graphe de décodage d’un système de reconnaissance vocale par apprentissage discriminant. Doctorat, ENST.

Plein texte disponible en tant que :

- thesis.pdf ( 1489 Kb )
Licence: Copyright

Résumé

Les trois sources principalement utilisées en reconnaissance vocale automatique (Automatic Speech Recognition, ASR) sont les modèles acoustiques, le dictionnaire et le modèle de langage. Elles sont habituellement conçues et optimisées de manière séparée. Notre travail a proposé une méthodologie, à savoir un apprentissage discriminant sur un grand graphe de décodage, pour optimiser conjointement les paramètres de ces différents modèles, en se fondant sur l'intégration des ressources dans un transducteur fini pondéré dont les poids des transitions sont estimés par de manière discriminante.

Dans ce cadre d'apprentissage, les paramètres du modèle sont ajustés itérativement de façon à réduire progressivement le nombre d'erreurs de retranscription commises par le système. Nous considérons en particulier dans ce travail de mettre en oeuvre ce cadre d'apprentissage pour une tâche de reconnaissance à « grand vocabulaire » : la transcription automatique des nouvelles de la radio française. Nous proposons plusieurs techniques pour un accélérer les algorithmes de décodage, afin de rendre ce type d'apprentissage computationnellement faisable.

Une série d'expériences conduites sur cette tâche montrent qu'une reduction de 1 point du taux d'erreur de retranscription peut être obtenu, démontrant que cette méthodologie d'apprentissage permet d'améliorer les performances des systèmes de reconnaissance. Diverses extensions de cette méthode seront finalement présentées et discutées.

Type d'EPrint:Thèse (Doctorat)
Directeur de Thèse:Chollet, Gérard et Yvon, François
Date:05 Juin 2007
Jury de Thèse:Deleglise, Paul et Smaili, Kamel et Gravier, Guillaume et Haton, Jean-Paul et Waast, Claire
Ecole Doctorale:ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE)
Fonds:ENST
Institution:ENST
Sujets:2. Sciences et technologies de l'information et de la communication
Code ID:2785
Déposé par :Shiuan Sung LIN
Déposé le :24 Janvier 2008

Statistiques de consultation

Administrateurs de l'archive uniquement : éditer cet enregistrement

 
ParisTech
 
droits de reproduction et de diffusion réservés © ParisTech 2007