Accueil || Parcours || Recherche || S'enregistrer || Mon Compte || Contacts || Aide || Langues
Hueber, Thomas (2009) Reconstitution de la parole par imagerie ultrasonore et vidéo de l'appareil vocal : vers une communication parlée silencieuse. Doctorat Informatique, Télécommunications et Electronique, Laboratoire d'Electronique de l'ESPCI ParisTech, Paris VI p.200.
Plein texte disponible en tant que :
|
|
Résumé
L’objectif poursuivi dans ce travail de thèse est la réalisation d’un dispositif capable d’interpréter une parole normalement articulée mais non vocalisée, permettant ainsi la « communication parlée silencieuse ». Destiné, à terme, à être léger et portatif, ce dispositif pourrait être utilisé d’une part, par une personne ayant subi une laryngectomie (ablation du larynx suite à un cancer), et d’autre part, pour toute communication, soit dans un milieu où le silence est requis (transport en commun, opération militaire, etc.), soit dans un environnement extrêmement bruité. Le dispositif proposé combine deux systèmes d’imagerie pour capturer l’activité de l’appareil vocal pendant « l’articulation silencieuse » : l’imagerie ultrasonore, qui donne accès aux articulateurs internes de la cavité buccale (comme la langue), et la vidéo, utilisée pour capturer le mouvement des lèvres. Le problème traité dans cette étude est celui de la synthèse d’un signal de parole « acoustique », uniquement à partir d’un flux de données « visuelles » (images ultrasonores et vidéo). Cette conversion qualifiée ici de « visuo-acoustique », s’effectue par apprentissage artificiel et fait intervenir quatre étapes principales : l’acquisition des données audiovisuelles, leur caractérisation, l’inférence d’une cible acoustique à partir de l’observation du geste articulatoire et la synthèse du signal.
Dans le cadre de la réalisation du dispositif expérimental d’acquisition des données, un système de positionnement de la sonde ultrasonore par rapport à la tête du locuteur, basé sur l’utilisation combinée de deux capteurs inertiaux a tout d’abord été conçu. Un système permettant l’enregistrement simultané des flux visuels et du flux acoustique, basé sur la synchronisation des capteurs ultrasonore, vidéo et audio par voie logicielle, a ensuite été développé. Deux bases de données associant observations articulatoires et réalisations acoustiques, contenant chacune environ une heure de parole (continue), en langue anglaise, ont été construites. Pour la caractérisation des images ultrasonores et vidéo, deux approches ont été mises en œuvre. La première est basée sur l’utilisation de la transformée en cosinus discrète, la seconde, sur l’analyse en composantes principales (approche EigenTongues/EigenLips). La première approche proposée pour l’inférence des paramètres acoustiques, qualifiée de « directe », est basée sur la construction d’une « fonction de conversion » à l’aide d’un réseau de neurones et d’un modèle par mélange de gaussiennes. Dans une seconde approche, qualifiée cette fois « d’indirecte », une étape de décodage des flux visuels au niveau phonétique est introduite en amont du processus de synthèse. Cette étape intermédiaire permet notamment l’introduction de connaissances linguistiques a priori sur la séquence observée. Elle s’appuie sur la modélisation des gestes articulatoires par des modèles de Markov cachés (MMC). Deux méthodes sont enfin proposées pour la synthèse du signal à partir de la suite phonétique décodée. La première est basée sur une approche par concaténation d’unités ; la seconde utilise la technique dite de « synthèse par MMC ». Pour permettre notamment la réalisation d’adaptations prosodiques, ces deux méthodes de synthèse s’appuient sur une description paramétrique du signal de parole du type «Harmonique plus Bruit» (HNM).
| Type d'EPrint: | Thèse (Doctorat) |
|---|---|
| Directeur de Thèse: | Denby, Bruce et Chollet, Gérard |
| Date: | 09 Décembre 2009 |
| Jury de Thèse: | Bailly, Gérard et Dutoit, Thierry et Artières, Thierry et Boëffard, Olivier et Crevier-Buchman, Lise et Dreyfus, Gérard |
| Ecole Doctorale: | ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE) |
| Discipline: | Informatique, Télécommunications et Electronique |
| Fonds: | ESPCI ParisTech Fond > Université > Paris 6 |
| Institution: | Paris VI |
| Laboratoire: | Laboratoire d'Electronique de l'ESPCI ParisTech |
| Sujets: | 2. Sciences et technologies de l'information et de la communication |
| Mots-clés libres: | Parole silencieuse, Communication parlée augmentée, Imagerie ultrasonore, Vidéo, Capteurs, Traitement du signal appliqué, Modélisation par apprentissage, Fusion de données, Multimodalité, Reconnaissance, Synthèse, modèle de Markov caché, Mélange de gaussiennes, Réseau de neurones, Image, Systèmes homme-machine, Laryngectomie, Cancer, Handicap, Langue, Lèvres, Articulateurs., Silent speech, Speech recognition, Speech synthesis, Concatenative synthesis, Machine learning, Human-computer interface, Inertial sensors, Ultrasound, Video, Multimodal, Data fusion, Laryngectomy, Tongue, Lips, Ultraspeech, Ouisper, EigenTongues, Hmm, Gmm, Hts, Hnm. |
| Code ID: | 5707 |
| Déposé par : | Thomas HUEBER |
| Déposé le : | 13 Janvier 2010 |
Références Bibliographiques
Hueber, Thomas (2009) Reconstitution de la parole par imagerie ultrasonore et vidéo de l'appareil vocal : vers une communication parlée silencieuse. Doctorat Informatique, Télécommunications et Electronique, ESPCI ParisTech.
Table des Matières
Introduction générale 19
Chapitre 1. Vers une communication parlée silencieuse : état de l’art 25
1.1. Architecture et fonctionnement de l’appareil vocal 25
1.2. Une voix sans larynx 29
1.3. Interface de communication en parole silencieuse, état de l’art 33
1.4. Interface de communication silencieuse par imagerie ultrasonore et vidéo de l’appareil vocal 37
Chapitre 2. Protocole expérimental d’acquisition des données 41
2.1. Avant-propos 41
2.2. L’imagerie ultrasonore, principe et caractéristiques générales 41
2.2.1. Bases physiques de l’analyse d’un milieu par ultrasons 41
2.2.2. Fonctionnement de l’échographe 43
2.3. L’analyse du conduit vocal par imagerie ultrasonore 47
2.3.1. Configuration et positionnement du matériel 47
2.3.2. Analyse qualitative de l’image ultrasonore 51
2.4. Construction des bases de données audiovisuelles 53
2.4.1. Dispositif expérimental 53
2.4.2. Bases de données enregistrées 59
Chapitre 3. Traitement des données audio-visuelles, extraction des caractéristiques 63
3.1. Avant-propos 63
3.2. Traitement des images ultrasonores 63
3.2.1. Pré-traitement – Réduction du bruit de speckle 63
3.2.2. Extraction des caractéristiques visuelles – Approches par segmentation 65
3.2.3. Extraction des caractéristiques visuelles – Approche globale 68
3.3. Traitement des images vidéo 77
3.3.1. Etat de l’art 77
3.3.2. Approches mises en œuvre 77
3.4. Techniques d’analyse-synthèse du signal acoustique 79
3.4.1. Analyse cepstrale 79
3.4.2. Modélisation « Harmonique plus Bruit » 82
Chapitre 4. Conversion visuo-acoustique, approche directe 87
4.1. Avant-propos 87
4.2. Prétraitement des caractéristiques 89
4.2.1. Sur-échantillonnage des caractéristiques visuelles 89
4.2.2. Fusion des caractéristiques visuelles des modalités ultrasonore et vidéo 89
4.2.3. Choix des caractéristiques acoustiques 89
4.2.4. Réduction de la dimensionnalité de l’espace des caractéristiques visuelles 90
4.3. Inférence des paramètres du filtre : approche par réseaux de neurones 91
4.3.1. Principe 91
4.3.2. Mise en œuvre 92
4.4. Inférence des paramètres du filtre : approche par mélange de gaussiennes 94
4.4.1. Principe 94
4.4.2. Mise en œuvre 96
4.5. Inférence des paramètres « de source » 97
4.5.1. Caractéristique « voisée/non-voisée » 97
4.5.1. Inférence de la fréquence fondamentale 98
4.6. Résultats et interprétations 99
4.6.1. Inférence des paramètres du filtre 99
4.6.2. Inférence des paramètres de « source » 104
4.6.3. Evaluation du signal synthétisé 106
4.7. Conclusions 107
Chapitre 5. Conversion visuo-acoustique, approche indirecte 109
5.1. Avant-propos 109
5.2. Décodage visuo-phonétique 111
5.2.1. Principe 111
5.2.2. Mise en œuvre 115
5.2.3. Résultats 126
5.3. Synthèse du signal de parole 133
5.3.1. Extension des hypothèses phonétiques 133
5.3.3. Inférence des paramètres acoustiques – Approche par sélection d’unités 136
5.3.4. Inférence des paramètres acoustiques – Approche stochastique 138
5.3.5. Génération de la prosodie 143
5.3.6. Synthèse du signal 144
5.3.7. Evaluation 145
Conclusion générale et Perspectives 153
Références 159
Annexes 169
Administrateurs de l'archive uniquement : éditer cet enregistrement