ParisTech se présente
 Evénements
 
 Etudier à ParisTech
 La coopération internationale
 Ressources documentaires
 Vivre à ParisTech
 ParisTech et les entreprises
 ParisTech Libres Savoirs
 
 

Analyse et reconnaissance des manifestations acoustiques des émotions de type peur en situations anormales.

Accueil || Parcours || Recherche || S'enregistrer || Mon Compte || Contacts || Aide || Langues

Clavel, Chloé (2007) Analyse et reconnaissance des manifestations acoustiques des émotions de type peur en situations anormales. Doctorat Signal et Images, ENST - TSI Traitement du Signal et des Images, ENST p.195.

Plein texte disponible en tant que :

- TheseChloeClavel.pdf ( 7702 Kb )
Licence: Copyright

Résumé

Cette thèse aborde le problème de la reconnaissance des émotions dans la parole. Nous avons choisi de centrer notre étude sur un type de manifestations émotionnelles jusqu'alors peu étudié dans le domaine du traitement de la parole: les émotions de type peur en situations anormales. Les situations anormales correspondent ici à des événements imprévus, constituant une menace pour la vie humaine. Cette étude est motivée par une application nouvelle dans le domaine de la reconnaissance d'émotions: la sécurité civile.



Le point de départ de ce travail a consisté en la définition et en l'acquisition d'un matériel d'étude illustrant des émotions extrêmes de type peur, dans des contextes de menace. Le corpus SAFE (Situation Analysis in a Fictional and Emotional corpus) développé à cet effet utilise comme source le cinéma de fiction. Il consiste en 400 séquences audiovisuelles d’une durée totale de 7 heures. Une stratégie d'annotation adaptée à la tâche de surveillance et intégrant plusieurs niveaux de description (niveau contextuel et niveau émotionnel) a été mise en place.



Le système de reconnaissance des émotions, développé sur ce corpus, traite un grand nombre de locuteurs inconnus, dans des environnements sonores et contextes variés. Il consiste en une classification peur/neutre. L'originalité de la méthode repose sur une modélisation dissociée des contenus voisé et non voisé du signal de parole, les deux contenus étant ensuite fusionnés à l'étape de décision du système de classification. Les résultats obtenus sont très encourageants compte tenu de la diversité des données et de la complexité du phénomène à reconnaître : le taux d'erreur avoisine les 30%.

Type d'EPrint:Thèse (Doctorat)
Directeur de Thèse:Richard, Gaël et Sedogbo, Célestin
Date:Juin 2007
Jury de Thèse:Bonastre, Jean-François et Pelachaud, Catherine et Haton, Jean-Paul et Devilliers, Laurence et Vasilescu, Ioana
Ecole Doctorale:ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE)
Discipline:Signal et Images
Fonds:ENST
Institution:ENST
Laboratoire:ENST - TSI Traitement du Signal et des Images
Sujets:2. Sciences et technologies de l'information et de la communication
1. Mathématiques et leurs applications
Mots-clés libres:émotions de type peur, Corpus de fiction, Analyse acoustique, Apprentissage, Gmm, Sécurité civile, Fusion de classifieurs, Contexte de menace
Code ID:2533
Déposé par :Clavel Clavel
Déposé le :25 Juin 2007

Table des Matières

Table des matières

Chapitre 1

Introduction générale 1

1.1 Le phénomène émotionnel - 1

1.2 Les émotions dans les applications - 4

1.3 Objectifs de recherche - 5

1.4 Organisation du document - 6

Partie I Émotions, corpus et annotation 9

Chapitre 2

Les émotions en situations anormales : stratégie d’acquisition

2.1 Contexte et difficultés - 14

2.1.1 Les critères de qualité - 14

2.1.2 Les émotions recherchées - 15

2.2 Les bases de données émotionnelles et la peur - 16

2.2.1 Les bases de données actées - 16

2.2.2 Les bases de données élicitées - 17

2.2.3 Les bases de données real-life - 17

2.3 Le corpus SAFE et le cinéma de fiction - 18

2.3.1 Le cinéma de fiction pour l’illustration d’émotions de type peur - 18

2.3.2 Méthode de sélection des séquences audiovisuelles - 19

2.4 Conclusion - 20

Chapitre 3

Les émotions en situations anormales : stratégie d’annotation

3.1 Les descripteurs émotionnels - Bilan - 22

3.1.1 Descripteurs catégoriels - 22

3.1.2 Descripteurs dimensionnels - 23

v

Table des matières

3.1.3 Le point de vue système - 25

3.2 Stratégie d’annotation du contenu émotionnel - 25

3.2.1 Le segment : unité d’annotation - 26

3.2.2 Des descripteurs catégoriels intégrant différents niveaux de généricité

vis-à-vis du corpus - 26

3.2.3 Des descripteurs dimensionnels intégrant différents niveaux de généricité

vis à vis de l’application - 27

3.3 Stratégie d’annotation du contexte d’émergence des émotions - 29

3.3.1 Description des manifestations émotionnelles dans leur contexte multimodal

et temporel - 30

3.3.2 Description du contexte situationnel - 30

3.3.3 Description du contexte personnel et social - 30

3.3.4 Description du contexte verbal et sonore - 33

3.4 Conclusion - 33

Chapitre 4

Le corpus SAFE : fiabilité de la stratégie d’annotation et contenu

4.1 Validation du schéma par des tests perceptifs - 36

4.1.1 Protocole de test - 37

4.1.2 Résultats - 37

4.1.3 Conclusion – Validation des objectifs - 41

4.1.4 Conclusion – Ajustements - 41

4.2 Validation du schéma par la confrontation des annotations - 43

4.2.1 Comment mesurer un degré de fiabilité ? - 44

4.2.2 Catégories : de la difficulté d’une catégorisation neutre/émotion . . . 45

4.2.3 Dimensions : de la difficulté d’établir un référentiel commun - 47

4.2.4 Bilan - 53

4.3 Contenu du corpus SAFE - 54

4.3.1 Contenu global - 54

4.3.2 Le contenu émotionnel - 56

4.3.3 Le poids des indices acoustiques dans les segments du corpus - 59

4.4 Corpus et annotations – le point de vue du système - 59

4.4.1 Choix des classes d’émotions traitées - 59

4.4.2 Choix des annotations considérées - 60

4.5 Conclusion - 64

vi

Partie II Analyser et reconnaître les manifestations émotionnelles 67

Chapitre 5

Analyse acoustique des émotions de type peur

5.1 Le signal de parole et les émotions - 72

5.1.1 Le signal de parole et ses modes de production - 72

5.1.2 Descripteurs acoustiques et émotions - 73

5.1.3 Unité temporelle d’analyse de l’émotion - 76

5.2 Choix de descripteurs acoustiques pour la caractérisation des émotions de type

peur - 77

5.2.1 Les descripteurs prosodiques - 77

5.2.2 Les descripteurs de qualité de voix - 80

5.2.3 Les descripteurs spectraux et cepstraux - 81

5.3 Paramètres d’extraction des descripteurs - 84

5.3.1 Paramètres d’échantillonnage du signal - 84

5.3.2 Normalisation du signal - 84

5.3.3 Choix de l’unité d’analyse : description sur des durées temporelles

variables - 84

5.3.4 Choix de normalisation des descripteurs - 85

5.4 Évaluation de la pertinence des descripteurs acoustiques pour la modélisation

des émotions de type peur - 86

5.4.1 Contenu voisé - 87

5.4.2 Contenu non voisé - 89

5.5 La fréquence fondamentale et les formants : la sensibilité au locuteur et au

contenu linguistique - 90

5.5.1 Les formants et la sensibilité au contenu linguistique - 90

5.5.2 La fréquence fondamentale et la sensibilité au locuteur - 92

5.6 Conclusion - 92

Chapitre 6

Reconnaissance des émotions pour l’analyse et la détection de situations

anormales

6.1 Etat de l’art en reconnaissance des émotions dans la parole - 96

6.1.1 Conditions d’apprentissage et performances - 97

6.1.2 Algorithme d’apprentissage et performances - 97

6.1.3 Émotions simulées vs. vécues, nombre de classes et performances . . . 98

6.1.4 Techniques de normalisation et performances - 99

vii

Table des matières

6.2 Système de classification – synopsis - 99

6.2.1 Réduction de l’espace de représentation des données - 100

6.2.2 Modélisation par Mélange de Gaussiennes (GMM-Gaussian Mixture

Models) - 101

6.2.3 Décision - 102

6.2.4 Protocole d’évaluation - 104

6.3 Réglage des paramètres du système et résultats - 105

6.3.1 Les descripteurs sélectionnés - 105

6.3.2 Paramétrage des GMM - 107

6.4 Analyse des comportements du système - 109

6.4.1 Comportements du système en fonction du degré d’imminence de la

menace - 109

6.4.2 Comportements du système en fonction des annotations de référence . 110

6.5 Analyse de l’imminence de la menace par la reconnaissance de la peur - 111

6.5.1 Objectif - 111

6.5.2 Principe - 112

6.5.3 Résultats - 113

6.6 Conclusion - 113

Partie III Vers une plateforme de surveillance effective 115

Chapitre 7

Système de détection et d’analyse des situations anormales pour la surveillance

dans les lieux publics

7.1 Plateforme multimodale de surveillance – Synopsis - 120

7.2 Détection d’événements anormaux - 121

7.2.1 La détection/classification audio – Bilan - 121

7.2.2 Le système de détection de coup de feu - 122

7.2.3 Base de données et protocole - 124

7.2.4 Expérimentations et résultats - 127

7.3 Démonstrateur - 129

7.4 Conclusion - 131

viii

Partie IV Conclusion et perspectives 133

Chapitre 8

Conclusion et perspectives

8.1 Apports de la méthodologie - 136

8.2 Perspectives de recherche - 138

8.2.1 Les perspectives à court-terme - 138

8.2.2 Les perspectives à long-terme - 139

Partie V Annexes 141

Annexe A

Corpus et Outils

Annexe B

Normes de transcription

Annexe C

Validation des résultats par les SVM

Glossaire 167

Table des figures 171

Liste des tableaux 175

Bibliographie 177

Publications

ix

Statistiques de consultation

Administrateurs de l'archive uniquement : éditer cet enregistrement

 
ParisTech
 
droits de reproduction et de diffusion réservés © ParisTech 2007