ParisTech se présente
 Evénements
 
 Etudier à ParisTech
 La coopération internationale
 Ressources documentaires
 Vivre à ParisTech
 ParisTech et les entreprises
 ParisTech Libres Savoirs
 
 

Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles.

Accueil || Parcours || Recherche || S'enregistrer || Mon Compte || Contacts || Aide || Langues

Gillet, Olivier (2007) Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles. Doctorat Signal et Images, ENST - TSI Traitement du Signal et des Images, ENST p.282.

Plein texte disponible en tant que :

- thesis.pdf login ( 13697 Kb )
Licence: Copyright

Résumé

Cette thèse tisse des liens entre les domaines de l'indexation audio et de l'analyse de séquences d'images, à travers le problème de l'analyse de l'accompagnement rythmique des signaux de musique.



Nous étudions d'abord le problème de la transcription de la piste de batterie d'enregistrements musicaux à partir de la modalité audio seule. Après avoir présenté des pré-traitements permettant d'accentuer cette piste, nous utilisons des techniques d'apprentissage statistique sur une large gamme d'attributs pour réaliser la transcription. Nous introduisons également des approches supervisées et non supervisées pour améliorer la reconnaissance en exploitant la régularité des motifs rythmiques.



Nous incorporons ensuite à ce système de transcription l'information visuelle provenant de caméras filmant le batteur. Différentes approches sont présentées pour détecter la position des éléments de la batterie dans la scène et pour associer les régions extraites à des catégories sonores. Des descripteurs d'intensité de mouvement sont ensuite utilisés pour la détection des frappes. Les résultats démontrent la capacité d'une approche multimodale à résoudre certaines des ambiguïtés propres à la transcription audio.



Nous étendons enfin nos travaux aux clips vidéos, en tentant de mesurer de quelle manière la musique peut être illustrée par des images. Après avoir présenté ou introduit de nouvelles méthodes de structuration automatique des flux audio et vidéo à différents niveaux, nous définissons des mesures de synchronie sur les structures obtenues. Ces mesures, qui s'avèrent dépendantes du type de document musical, permettent des applications de recherche de musique par l'image.

Type d'EPrint:Thèse (Doctorat)
Directeur de Thèse:Richard, Gaël
Date:21 Juin 2007
Jury de Thèse:Merialdo, Bernard et Girin, Laurent et Rodet, Xavier et André-Obrecht, Régine et Ellis, Dan et Sandler, Mark et Richard, Gaël
Ecole Doctorale:ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE)
Discipline:Signal et Images
Fonds:ENST
Institution:ENST
Laboratoire:ENST - TSI Traitement du Signal et des Images
Sujets:2. Sciences et technologies de l'information et de la communication
Mots-clés libres:Indexation audio, Transcription musicale, Percussions, Modèles de séquences, Multimodalité
Code ID:2805
Déposé par :Olivier Gillet
Déposé le :28 Septembre 2007

Table des Matières

Remerciements I

Table des matières III

Table des figures VII

Liste des tableaux IX

Acronymes XI

1 Introduction, motivations 1

1.1 Indexation et transcription automatique 1

1.2 Motivations 2

1.3 Définitions, champ d’étude et restrictions 4

1.4 Plan d’étude et résumé des contributions 8

I Analyse des signaux audiofréquences percussifs : application à la batterie 11

2 Transcription automatique des signaux percussifs : un état de l’art 13

2.1 Analyse du rythme 13

2.2 Analyse des signaux percussifs : les trois approches 17

2.3 Utilisation des connaissances musicales pour la transcription 29

2.4 Applications 30

3 Pré-traitements pour l’accentuation de la piste de batterie 31

3.1 Principe et motivations 31

3.2 Banc de filtres 35

3.3 Séparation et sélection de sources à partir d’enregistrements stéréophoniques 36

3.4 Extraction de la composante stochastique 43

3.5 Conclusion 48

4 Transcription de la batterie dans un signal de musique 51

4.1 Mise en oeuvre de l’approche Segmenter et Reconnaître 51

4.2 Détection d’onsets 55

4.3 Paramétrisation des signaux 59

4.4 Classification des instruments de la batterie 63

4.5 Du modèle acoustique au modèle de séquence 68

4.6 Résultats expérimentaux 84

4.7 Conclusion 99

5 Extraction de la piste de batterie dans un signal de musique 101

5.1 Bref état de l’art 101

5.2 Filtrage temps/fréquence/sous-espace (TFS) 104

5.3 Filtrage pseudo-Wiener et modèles spectraux 107

5.4 Résultats expérimentaux 112

5.5 Conclusion 115

Conclusion de la partie I 117

II Transcription audiovisuelle du jeu de la batterie 119

6 Transcription musicale et multimodalité état de l’art et problématique 121

6.1 Spécificité du problème à résoudre et typologie des tâches connexes 121

6.2 état de l’art 122

6.3 Discussion 128

7 Segmentation de scènes de jeu de batterie 133

7.1 Segmentation des éléments de la batterie dans une scène : cas des images fixes 133

7.2 Segmentation des éléments dans une séquence d’images 142

7.3 Segmentation des baguettes 147

7.4 Conclusion 148

8 Transcription audiovisuelle de séquences de batterie 151

8.1 Détection des frappes dans une séquence vidéo 151

8.2 Transcription audiovisuelle par fusion tardive 155

8.3 Autres stratégies pour la transcription musicale audiovisuelle 161

8.4 Conclusion 164

Conclusion de la partie II 167

III Vers l’analyse des documents audiovisuels musicaux 169

9 Problématique 171

9.1 état de l’art 171

9.2 Approche proposée 173

10 Détection des changements dans les documents audiovisuels musicaux 177

10.1 Détection des changements de section dans les signaux de musique 177

10.2 Extraction de la structure des séquences vidéo 191

10.3 Détection d’événements dans une séquence vidéo 194

10.4 Conclusion 196

11 Mesures de corrélation entre flux audio et vidéo 197

11.1 Mesures de corrélation des flux audio et vidéo structurés 197

11.2 Applications 199

11.3 Conclusion 203

Conclusion de la partie III 205

12 Perspectives 207

12.1 Analyse des signaux percussifs 207

12.2 Analyse audiovisuelle du jeu de la batterie 209

12.3 Analyse de documents audiovisuels musicaux 210

IV Annexes - Boîte à outils 213

A Palette d’attributs 215

A.1 Paramètres de distribution de l’énergie 215

A.2 Paramètres cepstraux 218

A.3 Paramètres spectraux 220

A.4 Paramètres temporels 221

A.5 Paramètres psychoacoustiques 222

B Machines à vecteurs de support (SVM) 223

B.1 Principe, primal et dual 223

B.2 Cas non linéairement séparable 228

B.3 SVM à noyaux 232

B.4 Estimation de probabilités a posteriori à partir de SVM 235

V Annexes - Documents complémentaires 237

C Autres articles 239

D Corpora utilisés 257

Bibliographie 263

Bibliographie de l’auteur 279

Index 281

Statistiques de consultation

Administrateurs de l'archive uniquement : éditer cet enregistrement

 
ParisTech
 
droits de reproduction et de diffusion réservés © ParisTech 2007