Accueil || Parcours || Recherche || S'enregistrer || Mon Compte || Contacts || Aide || Langues
Gillet, Olivier (2007) Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles. Doctorat Signal et Images, ENST - TSI Traitement du Signal et des Images, ENST p.282.
Plein texte disponible en tant que :
|
|
Résumé
Cette thèse tisse des liens entre les domaines de l'indexation audio et de l'analyse de séquences d'images, à travers le problème de l'analyse de l'accompagnement rythmique des signaux de musique.
Nous étudions d'abord le problème de la transcription de la piste de batterie d'enregistrements musicaux à partir de la modalité audio seule. Après avoir présenté des pré-traitements permettant d'accentuer cette piste, nous utilisons des techniques d'apprentissage statistique sur une large gamme d'attributs pour réaliser la transcription. Nous introduisons également des approches supervisées et non supervisées pour améliorer la reconnaissance en exploitant la régularité des motifs rythmiques.
Nous incorporons ensuite à ce système de transcription l'information visuelle provenant de caméras filmant le batteur. Différentes approches sont présentées pour détecter la position des éléments de la batterie dans la scène et pour associer les régions extraites à des catégories sonores. Des descripteurs d'intensité de mouvement sont ensuite utilisés pour la détection des frappes. Les résultats démontrent la capacité d'une approche multimodale à résoudre certaines des ambiguïtés propres à la transcription audio.
Nous étendons enfin nos travaux aux clips vidéos, en tentant de mesurer de quelle manière la musique peut être illustrée par des images. Après avoir présenté ou introduit de nouvelles méthodes de structuration automatique des flux audio et vidéo à différents niveaux, nous définissons des mesures de synchronie sur les structures obtenues. Ces mesures, qui s'avèrent dépendantes du type de document musical, permettent des applications de recherche de musique par l'image.
| Type d'EPrint: | Thèse (Doctorat) |
|---|---|
| Directeur de Thèse: | Richard, Gaël |
| Date: | 21 Juin 2007 |
| Jury de Thèse: | Merialdo, Bernard et Girin, Laurent et Rodet, Xavier et André-Obrecht, Régine et Ellis, Dan et Sandler, Mark et Richard, Gaël |
| Ecole Doctorale: | ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE) |
| Discipline: | Signal et Images |
| Fonds: | ENST |
| Institution: | ENST |
| Laboratoire: | ENST - TSI Traitement du Signal et des Images |
| Sujets: | 2. Sciences et technologies de l'information et de la communication |
| Mots-clés libres: | Indexation audio, Transcription musicale, Percussions, Modèles de séquences, Multimodalité |
| Code ID: | 2805 |
| Déposé par : | Olivier Gillet |
| Déposé le : | 28 Septembre 2007 |
Table des Matières
Remerciements I
Table des matières III
Table des figures VII
Liste des tableaux IX
Acronymes XI
1 Introduction, motivations 1
1.1 Indexation et transcription automatique 1
1.2 Motivations 2
1.3 Définitions, champ d’étude et restrictions 4
1.4 Plan d’étude et résumé des contributions 8
I Analyse des signaux audiofréquences percussifs : application à la batterie 11
2 Transcription automatique des signaux percussifs : un état de l’art 13
2.1 Analyse du rythme 13
2.2 Analyse des signaux percussifs : les trois approches 17
2.3 Utilisation des connaissances musicales pour la transcription 29
2.4 Applications 30
3 Pré-traitements pour l’accentuation de la piste de batterie 31
3.1 Principe et motivations 31
3.2 Banc de filtres 35
3.3 Séparation et sélection de sources à partir d’enregistrements stéréophoniques 36
3.4 Extraction de la composante stochastique 43
3.5 Conclusion 48
4 Transcription de la batterie dans un signal de musique 51
4.1 Mise en oeuvre de l’approche Segmenter et Reconnaître 51
4.2 Détection d’onsets 55
4.3 Paramétrisation des signaux 59
4.4 Classification des instruments de la batterie 63
4.5 Du modèle acoustique au modèle de séquence 68
4.6 Résultats expérimentaux 84
4.7 Conclusion 99
5 Extraction de la piste de batterie dans un signal de musique 101
5.1 Bref état de l’art 101
5.2 Filtrage temps/fréquence/sous-espace (TFS) 104
5.3 Filtrage pseudo-Wiener et modèles spectraux 107
5.4 Résultats expérimentaux 112
5.5 Conclusion 115
Conclusion de la partie I 117
II Transcription audiovisuelle du jeu de la batterie 119
6 Transcription musicale et multimodalité état de l’art et problématique 121
6.1 Spécificité du problème à résoudre et typologie des tâches connexes 121
6.2 état de l’art 122
6.3 Discussion 128
7 Segmentation de scènes de jeu de batterie 133
7.1 Segmentation des éléments de la batterie dans une scène : cas des images fixes 133
7.2 Segmentation des éléments dans une séquence d’images 142
7.3 Segmentation des baguettes 147
7.4 Conclusion 148
8 Transcription audiovisuelle de séquences de batterie 151
8.1 Détection des frappes dans une séquence vidéo 151
8.2 Transcription audiovisuelle par fusion tardive 155
8.3 Autres stratégies pour la transcription musicale audiovisuelle 161
8.4 Conclusion 164
Conclusion de la partie II 167
III Vers l’analyse des documents audiovisuels musicaux 169
9 Problématique 171
9.1 état de l’art 171
9.2 Approche proposée 173
10 Détection des changements dans les documents audiovisuels musicaux 177
10.1 Détection des changements de section dans les signaux de musique 177
10.2 Extraction de la structure des séquences vidéo 191
10.3 Détection d’événements dans une séquence vidéo 194
10.4 Conclusion 196
11 Mesures de corrélation entre flux audio et vidéo 197
11.1 Mesures de corrélation des flux audio et vidéo structurés 197
11.2 Applications 199
11.3 Conclusion 203
Conclusion de la partie III 205
12 Perspectives 207
12.1 Analyse des signaux percussifs 207
12.2 Analyse audiovisuelle du jeu de la batterie 209
12.3 Analyse de documents audiovisuels musicaux 210
IV Annexes - Boîte à outils 213
A Palette d’attributs 215
A.1 Paramètres de distribution de l’énergie 215
A.2 Paramètres cepstraux 218
A.3 Paramètres spectraux 220
A.4 Paramètres temporels 221
A.5 Paramètres psychoacoustiques 222
B Machines à vecteurs de support (SVM) 223
B.1 Principe, primal et dual 223
B.2 Cas non linéairement séparable 228
B.3 SVM à noyaux 232
B.4 Estimation de probabilités a posteriori à partir de SVM 235
V Annexes - Documents complémentaires 237
C Autres articles 239
D Corpora utilisés 257
Bibliographie 263
Bibliographie de l’auteur 279
Index 281
Administrateurs de l'archive uniquement : éditer cet enregistrement