ParisTech se présente
 Evénements
 
 Etudier à ParisTech
 La coopération internationale
 Ressources documentaires
 Vivre à ParisTech
 ParisTech et les entreprises
 ParisTech Libres Savoirs
 
 

Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments.

Accueil || Parcours || Recherche || S'enregistrer || Mon Compte || Contacts || Aide || Langues

Goulon-Sigwalt-Abram, Aurélie (2008) Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments. Doctorat, Laboratoire d'Électronique de l'ESPCI, ESPCI p.134.

Plein texte disponible en tant que :

- These_AG-convertie-PASTEL.pdf ( 7684 Kb )
Licence: Copyright

URL officielle: http://www.neurones.espci.fr/Francais.Docs/dossier_recherche/bibliographie/theses.htm

Résumé

La modélisation de propriétés et d’activités de molécules constitue un champ de recherche important, qui permet par exemple de guider la synthèse de médicaments. Les méthodes traditionnelles de modélisation établissent des relations non linéaires entre les propriétés étudiées et les caractéristiques structurelles des molécules, appelées descripteurs. Leurs principaux inconvénients résident dans la difficulté du choix des descripteurs et leur calcul préalable.

Nous avons mis au point une nouvelle technique de modélisation qui s'affranchit de ces problèmes, en établissant une relation directe entre la structure des données et la propriété modélisée. L'apprentissage s'effectue non plus à partir de vecteurs de données, mais à partir de graphes. Les molécules peuvent en effet être représentées par des graphes, qui tiennent compte des liaisons chimiques, de la nature des atomes ou encore de la stéréochimie du composé initial. Chaque graphe de la base étudiée est alors associé à une fonction de même structure mathématique, appelée graph machine, obtenue par combinaison de fonctions paramétrées identiques. Ces paramètres sont alors déterminés par apprentissage.

Nous montrons que les techniques traditionnelles de sélection de modèle peuvent être utilisées dans le cadre des graph machines ; elles permettent d’évaluer les capacités en généralisation des modèles proposés, mais aussi de détecter les catégories de molécules sous-représentées dans la base d’apprentissage, et d’estimer les intervalles de confiance des prédictions. De très bons résultats ont été obtenus par l’utilisation de cette technique sur un grand nombre de bases de données de propriétés ou d’activités moléculaires.

Type d'EPrint:Thèse (Doctorat)
Directeur de Thèse:Dreyfus, Gérard et Duprat, Arthur
Date:21 Mai 2008
Jury de Thèse:Doucet, Jean-Pierre et Samuelides, Manuel et Sebag, Michèle et Gallinari, Patrick et Prost, Jacques et Dreyfus, Gérard et Duprat, Arthur
Ecole Doctorale:ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE)
Fonds:ESPCI ParisTech
Institution:ESPCI
Laboratoire:Laboratoire d'Électronique de l'ESPCI
Sujets:2. Sciences et technologies de l'information et de la communication
Mots-clés libres:Apprentissage artificiel, Données structurées, Graph machine, Graphes, Sélection de modèle, Toxicité, Ecdystéroïde, Epothilone, Régression non linéaire, Machine learning, Structured data, Graphs, Model selection, Toxicity, Ecdysteroid
Code ID:4103
Déposé par :Gerard DREYFUS
Déposé le :29 Août 2008

Références Bibliographiques

Goulon-Sigwalt-Abram, Aurélie (2008) Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments. Thèse de doctorat de l'Université Pierre et Marie Curie, Paris.

Table des Matières

SOMMAIRE 7

INTRODUCTION 9

CHAPITRE 1 - La prédiction de propriétés et d'activités de molécules 11

I - Les descripteurs : sélection, calcul ou mesure, problèmes en résultant 11

I.1 - Les descripteurs moléculaires 12

I.2 - Réduction du nombre de variables 14

II - Modélisation par optimisation sans contrainte 16

II.1 - Régression linéaire multiple (MLR) 16

II.2 - Réseaux de neurones 17

II.3 - Sélection du modèle 20

III - Optimisation sous contraintes 27

III.1 - Théorie statistique de l'apprentissage 29

III.2 - Les machines à vecteurs supports 31

III.3 - Les méthodes à noyaux pour la modélisation QSPR/QSAR 38

IV - Autres méthodes de QSPR/QSAR 39

IV.1 - Méthode de contribution de groupes 40

IV.2 - Analyse comparative de champs moléculaires (CoMFA) 41

IV.3 - Modélisation à partir des structures des molécules 43

CHAPITRE 2 - Les Graph Machines 44

I - Définition et caractéristiques d’un graphe 44

I.1 - Graphes simples 44

I.2 - Graphes orientés 45

I.3 - Graphes étiquetés 46

I.4 - Matrices d’adjacence 46

II - Représentation de données structurées par des graphes 48

III - Apprentissage à partir de graphes : RAAMs et LRAAMs 50

III.1 - Les Mémoires Auto-Associatives Récursives 50

III.2 - Les Mémoires Récursives Auto-Associatives Étiquetées 53

IV - Les Graph Machines 54

IV.1 - Modélisation à partir de graphes acycliques 54

IV.2 - Structure mathématique des graph machines 54

IV.3 - Les étiquettes 57

V - L’apprentissage des graph machines 57

V.1 - Propriété d'approximation universelle 57

V.2 - Utilisation des algorithmes traditionnels 58

V.3 - Sélection de modèle 59

VI - Modélisation à partir de graphes cycliques 65

VI.1 - Transformation de graphes quelconques en arborescences 66

VI.2 - Méthode alternative de modélisation à partir de graphes cycliques 68

VII - Exemples didactiques d'utilisation des graph machines 69

VII.1 - Détermination du nombre de nœuds d'un graphe 69

VII.2 - Détermination du nombre d’arêtes et de cycles d'un graphe 70

VIII - Résumé : méthodologie de conception de modèles prédictifs ou de classifieurs par apprentissage à partir d'une base de données structurées 72

CHAPITRE 3 - Méthodologie en QSPR et QSAR 74

I - Construction des graph machines associées aux molécules 74

I.1 - Représentation de molécules par des arborescences 75

I.2 - Étiquettes (nature, degré, isomérie, éventuel descripteur) 76

I.3 - Conversion des graphes en arborescences - choix de l’algorithme 78

II - Sélection des exemples de la base d'apprentissage 84

III - Fonctions de nœud et sélection de la complexité 87

III.1 - Structure de la fonction de nœud 87

III.2 - Cas particulier : les graph machines pour la classification 89

III.3 - Sélection du modèle 89

CHAPITRE 4 - Exemples de modélisations de propriétés et d'activités moléculaires par les graph machines 92

I - Prédiction de propriétés de molécules 92

I.1 - Prédiction du coefficient de partage eau/octanol 92

I.2 - Prédiction de descripteurs moléculaires 94

I.3 - Énergie libre de solvatation de diverses molécules 95

I.4 - Prédiction de propriétés sur une même base de molécules 97

II - Prédiction d'activités moléculaires 104

II.1 - Toxicité de molécules diverses sur un être vivant, le Pimephales promelas 104

II.2 - Prédiction de l'activité agoniste de dérivés ecdystéroïdes 110

III - Classification 113

IV - Un exemple complexe : la prédiction de l’activité d'analogues de l'épothilone 114

IV.1 - Modélisation directe de l'activité des 63 molécules 115

IV.2 - Modélisation en deux étapes : classification puis régression 116

CHAPITRE 5 - Conclusions et perspectives 120

BIBLIOGRAPHIE 124

ANNEXES 130

Annexe 1 : Numérotation canonique des atomes d'une molécule 130

Annexe 2 : Reproduction des publications 135

Statistiques de consultation

Administrateurs de l'archive uniquement : éditer cet enregistrement

 
ParisTech
 
droits de reproduction et de diffusion réservés © ParisTech 2007