[[description_du_projet]]
 
Table des Matières

Contexte

Etablir le lien entre la variabilité naturelle du génome humain et les traits complexes constitue l’un des enjeux majeurs de la recherche post-génomique. A la différences des maladies monogéniques dont la caractérisation génétique a connu un succès considérable dans les dernières années, les avancées dans le domaine des maladies multifactorielles ont été beaucoup plus ténues et les stratégies pour identifier les gènes de susceptibilité à ces maladies doivent être reconsidérées. L’approche traditionnelle consistant à étudier les gènes un par un et à mettre en relation quelques polymorphismes avec la maladie a montré ses limites. Il apparaît de plus en plus évident que l’étude des maladies complexes requiert non seulement d’analyser la variabilité complète des gènes candidats, mais aussi d’aborder la variabilité génétique des systèmes biologiques dans leur ensemble. Les systèmes biologiques, définis par leurs constituants (protéines) et leur fonction (métabolisme des lipides, adhésion des leukocytes à la paroi endothéliale, inflammation, coagulation, thrombolyse) constituent en effet la “boîte noire” intermédiaire permettant de relier les gènes aux phénotypes complexes. Une hypothèse plausible pour expliquer les associations généralement faibles observées entre polymorphismes génétiques et traits complexes est la robustesse des systèmes biologiques vis-à-vis de la variabilité de leurs composantes. Cette grande stabilité des systèmes a été montrée en particulier par les expérimentations de perturbation multifactorielle dans les modèles animaux (1). Il est probable que c’est l’accumulation et/ou l’interaction de plusieurs anomalies qui conduit au dysfonctionnement du système. D’un point de vue génétique, cela implique de pouvoir étudier l’ensemble des polymorphismes des gènes composant le système et d’analyser leurs interactions potentielles sur le phénotype du système (sa fonction) et sur la maladie (approche “système candidat”).

L’exploration moléculaire de la variabilité génétique ne constitue plus une étape limitante (du moins d’un point de vue technologique) grâce au développement d’outils de séquençage et de génotypage à haut débit. Le challenge actuel réside dans le développement d’outils statistiques et informatiques capables de traiter la grande quantité d’information générée par la biologie moléculaire et de modéliser au mieux la relation génotype/phénotype.

Objectifs

L’objectif de ce projet est de développer de nouveaux outils statistiques et informatiques destinés à relier la variabilité du génome humain aux traits complexes, et d’appliquer ces outils à de grandes études épidémiologiques sur les pathologies cardiovasculaires et l’asthme. Un aspect important du projet concerne également la valorisation et la diffusion des outils développés. Ce projet repose sur une interaction étroite entre les biologistes moléculaires qui caractérisent le polymorphismes des gènes, et les épidémiologistes/ statisticiens qui développent de nouveaux outils mathématiques pour exploiter les données moléculaires ainsi générées dans de grandes études épidémiologiques. Plusieurs logiciels d’analyse génétique, THESIAS pour les analyses haplotypiques (2), DICE pour la fouille de données (3), FINESSE pour les modèles régressifs (4), ont déjà été conçus par les équipes participant au projet.

Projet

Le projet est centré sur la génomique et concerne les relations entre le génotype et les traits phénotypiques complexes chez l’homme. Il est basé sur l’approche “système candidat” qui consiste à étudier l’association de la maladie ou ses phénotypes intermédiaires avec des polymorphismes de gènes appartenant à des systèmes biologiques choisis pour leur implication potentielle dans le processus physiopathologique considéré. Cette approche repose sur une interaction étroite entre biologistes moléculaires qui étudient la variabilité des gènes candidats, et épidémiologistes/statisticiens qui développent des modèles pour relier cette variabilité au phénotype. La recherche s’articule autour de grandes études épidémiologiques, couplées à des banques d’ADN, que l’U525 et l’EMI 0006 ont mises en place depuis plusieurs années dans le domaine des pathologies cardiovasculaires et de l’asthme. Un support important pour ce projet est constitué par un site Internet de recherche, GeneCanvas, qui est en partie couplé aux bases de données de l’U525.

1. L'approche "système candidat"

La complexité des maladies multifactorielles tend à faire évoluer l’approche “gène candidat” vers une approche “système candidat”. Cette approche basée sur les systèmes biologiques n’est d’ailleurs pas propre à la génomique mais est également envisagée dans d’autres disciplines comme la protéomique (5). Dans le contexte qui nous intéresse, un système biologique est décrit par ses composants, par les relations mutuelles que ces derniers entretiennent (par exemple, interaction entre une protéine et son ligand) et par les fonctions qu’ils remplissent. L’un des systèmes cibles actuellement étudié par les biologistes moléculaires de l’U525 est constitué par les molécules d’adhésion cellulaire impliquées dans l’adhésion des leucocytes à l’endothélium vasculaire, processus fondamental dans l’inflammation qui contribue aux stades initiaux de l’athérosclérose (6).

2. Criblage moléculaire des gènes

La démarche générale consiste à explorer systématiquement les régions fonctionnellement importantes des gènes d’intérêt, c’est à dire la séquence codante complète ainsi que les régions régulatrices (5’UTR, 3’UTR et des séquences de longueur variable en 5’ et 3’). De petites séquences introniques flanquant les exons sont également criblées. La détection des polymorphismes se fait en comparant l’ADN génomique de 95 patients ayant fait un infarctus du myocarde précoce et qui ont des antécédents familiaux d’infarctus. Cette sélection est destinée à augmenter la probabilité de détection des polymorphismes favorisant la maladie coronaire. La taille de l’échantillon (190 allèles) garantit une puissance supérieure à 85% de détecter les variants ayant une fréquence de 1%.

La méthode de détection utilisée jusqu’à récemment était la SSCP (single-strand conformation polymorphism) (7) suivie du séquençage automatique des fragments présentant des profils de migration différents (Applied Biosystem). Cette méthode est maintenant substituée par l’analyse par séquençage direct à l’aide d’un séquenceur capillaire. Tous les polymorphismes détectés sont ensuite génotypés systématiquement dans une étude de référence, l’étude SIPLAC, comparant 300 cas d’infarctus du myocarde et 300 témoins (description dans le site web GeneCanvas), afin de déterminer les fréquences alléliques et le déséquilibre de liaison entre polymorphismes, et de détecter rapidement les polymorphismes présentant une association forte avec la pathologie coronaire. Cette étape permet de sélectionner les polymorphismes qui seront ensuite génotypés dans de plus grandes études.

Les données issues de l’exploration de ces gènes ont fourni des éléments essentiels pour la stratégie d’approche des maladies complexes (8,9). Par exemple, à partir de 50 gènes explorés de manière systématique (soit un total de 170 kb criblés), nous avons montré que le nombre moyen de polymorphismes par gène était élevé (entre 4 et 5), qu’il existait un fort déséquilibre entre ces polymorphismes, que les polymorphismes non-synonymes étaient le plus souvent portés par des haplotypes fréquents, et que par conséquent une analyse de la variabilité globale du gène par une approche haplotypique (voir plus bas) était nécessaire pour relier la variabilité du gène dans son ensemble à la maladie. Un autre enseignement tiré de ces analyses a été que pratiquement chaque gène constituait un cas particulier, et que pour cette raison, l’approche “génome entier” à l’aide de cartes denses de marqueurs, préconisée par certains scientifiques (10,11,12), risquait de laisser échapper un nombre important de gènes. Une autre constatation est que les polymorphismes actuellement stockés dans la base de données du NCBI (dbSNP), qui pour la plupart ne résultent pas d’une analyse systématique des gènes, n’apportent sur les gènes d’intérêt que des informations extrêmement partielles. La nécessité d’une analyse systématique du génome centrée sur les régions fonctionnelles est de plus en plus admise et de nouvelles bases de données sont à présent accessibles sur Internet pour différentes pathologies et systèmes biologiques (Environmental Genome Project, GeneSNPs, InnateImmunity).

3. Les études épidémiologiques

Les systèmes candidats seront étudiés dans 2 grands projets multicentriques:

Les gènes déjà étudiés dans ces projets, centrés essentiellement sur l’inflammation, peuvent être consultés sur le site web GeneCanvas.

Les gènes de l’inflammation étant également d’excellents candidats pour l’asthme, il serait intéressant de les étudier dans le projet EGEA, étude multicentrique française comportant un volet cas-témoins et un volet familial et visant à identifier les déterminants génétiques et environnementaux de l’asthme et de phénotypes intermédiaires associés (projet coordonné dans son ensemble par F. Kauffmann (INSERM U472) et pour le volet génétique par F. Demenais (EMI 0006), la partie gène/système candidat étant réalisée en collaboration avec M. Lathrop (CNG) et des chercheurs du laboratoire pharmaceutique Merck.

4. Analyse de la relation génotype/phénotype

L’évolution de notre approche vers l’analyse de la variabilité globale des gènes et la génétique des systèmes nécessite de développer de nouvelles méthodes permettant d’appréhender de manière plus globale la relation génotype-phénotype.

4.1. Le logiciel THESIAS d'analyse haplotypique

Le criblage moléculaire des gènes met généralement en évidence un grand nombre de polymorphismes par gène. Jusqu’à récemment, lorsque plusieurs polymorphismes étaient identifiés dans un gène, les analyses statistiques étaient restreintes à leur étude individuelle, éventuellement à des analyses multivariées, cependant vite limitées par la présence de déséquilibre de liaison (association non aléatoire) entre polymorphismes d’un même gène. Le problème, lorsqu’on dispose de plusieurs polymorphismes par gène, est que l’on observe des génotypes mais qu’on ne peut pas en déduire directement les haplotypes (combinaisons de plusieurs sites polymorphes sur un même chromosome). Des méthodes d’estimation des fréquences haplotypiques par méthode de maximum de vraisemblance ont été développées, mais ces méthodes sont limitées à la comparaison simple de fréquences haplotypiques entre populations (logiciels Arlequin (13) ou PHASE (14) par exemple). Or, l’étude fine de l’association haplotype-phénotype (généralisation de l’association génotype-phénotype) se révèle particulièrement intéressante pour plusieurs raisons. D’une part, l’effet associé à un polymorphisme, même fonctionnel, est également le reflet de tous les autres variants fonctionnels non nécessairement mesurés avec lesquels il est en déséquilibre de liaison. Son effet est donc le plus souvent biaisé, voire masqué, quand il est étudié isolément. D’autre part, l’effet d’un polymorphisme peut se révéler délétère ou non selon le fond haplotypique par lequel il est porté. Cela peut être le cas, par exemple, pour des polymorphismes changeant la séquence protéique et qui, portés par le même haplotype, conduisent à une conformation particulière de la protéine qui altère sa fonction, alors que chacun isolément n’a pas d’effet.

Pour répondre à ces questions, les chercheurs de l’U525 ont développé des méthodes d’analyse haplotypique dont le but est de pouvoir tester de manière flexible les effets des haplotypes sur le phénotype (binaire, quantitatif, survie) ainsi que les interactions entre polymorphismes portés par un même haplotype. Ces modèles ont également l’intérêt de permettre l’intégration de variables d’environnement et le traitement des données manquantes (2,15,16). Un logiciel THESIAS a été développé qui, outre l’analyse haplotypique, permet d’estimer les fréquences alléliques, les coefficients de déséquilibre de liaison entre polymorphismes et de tester systématiquement l’hypothèse d’Hardy-Weinberg pour chaque polymorphisme.

4.2. Le logiciel DICE de fouille de données

Le fait de s’intéresser à des systèmes interactifs de gènes nécessite de disposer de méthodes d’analyse qui permettent de détecter rapidement et de manière quasi-automatisée les effets propres et interactions potentielles entre polymorphismes qui mériteront d’être explorés plus en profondeur d’un point de vue statistique et biologique. Il existe des techniques relativement anciennes de “fouille de données” - remises au goût du jour pour répondre à la masse de données générées par la biologie - telles que les méthodes de partitionnement récursif (18,19) ou combinatoire (20,21) et les réseaux neuronaux (22,23). L’application de quelques unes de ces méthodes (RTree, NevProp4) à des données réelles nous a permis de constater qu’elles présentaient des limites par rapport aux questions posées et que l’interprétation de leurs résultats était souvent difficile. Nous avons donc développé dans l’U525 notre propre outil de fouille de données, DICE, basé sur un mélange de régression “pas-à-pas” et d’exploration aussi exhaustive que possible de l’espace des modèles, sachant que contrairement aux modèles classiques de régression, l’interaction n’est pas considérée ici comme une nuisance mais bien comme un effet d’intérêt en lui-même (3). L’objectif est de sélectionner un sous-ensemble de polymorphismes qui influencent de manière propre ou en interaction le phénotype.

Cette méthode est particulièrement adaptée pour analyser l’ensemble des polymorphismes d’un système biologique dont le nombre peut devenir rapidement incompatible avec les méthodes d’analyse traditionnelles. La méthode peut également être appliquée à l’analyse de l’ensemble des polymorphismes d’un gène, afin d’identifier le sous-ensemble de polymorphismes potentiellement impliqués dans la relation avec le phénotype, et ainsi de limiter le nombre de polymorphismes à génotyper dans des études ultérieures. Une comparaison des résultats de DICE avec ceux obtenus par l’analyse haplotypique a montré sur différents gènes que les mêmes polymorphisme étaient généralement identifiés par les 2 approches (3,17). L’analyse haplotypique fournit cependant des résultats plus fins sur la relation avec le phénotype. Le logiciel DICE sera prochainement téléchargeable à partir du site web GeneCanvas, dès qu’une interface aura été créée (voir plus bas).

4.3. Le logiciel FINESSE d'analyse de ségrégation/linkage par les modèles régressifs

Les chercheurs de l’EMI-0006 développent depuis plusieurs années des méthodes d’analyse de données familiales pour identifier les variants génétiques et préciser les relations génotype-phénotype dans les maladies multifactorielles. Ces méthodes incluent les analyses de ségrégation-liaison, basées sur les modèles régressifs (24), qui considèrent les transmissions familiales conjointes d’une maladie (ou d’un phénotype quantitatif intermédiaire) et de marqueurs génétiques liés (pouvant être en déséquilibre de liaison entre eux et avec le gène pathologique et incluant donc aussi la notion d’haplotype). La relation génotype-phénotype (ou fonction de pénétrance) est exprimée en fonction de l’effet du variant génétique causal recherché, de corrélations familiales résiduelles (dues à d’autres facteurs génétiques et/ou environnementaux non spécifiés) et de facteurs de risque connus (environnementaux et/ou génétiques) qui peuvent interagir entre eux et avec le variant recherché. Ces méthodes ont été incorporées dans le logiciel FINESSE, dans le cadre d’un projet européen (4), ce logiciel combinant des algorithmes rapides pour l’analyse des transmissions d’allèles de plusieurs locus liés (programme VITESSE (25,26)) et l’approche régressive pour modéliser la relation génotype-phénotype (programme REGRESS (27)). Ce logiciel permet non seulement de rechercher un variant génétique causal mais aussi d’estimer son effet ainsi que ceux d’autres facteurs de risques potentiels et leurs interactions. Ces approches se sont avérées puissantes pour détecter des variants à effet relativement faible influençant des phénotypes quantitatifs complexes (28,29) ou mettre en évidence des interactions entre gène et facteurs de risque dans le mélanome (30) et le cancer du sein (31). Le phénotype étudié peut être quantitatif, binaire ou censuré mais un seul phénotype à la fois peut être étudié. En outre, un seul variant pathologique causal au sein d’haplotype(s) peut être recherché à la fois. Un langage de spécifications (FLIM) permettant une gestion plus souple des fichiers de données et de paramètres du logiciel FINESSE vient d’être développé (I. Martinat, DEA Amib, Université d’Evry) mais nécessite d’être étendu.

5. Création d'interfaces conviviales et mise à disposition des logiciels sur Internet

5.1. Le site GeneCanvas

Le site GeneCanvas a été créé en 1997 par l’U525 pour diffuser les données issues de l’exploration des gènes candidats sur les maladies cardiovasculaires. Ce site fournit des informations sur les gènes et les polymorphismes ainsi que sur les études et les banques d’ADN disponibles pour étudier ces polymorphismes. Ces données fournissent des informations essentielles sur les caractéristiques populationnelles de la variabilité du génome humain (fréquence alléliques, déséquilibre de liaison entre polymorphismes, fréquence des principaux haplotypes). A l’heure où ce type de recherche devient très compétitif, il faut souligner que notre site a été le premier de ce type, et reste unique par bien des aspects, en particulier par la taille des populations servant à estimer les paramètres de génétique des population. A l’heure actuelle, plus de 130 gènes et 30 études sont référencés dans le site.

5.2. Création d'interfaces pour les logiciels

Actuellement, les logiciels sont utilisés en ligne de commandes (MS-DOS sous PC, Shell sous UNIX ou Linux). Afin de rendre l’utilisation plus conviviale, critère indispensable pour une diffusion large, il est nécessaire de développer des interfaces graphiques. Ces interfaces seront programmées en langage JAVA et couplées aux programmes d’analyse écrits en langage C. Les logiciels seront compilés de manière à pouvoir être utilisés sous les principaux systèmes d’exploitation (WINDOWS, UNIX, Linux, MacOS).

5.3. Mise à disposition des logiciels sur Internet

Une interface sera développée en langage JAVA pour rendre les logiciels disponibles sur Internet, via le site GeneCanvas. La mise à disposition sur Internet a deux objectifs :

La mise en ligne d’outils d’analyse complexe nécessite de développer des procédures de maximisation et d’estimation robustes et non sujettes aux problèmes de convergence souvent rencontrés avec les algorithmes standards. C’est dans ce but que nous avons récemment implémenté l’algorithme SEM dans les programmes d’analyse haplotypique (2) et que nous envisageons de développer une approche Bayésienne.

De manière générale, ce projet est destiné à répondre à une demande croissante des chercheurs - biologistes moléculaires ou généticiens épidémiologistes - souvent démunis par rapport à la complexité des données à analyser. Par ailleurs, la plupart des projets de recherche étant maintenant de dimension européenne, voire mondiale, la disponibilité d’outils communs d’analyse en lien direct avec des bases de données devrait considérablement faciliter la collaboration et accélérer la recherche (bien sûr il ne s’agit pas de rendre accessible des données individuelles, seules des statistiques peuvent résulter de l’interaction avec les bases de données).

 
  description_du_projet.txt · Dernier changement: 2006/04/18 09:58
 
Recent changes RSS feed Creative Commons License Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki