SEJOUR DECOUVERTE
Analyse Bio-informatique de génomes

Travaux pratiques version LINUX

II. Rechercher les séquences des génomes de Listeria dans GENBANK

Note
GENBANK est une banque de données de séquences génétiques reconnue internationalement. Elle est maintenue aux Etats-Unis par le NCBI. On y trouve plus de 108 millions de séquences d'ADN publiquement disponibles. Le NCBI met également à la disposition de la communauté internationale de nombreux outils d'analyse de génome et un serveur de fichiers (FTP).
  1. Ouvrir un navigateur (firefox, ...) en cliquant sur l'icone du programme
  2. Se connecter sur le site ftp de GENBANK dédié aux bactéries en tapant l'adresse suivante dans le navigateur:
    ftp://ftp.ncbi.nih.gov/genomes/Bacteria
  3. Cliquer sur le dossier Listeria_innocua
    Cliquer avec le bouton droit de la souris sur les fichiers suivants et enregistrer sous format texte (Enregistrer la cible du lien sous ou save link target as ou save link as) dans votre répertoire en les renommant comme ci-dessous :
    • NC_003212.faa renommé en lin_genes_prot.txt
    • NC_003212.ffn renommé en lin_genes_dna.txt
    • NC_003212.fna renommé en lin_genome_dna.txt
  4. Revenir en arrière et cliquer sur le dossier Listeria_monocytogenes
    Cliquer avec le bouton droit de la souris sur les fichiers suivants et enregistrer sous format texte (Enregistrer la cible du lien sous ou save link target as ou save link as) dans votre répertoire en les renommant comme ci-dessous :
    • NC_003210.faa renommé en lmo_genes_prot.txt
    • NC_003210.ffn renommé en lmo_genes_dna.txt
    • NC_003210.fna renommé en lmo_genome_dna.txt

II. Visualiser les fichiers de séquences

Nous allons afficher successivement le contenu des trois fichiers pour Listeria monocytogenes (lmo) en utilisant le programme Wordpad

  1. Dans une fenêtre de l'explorateur Windows, cliquer avec le bouton droit sur chacun des programmes et Ouvrir avec Wordpad
  2. Remarquer le format particulier des fichiers avec la première ligne commençant par un > ; il s'agit d'un fichier en format fasta
  3. Le génome de Listeria innocua contient 2968 gènes
    Le génome de Listeria monocytogenes contient 2846 gènes
??? Analysons ces données

III. Rechercher les gènes dans les séquences avec EMBOSS

Note
EMBOSS est une suite logicielle d'analyse de séquences. Cette suite logicielle est disponible gratuitement et la plupart des institutions de recherche l'installent sur leur serveur. Les logiciels sont lancés en ligne de commande (dans une fenêtre de Terminal accédant au serveur). Il existe également des interfaces graphiques comme celle mise en place sur le serveur du centre Robert Cedergren : http://anabench.bcm.umontreal.ca/html/EMBOSS/

Nous allons rechercher dans une portion de la séquence du génome de Listeria monocytogenes tous les gènes potentiels. On utilisera une règle simple (cf ci-dessous). Cette règle ne permet pas de trouver la totalité du gène (qui commence un peu avant et se termine après) mais la partie qui donnera la protéine. Cette portion est appelée ORF pour "Open Reading Frame" (phase ouverte de lecture) ou CDS pour "Coding sequence" ( séquence codante) lorsque la structure du gène est confirmée.

Regle ORF
Dans un navigateur (firefox, ...)
  1. Se connecter sur l'interface graphique de la suite logicielle EMBOSS http://anabench.bcm.umontreal.ca/html/EMBOSS/
  2. Visualiser la liste des programmes disponibles dans EMBOSS dans la barre de gauche
    La liste des programmes disponibles dans EMBOSS est triée par catégories.
    Dans la catégorie EDIT, se trouve le programme extractseq pour extraire une portion de la séquence d'ADN.
    Dans la catégorie NUCLEIC GENE FINDING se trouve le programme plotorf qui recherche les ORFs.
  3. Extraire, avec le programme extractseq (EDIT) la sous-séquence de 450 000 à 460 000 chez Listeria monocytogenes et la copier dans le fichier lmo_genome_450-460_dna.txt
    Utiliser les paramètres suivants (Ne pas modifier les autres) :
    • [ Browse ]lmo_genome_dna.txt : fichier d'entrée / Input sequence
    • Regions to extract: -regions 450000-460000 : on extrait la portion 450000 à 460000
    • Lancer le programme en cliquant sur [ run extractseq ]
    • Cliquer droit sur le lien Right click to save en haut de la page pour enregistrer le fichier de sortie sous le nom lmo_genome_450-460_dna.txt
  4. Utilisons le programme plotorf (NUCLEIC GENE FINDING)
    Utiliser les paramètres suivants (Ne pas modifier les autres) :
    • [ Browse ] lmo_genome_450-460_dna.txt : fichier d'entrée / Input sequence
    • Lancer le programme en cliquant sur [ run plotorf ]
??? Analysons ce graphique

IV. Rechercher les "vrais" gènes avec BLAST

Note
BLAST signifie Basic Local Alignment Search Tool. Cet outil cherche des régions de similarité locale entre les séquences. Le programme compare les séquences de nucléotide ou de protéine à d'autres séquences contenues dans une énorme base de données et calcule des statistiques de significativité

Notre programme a prédit beaucoup de gènes dont beaucoup sont chevauchants. Nous allons extraire toutes les protéines traduites à partir des ORFs prédites et rechercher s'il existe déjà des gènes similaires connus.

Dans un navigateur (firefox, ...)
  1. Se connecter sur l'interface graphique de la suite logicielle EMBOSS http://anabench.bcm.umontreal.ca/html/EMBOSS/
  2. créer un fichier avec toutes les protéines traduites à partir des ORFs trouvées dansla sous-séquence de 450 000 à 460 000 chez Listeria monocytogenes et la copier dans le fichier lmo_genome_450-460_dna.txt
    Avec la commande getorf (NUCLEIC GENE FINDING)
    Utiliser les paramètres suivants (Ne pas modifier les autres) :
    • [ Browse ]lmo_genome_450-460_dna.txt : fichier d'entrée / Input sequence
    • Type of output: Translation of regions between START and STOP codons
    • Lancer le programme en cliquant sur [ run getorf ]
    • Cliquer droit sur le lien Right click to save en haut de la page pour enregistrer le fichier de sortie sous le nom lmo_genome_450-460_ORF_prot.txt
  3. Dans un navigateur (firefox, ...) : aller sur la page BLAST du NCBI
    http://blast.ncbi.nlm.nih.gov/
    Sur la page qui s'affiche:
    1. Dans la section Basic BLAST, cliquer sur le lien protein BLAST
    2. Dans la section Enter Query Sequence, cliquer sur [ Browse ] pour charger le fichier lmo_genome_450-460_ORF_prot.txt
    3. Dans la section Choose Search Set
      • Pour le paramètre Organism, indiquer la valeur 2, cela limitera la recherche de protéines similaires aux bactéries
      • Pour l'option Exclude, cocher Uncultured/environmental sample sequences, pour accélérer la recherche
    4. Dans la section Algorithm parameter (sous le gros bouton bleu [ BLAST ])
      Cliquer sur la flèche pour afficher le contenu
      • Dans la section General Parameters, pour le paramètre Max target sequences, changer la valeur à 10 pour ne pas être submergé par les résultats
    5. Cliquer sur le bouton bleu [ BLAST ] pour lancer l'outil
      La recherche peut prendre plusieurs minutes
??? Analysons ces résultats
La liste des ORFs que nous avons soumise en entrée est dans le menu déroulant. Les ORFs pour lesquelles aucune similarité n'est trouvée sont grises, les autres sont en noir.

V. Trouver de l'information sur les génomes avec GENBANK

L'annotation.
Le processus qui consiste à rechercher les (vrais) gènes sur un génome et leur associer une fonction biologique est l'annotation.

L'annotation des deux génomes de Listeria qui nous intéressent a déjà été réalisée par des experts de cette espèce. Lorsque l'annotation a été terminée, les équipes de recherche ont publié un article scientifique pour présenter leur travail et ont déposé l'annotation dans les banques de données publiques dont GENBANK fait partie. Nous allons rechercher les informations sur l'annotation de ces bactéries.

Dans un navigateur (firefox, ...)
  1. Allez sur le site Entrez via l'adresse http://www.ncbi.nlm.nih.gov/Entrez/
  2. Cliquer sur Genome : whole genome sequences dans la colonne de gauche
  3. Dans la zone de recherche Search for indiquer Listeria[orgn], puis cliquer sur [ Go ]
  4. Sélectionner les items 5 et 6 : NC_003212 et NC_003210
  5. En haut de la page, dans le menu Display, sélectionner Overview
    La page se recharge automatiquement en affichant les informations pour les deux organismes sélectionnés
??? Analysons ces données

VI. Rechercher les gènes de virulence (dangereux) avec Artemis ACT

Note
Artemis ACT est un programme de visualisation de comparaison de génomes développé au Sanger Institut. Une version "Java Web Start" de cet outil est disponible sur le site web au JGI (Joint Genome Institut) de Californie avec les comparaisons entre génomes pré-calculées.

Dans un navigateur (firefox, ... )
  1. Aller sur le site des ressources en microbiologie (IMG : Integrated Microbial Genomes) du JGI
    http://img.jgi.doe.gov/
  2. Dans le menu en haut de la page, cliquer sur Compare Genomes
  3. Dans le sous-menu qui s'est affiché, cliquer sur Synteny viewers.
  4. Une liste d'outils s'affiche, cliquer sur Artemis-ACT.
  5. Sur la page ACT Genome Selection, sélectionner (en maintenant la touche Ctrl) les espèces : Listeria innocua Clip 11262 et Listeria monocytogenes EGD-e.
    Cliquer sur [ Next ]
  6. Sur la page Pairwise selection, cliquer sur [ Next ].
  7. Sur la page Contig Reorder - Artemis - ACT, Dans la colonne Ignore du 2e tableau, cocher la seconde ligne :
    2 NC_003383 Listeria innocua Clip11262 plasmid pLI100: NC_003383
    Ceci écartera le plasmide de l'analyse
    Cliquer sur [ Next ].
    Le programme lance des processus ...
  8. Lorsqu'une nouvelle page intitulée Artemis - ACT s'affiche, cliquer sur le bouton [ Run ACT ] qui lancera une application en Java Web Start.
  9. L'application ACT affiche en haut de la page, le génome de Listeria innocua et en bas celui de Listeria monocytogenes avec leurs annotations dans les 6 phases de lecture.
    S'il existe de fortes similarités entre deux portions de génome, une barre rouge les relie.
    Les barres de défilement horizontales tout en haut et tout en bas de la fenêtre permettent de se déplacer sur le génome. Le déplacement est coordonné entre les deux génomes.
    Utiliser les barres de défilement horizontal afin d'afficher à l'écran la portion de génome sur laquelle nous avions recherché les ORFs, c'est à dire la portion 450000 à 460000 sur le génome de Listeria monocytogenes.
??? Analysons ces données

VII. Visualisation de la structure 3D des protéines sélectionnées avec PDB et PyMol

Note
La PDB (Protein Data Bank) est une banque de données de structure tridimensionnelle de molécules.

Dans un navigateur (firefox, ... )
  1. Se connecter sur le site de la PDB
    http://www.pdb.org/
  2. Dans le champs texte de recherche en haut de page, indiquer 2OMT (la lettre O)
    Puis, cliquer sur le bouton Search
    La fiche de la structure cristallographique de la protéine sélectionnée et de la Cadherine, son récepteur sur les cellules humaines s'affiche.
  3. Dans le menu à droite, choisissez Download Files puis PDB File (Text).
    Le fichier est sauvé sous le nom 2OMT.pdb.
  4. Nous allons utiliser le programme de visualisation moléculaire Pymol afin de l'observer en 3D.
    Dans le menu Windows, aller chercher le programme pymol (dans logiciels spécialisé)
  5. Dans la petite fenêtre grise, faites File > Open pour ouvrir le fichier 2OMT.pdb
    Puis, dans la fenêtre Pymol viewer, dans le menu à droite, sélectionner :
    • S(show) et cartoon
    • H(hide) et lines
    • H(hide) et waters
    • C(color) spectrum et rainbow
??? Devinette (difficile ! )

L'annotation et le métier de bio-informaticien


Conception / Programmation / Analyse : 3 aspects du travail du bio-informaticien.

La conception d'outils pour la recherche de gènes et la manipulation de séquences requiert de bonnes connaissances en algorithmique et en statistique. Ces outils doivent être rapides et donner des résultats pertinents.

L'implémentation des outils afin de les rendre "facilement" utilisables nécessite des aptitudes en programmation et en interface homme/machine.

Bien qu'une partie du travail de l'annotateur soit facilitée par l'amélioration des programmes de recherche de gènes et l'automatisation de suite de processus, l'annotation est une tâche longue qui requiert beaucoup de rigueur et une bonne connaissance de la biologie des organismes.