SEJOUR DECOUVERTE
Analyse Bio-informatique de génomes

Travaux pratiques version LINUX

I. Connection au serveur ESILBAC et pratique de LINUX

Branchement à SIM

  1. Se brancher à SIM (PC Windows) au M-6

Branchement aux serveurs ESILBAC via Hummingbird

  1. Double-cliquer sur le répertoire Logiciels spécialisés situé sur le bureau
  2. Double-cliquer sur le répertoire Hummingbird
  3. Choisir xdm_esilbac1 ou xdm_esilbac2
  4. Inscrire son code d'accès et son mot de passe

Linux

Pratiquons quelques commandes de LINUX

Attention
La casse est importante : 'monfichier.txt' est différent de 'Monfichier.txt'
Ne pas utiliser de caractères spéciaux : accent, espace, ponctuation, ...
Les commandes se valident avec la touche [ Enter ]
Dans une fenêtre de terminal (petite fenêtre noire) :
  1. Voir la liste des fichiers dans un répertoire
    ls: list (engl) = dresser une liste (fr)
    ls
  2. Créer un répertoire
    mkdir : make directory (engl) = créer un répertoire (fr)
    mkdir sejour_decouverte
  3. Visiter un répertoire
    cd: change directory (engl) = se déplacer dans l'arborescence (fr)
    cd sejour_decouverte
  4. Monter dans un répertoire
    cd ..
  5. Déterminer l'endroit où l'on se trouve dans l'arborescence
    pwd: print working directory name (engl) = inscrire le nom du répertoire à l'écran (fr)
    pwd
  6. Compléter une commande, un nom de fichier lorsqu'on en tape les premières lettres
    Touche tab

II. Rechercher les séquences des génomes de Listeria dans GENBANK

Note
GENBANK est une banque de données de séquences génétiques reconnue internationalement. Elle est maintenue aux Etats-Unis par le NCBI. On y trouve plus de 108 millions de séquences d'ADN publiquement disponibles. Le NCBI met également à la disposition de la communauté internationale de nombreux outils d'analyse de génome et un serveur de fichiers (FTP).
  1. Ouvrir un navigateur (firefox, ...)
    1. Dans une fenêtre de terminal, en utilisant la commande suivante:
      firefox &
    2. OU via l'interface graphique en cliquant sur l'icone du programme
  2. Se connecter sur le site ftp de GENBANK dédié aux bactéries en tapant l'adresse suivante dans le navigateur:
    ftp://ftp.ncbi.nih.gov/genomes/Bacteria
  3. Cliquer sur le dossier Listeria_innocua
    Cliquer avec le bouton droit de la souris sur les fichiers suivants et enregistrer sous format texte (Enregistrer la cible du lien sous ou save link target as ou save link as) dans votre répertoire en les renommant comme ci-dessous :
    • NC_003212.faa renommé en lin_genes_prot.txt
    • NC_003212.ffn renommé en lin_genes_dna.txt
    • NC_003212.fna renommé en lin_genome_dna.txt
  4. Revenir en arrière et cliquer sur le dossier Listeria_monocytogenes
    Cliquer avec le bouton droit de la souris sur les fichiers suivants et enregistrer sous format texte (Enregistrer la cible du lien sous ou save link target as ou save link as) dans votre répertoire en les renommant comme ci-dessous :
    • NC_003210.faa renommé en lmo_genes_prot.txt
    • NC_003210.ffn renommé en lmo_genes_dna.txt
    • NC_003210.fna renommé en lmo_genome_dna.txt

III. Manipuler les fichiers de séquences

Nous allons afficher successivement dans le terminal le contenu des trois fichiers pour Listeria monocytogenes (lmo) en utilisant le programme more qui sert à afficher les premières lignes d'un fichier.

Dans une fenêtre de terminal :
  1. Afficher les premières lignes du génome de Listeria monocytogenes en tapant la commande suivante :
    more lmo_genome_dna.txt
    - La barre [ Espace ] affiche la suite du fichier
    - La touche [ q ] permet de quitter le programme
    Remarquer le format particulier de ce fichier avec la première ligne commençant par un > ; il s'agit d'un fichier en format fasta
  2. Afficher le fichier contenant les gènes de Listeria monocytogenes
    more lmo_genes_d2na.txt
    Remarquer que les séquences nucléiques des gènes sont en format fasta
  3. Afficher le fichier contenant les protéines de Listeria monocytogenes
    more lmo_genes_prot.txt
    Remarquer que les séquences protéiques des gènes sont en format fasta
  4. Maintenant, nous allons compter le nombre de gènes dans le génome de Listeria monocytogenes. Pour ce faire nous allons tirer parti du format fasta et de la puissance de l'outil grep. Ce dernier cherche dans un fichier spécifié un patron demandé (un mot, une phrase, un caractére, etc.).
    grep -c '>' lmo_genes_dna.txt
    -c : cette option donne comme résultat le nombre de lignes qui vérifient la recherche
    '>' : patron, motif
    lmo_genes_dna.txt : fichier d'entrée dans lequel s'effectue la recherche
  5. Compter le nombre de gènes dans le génome de Listeria innocua
    grep -c '>' lin_genes_dna.txt
??? Analysons ces données

IV. Rechercher les gènes dans les séquences avec EMBOSS

Note
EMBOSS est une suite logicielle d'analyse de séquences. Cette suite logicielle est disponible gratuitement et la plupart des institutions de recherche l'installent sur leur serveur. Les logiciels sont lancés en ligne de commande (dans une fenêtre de Terminal accédant au serveur). Il existe également des interfaces graphiques comme celle mise en place sur le serveur du centre Robert Cedergren : http://anabench.bcm.umontreal.ca/html/EMBOSS/

Nous allons rechercher dans une portion de la séquence du génome de Listeria monocytogenes tous les gènes potentiels. On utilisera une règle simple (cf ci-dessous). Cette règle ne permet pas de trouver la totalité du gène (qui commence un peu avant et se termine après) mais la partie qui donnera la protéine. Cette portion est appelée ORF pour "Open Reading Frame" (phase ouverte de lecture) ou CDS pour "Coding sequence" ( séquence codante) lorsque la structure du gène est confirmée.

Regle ORF
Dans une fenêtre de terminal :
  1. Charger EMBOSS
    module load emboss
  2. Visualiser la liste des programmes disponibles dans EMBOSS
    wossname
    Cliquer deux fois sur la touche [ Enter ]
    La liste des programmes disponibles dans EMBOSS apparait, triée par catégories.
    Dans la catégorie EDIT, se trouve le programme extractseq pour extraire une portion de la séquence d'ADN.
    Dans la catégorie NUCLEIC GENE FINDING se trouve le programme plotorf qui recherche les ORFs.
  3. Extraire, avec le programme extractseq (EDIT) sla sous-séquence de 450 000 à 460 000 chez Listeria monocytogenes et la copier dans le fichier lmo_genome_450-460_dna.txt
    extractseq lmo_genome_dna.txt -regions 450000-460000 -outseq lmo_genome_450-460_dna.txt
    lmo_genome_dna.txt : fichier d'entrée
    -regions 450000-460000 : on extrait la portion 450000 à 460000
    -outseq lmo_genome_450-460_dna.txt fichier de sortie qui contient les 10 000 bases extraites
  4. Utilisons le programme plotorf (NUCLEIC GENE FINDING) en mode interactif
    plotorf
  5. Indiquer le nom du fichier contenant la sous-séquence de Listeria monocytogenes (lmo) lorsque le programme vous le demande
    Input sequence : lmo_genome_450-460_dna.txt
  6. Indiquer le format de sortie
    Graph type [x11]: png
  7. Le programme indique qu'il a créé le fichier de sortie plotorf.1.png. Pour visualiser ce fichier, utiliser la commande display
    display plotorf.1.png
??? Analysons ce fichier

V. Rechercher les "vrais" gènes avec BLAST

Note
BLAST signifie Basic Local Alignment Search Tool. Cet outil cherche des régions de similarité locale entre les séquences. Le programme compare les séquences de nucléotide ou de protéine à d'autres séquences contenues dans une énorme base de données et calcule des statistiques de significativité

Notre programme a prédit beaucoup de gènes dont beaucoup sont chevauchants. Nous allons extraire toutes les protéines traduites à partir des ORFs prédites et rechercher s'il existe déjà des gènes similaires connus.

  1. Dans une fenêtre de terminal : créer un fichier avec toutes les protéines traduites à partir des ORFs trouvées avec la commande getorf
    getorf lmo_genome_450-460_dna.txt -outseq lmo_genome_450-460_ORF_prot.txt -find 1
    lmo_genome_450-460_dna.txt : fichier d'entrée qui contient la séquence dans laquelle on va chercher les ORFs
    -outseq lmo_genome_450-460_ORF_prot.txt : fichier de sortie qui contient les ORFs protéiques
    -find 1 option pour traduire les ORFs en protéines
  2. Dans un navigateur (firefox, ...) : aller sur la page BLAST du NCBI
    http://blast.ncbi.nlm.nih.gov/
    Sur la page qui s'affiche:
    1. Dans la section Basic BLAST, cliquer sur le lien protein BLAST
    2. Dans la section Enter Query Sequence, cliquer sur [ Browse ] pour charger le fichier lmo_genome_450-460_ORF_prot.txt
    3. Dans la section Choose Search Set
      • Pour le paramètre Organism, indiquer la valeur 2, cela limitera la recherche de protéines similaires aux bactéries
      • Pour l'option Exclude, cocher Uncultured/environmental sample sequences, pour accélérer la recherche
    4. Dans la section Algorithm parameter (sous le gros bouton bleu [ BLAST ])
      Cliquer sur la flèche pour afficher le contenu
      • Dans la section General Parameters, pour le paramètre Max target sequences, changer la valeur à 10 pour ne pas être submergé par les résultats
    5. Cliquer sur le bouton bleu [ BLAST ] pour lancer l'outil
      La recherche peut prendre plusieurs minutes
??? Analysons ces résultats
La liste des ORFs que nous avons soumise en entrée est dans le menu déroulant. Les ORFs pour lesquelles aucune similaritĂ© n'est trouvĂ©e sont grises, les autres sont en noir.

VI. Trouver de l'information sur les génomes avec GENBANK

L'annotation.
Le processus qui consiste à rechercher les (vrais) gènes sur un génome et leur associer une fonction biologique est l'annotation.

L'annotation des deux génomes de Listeria qui nous intéressent a déjà été réalisée par des experts de cette espèce. Lorsque l'annotation a été terminée, les équipes de recherche ont publié un article scientifique pour présenter leur travail et ont déposé l'annotation dans les banques de données publiques dont GENBANK fait partie. Nous allons rechercher les informations sur l'annotation de ces bactéries.

Dans un navigateur (firefox, ...)
  1. Allez sur le site Entrez via l'adresse http://www.ncbi.nlm.nih.gov/Entrez/
  2. Cliquer sur Genome : whole genome sequences dans la colonne de gauche
  3. Dans la zone de recherche Search for indiquer Listeria[orgn], puis cliquer sur [ Go ]
  4. Sélectionner les items 5 et 6 : NC_003212 et NC_003210
  5. En haut de la page, dans le menu Display, sélectionner Overview
    La page se recharge automatiquement en affichant les informations pour les deux organismes sélectionnés
??? Analysons ces données

VII. Rechercher les gènes de virulence (dangereux) avec Artemis ACT

Note
Artemis ACT est un programme de visualisation de comparaison de génomes développé au Sanger Institut. Une version "Java Web Start" de cet outil est disponible sur le site web au JGI (Joint Genome Institut) de Californie avec les comparaisons entre génomes pré-calculées.

Dans un navigateur (firefox, ... )
  1. Aller sur le site des ressources en microbiologie (IMG : Integrated Microbial Genomes) du JGI
    http://img.jgi.doe.gov/
  2. Dans le menu en haut de la page, cliquer sur Compare Genomes
  3. Dans le sous-menu qui s'est affiché, cliquer sur Synteny viewers.
  4. Une liste d'outils s'affiche, cliquer sur Artemis-ACT.
  5. Sur la page ACT Genome Selection, sélectionner (en maintenant la touche Ctrl) les espèces : Listeria innocua Clip 11262 et Listeria monocytogenes EGD-e.
    Cliquer sur [ Next ]
  6. Sur la page Pairwise selection, cliquer sur [ Next ].
  7. Sur la page Contig Reorder - Artemis - ACT, Dans la colonne Ignore du 2e tableau, cocher la seconde ligne :
    2 NC_003383 Listeria innocua Clip11262 plasmid pLI100: NC_003383
    Ceci écartera le plasmide de l'analyse
    Cliquer sur [ Next ].
    Le programme lance des processus ...
  8. Lorsqu'une nouvelle page intitulée Artemis - ACT s'affiche, cliquer sur le bouton [ Run ACT ] qui lancera une application en Java Web Start.
  9. L'application ACT affiche en haut de la page, le génome de Listeria innocua et en bas celui de Listeria monocytogenes avec leurs annotations dans les 6 phases de lecture.
    S'il existe de fortes similarités entre deux portions de génome, une barre rouge les relie.
    Les barres de défilement horizontales tout en haut et tout en bas de la fenêtre permettent de se déplacer sur le génome. Le déplacement est coordonné entre les deux génomes.
    Utiliser les barres de défilement horizontal afin d'afficher à l'écran la portion de génome sur laquelle nous avions recherché les ORFs, c'est à dire la portion 450000 à 460000 sur le génome de Listeria monocytogenes.
??? Analysons ces données

VIII. Visualisation de la structure 3D des protéines sélectionnées avec PDB et PyMol

Note
La PDB (Protein Data Bank) est une banque de données de structure tridimensionnelle de molécules.

Dans un navigateur (firefox, ... )
  1. Se connecter sur le site de la PDB
    http://www.pdb.org/
  2. Dans le champs texte de recherche en haut de page, indiquer 2OMT (la lettre O)
    Puis, cliquer sur le bouton Search
    La fiche de la structure cristallographique de la protéine sélectionnée et de la Cadherine, son récepteur sur les cellules humaines s'affiche.
  3. Dans le menu à droite, choisissez Download Files puis PDB File (Text).
    Le fichier est sauvé sous le nom 2OMT.pdb.
  4. Nous allons utiliser le programme de visualisation moléculaire Pymol afin de l'observer en 3D.
    Dans une fenêtre de terminal , taper
    pymol
  5. Dans la petite fenêtre grise, faites File > Open pour ouvrir le fichier 2OMT.pdb
    Puis, dans la fenêtre Pymol viewer, dans le menu à droite, sélectionner :
    • S(show) et cartoon
    • H(hide) et lines
    • H(hide) et waters
    • C(color) spectrum et rainbow
??? Devinette (difficile ! )

L'annotation et le métier de bio-informaticien


Conception / Programmation / Analyse : 3 aspects du travail du bio-informaticien.

La conception d'outils pour la recherche de gènes et la manipulation de séquences requiert de bonnes connaissances en algorithmique et en statistique. Ces outils doivent être rapides et donner des résultats pertinents.

L'implémentation des outils afin de les rendre "facilement" utilisables nécessite des aptitudes en programmation et en interface homme/machine.

Bien qu'une partie du travail de l'annotateur soit facilitée par l'amélioration des programmes de recherche de gènes et l'automatisation de suite de processus, l'annotation est une tâche longue qui requiert beaucoup de rigueur et une bonne connaissance de la biologie des organismes.


Guide de survie dans le Terminal

	NOTES 
	------		
	1 / La touche [ TAB ] permet de completer une commande, un nom de fichier lorsqu'on en tape les premieres lettres
	2 / Il faut taper sur la touche [ Entrer ] a la fin de chaque commande pour la valider
	3 / La casse compte : 'monfichier.txt' est different de 'Monfichier.txt'
	4 / Utiliser les fleches haut et bas pour se deplacer dans l'historique de commande
	
	!!!!! Le signe '>' indiquera qu'il faut taper la commande qui le suit ; il ne faut pas l'ecrire !!!!!!!
	
	ARBORESCENCE
	------------
	/				C'est le repertoire le plus bas, la "racine"
	|------	A
		|------ a
		|------ b
			|------ fichier1.txt
	|------	B
	
	Pour indiquer un chemin, on separe les repertoires par des "/".
	Par exemple, le chemin depuis la racine jusqu'au "fichier1.txt" est : /A/b/fichier1.txt
	
	
	OU SUIS-JE ?
	-------------
	> pwd			Position dans l'arborescence des fichiers
	> cd 			Revenir dans son repertoire initial ("home")
	> cd monrepertoire/	se deplace dans le sous-repertoire "monrepertoire"
	> cd ..			Remonte d'un repertoire
	> cd ../..		Remonte de 2 repertoires
	> ls			Fait la liste du contenu du repertoire courant (en lignes)
	> ls -l			Fait la liste du contenu du repertoire courant (sous forme de liste)
	
	FICHIER
	--------
	> touch toto.txt	Cree le fichier toto.txt (dans le repertoire dans lequel on se trouve)
	> more toto.txt		Affiche le contenu du fichier toto.txt par page
				[ Espace ] pour faire defiler le fichier
				[ q ] pour quitter
	> cat toto.txt		Affiche TOUT le contenu du fichier toto.txt. Attention aux fichiers tres longs !
	> rm toto.txt		Supprime le fichier toto.txt
				A la demande de confirmation, taper [ y ] pour valider
	
	REPERTOIRE
	----------
	> mkdir tata		Cree le repertoire "tata" dans le repertoire dans lequel on se trouve
				
	KES C CA ?
	----------
	> man macommande	Affiche le manuel pour la commande "macommande". 
				Ex: > man more
	
	AIE AIE AIE
	-----------
	ctrl + c		*Arreter* la commande en cours
	ctrl + z		*Interrompre* la commande en cours
					> fg 	pour la relancer
					> bg	pour la relancer en arriere plan
	
	COMMANDES AVANCEES
	---------------------
	> grep "motif" fichier		*Affiche* les lignes contenant "motif" dans "fichier" 
					Ex : grep "ribosomal" lmo_genes.dna	Recherche les lignes du fichier "lmo_genes.dna" qui contiennent le mot "ribosomal"
	> grep -c "motif" fichier	*Compte* les lignes contenant "motif" dans "fichier"