Skip to content

Alignement de séquences: blastn

Objectif

Aligner un gène du cheval sur le génome de référence du cheval.

Pré-requis

Connection au cluster

Démarrez votre machine et ouvrez un terminal (sous Windows, utilisez mobaXterm). Connectez-vous au noeud de login genobioinfo de genotoul-bioinfo en utilisant ssh.

ssh -X <username>@genobioinfo.toulouse.inrae.fr

N'oubliez pas de remplacer <username> par votre nom d'utilisateur.

Mise en place de l'environnement de travail

  • Nous créons un dossier de travail sur work et nous positionnons dedans.
cd ~/work
mkdir TP_cluster
cd TP_cluster
  • Nous lançons une session interactive sur le cluster de calcul.
srun --pty bash

Admin grognon

Ne jamais calculer sur un noeud de login! Ouvrez toujours une session interactive.

Récupération d'un gène sur NCBI

Nous allons utiliser la suite d'outils Entrez Direct: E-utilities pour récupérer la séquence d'un gène sur NCBI.

Les outils installés sur le cluster ne sont pas accessibles directement. Nous devons charger ceux qui nous intéressent:

# On recherche les modules proposant Entrez Direct
module search edirect

# On charge la dernière version
module load bioinfo/NCBI_Edirect/20.5.20231007

Regarder l'aide des outils

Afin d'utiliser les outils, il est important de lire l'aide. Dans notre cas, nous utiliserons esearch pour récupérer l'identifiant d'un gène qui nous intéresse et efetch pour le télécharger.

esearch -h
efetch -h

Si ce n'est pas suffisant, il est d'usage de lire le manuel

Récupération de la séquence

Nous nous intéressons à la séquence de nucléotides du gène COX1 du cheval. Nous utilisons le programme esearch pour récupérer son ID en saisant une réquête utilisant sa description Equus caballus voucher MG-HR-07 cytochrome oxidase subunit I dans la base des nucléotides.

esearch -query "Equus caballus voucher MG-HR-07 cytochrome oxidase subunit I" \
-db nucleotide > COX1_Cheval.esearch

Nous pouvons visualiser le résultat de la recherche en affichant le contenu du fichier.

cat COX1_Cheval.esearch

Nous téléchargeons ensuite la séquence en réutilisant le résultat de la recherche

cat COX1_Cheval.esearch | efetch -format fasta > COX1_Cheval.fasta

Les outils de la suite d'outils Entrez Direct sont conçus pour être enchainés avec le | (pipe). À l'avenir vous utiliserez les commandes de le façon suivante:

esearch -query "Equus caballus voucher MG-HR-07 cytochrome oxidase subunit I" \
-db nucleotide | efetch -format fasta > COX1_Cheval.fasta

Nous vérifions que le fichier COX1_Cheval.fasta est bien créé et qu'il contient bien ce que nous voulons.

ls
less COX1_Cheval.fasta

Alignement de séquences

Nous allons maintenant chercher où se situe le gène sur le génome de référence du cheval.

Quelle banque?

Nous devons identifier la banque de donnée à utiliser

ls /bank/blastdb

Question

Quelle banque devons nous choisir pour travailler sur le genome du cheval ?

Quel logiciel?

Nous allons utiliser blast pour faire l'alignement. Cherchons les modules qui nous le proposent et prenons la dernière version installée.

module search blast
module load bioinfo/NCBI_Blast+/2.15.0+

Sobriété numérique

Si vous travaillez sur des alignements de protéines, privilégez diamond (à utiliser avec les banques dans /bank/diamonddb) plutôt que blastp. Il est plus rapide et sobre pour des résultats équivalents.

Nous utiliserons blastn pour aligner deux séquences de nucléotides. Pour savoir comment l'utiliser, nous devons afficher son aide.

blastn -help

Le manual d'utilisation de blast est aussi une précieuse source d'information.

Warning

Faites bien attention, certains paramètres sont parfois contre intuitifs.

Calculer l'alignement

Alignons maintenant la séquence du gène que nous avons récupéré sur le génome du cheval:

blastn -query COX1_Cheval.fasta -db ensembl_equus_caballus_genome \
-out KC693991.1_equus.blast

Question

Regardez la sortie du blast? Que concluez-vous ?

less KC693991.1_equus