Mapping
Cours
Exercice n°3: Générer l'index STAR
L’aligneur STAR :
- Quelle est la version la plus récente disponible sur genologin ?
Solution$ search_module star ... bioinfo/STAR-2.7.2b bioinfo/STAR-2.7.9a bioinfo/STAR-2.7.9a
Version 2.7.9a
- Quelle est la dernière version de STAR disponible sur internet (« rnaSTAR ») ?
Solutioncorrection du 08/04/2022 : 2.7.10a_alpha_220314
Générer l'index STAR à partir du fichier fasta et du gtf :
- Se connecter a un noeud du cluster en réservant 4 cpu (
-c 4
) - Créer un répertoire
star-index
et se déplacer dedans. Récupérer la séquence et l’annotation du chromosome 6 (ITAG2.3_genomic_Ch6.fasta & ITAG_pre2.3_gene_models_Ch6.gtf).
Solutionsrun --pty -c 4 bash mkdir star-index cd star-index wget http://genoweb.toulouse.inra.fr/~formation/19_Rnaseq_Cli/data/reference/ITAG2.3_genomic_Ch6.fasta wget http://genoweb.toulouse.inra.fr/~formation/19_Rnaseq_Cli/data/reference/ITAG_pre2.3_gene_models_Ch6.gtf
Indexer le génome avec la commande ̀
STAR --runMode genomeGenerate ...
. Avez vous pensé a charger le module ?Solutionmodule load bioinfo/STAR-2.7.9a STAR --runMode genomeGenerate --genomeDir . --genomeFastaFiles ITAG2.3_genomic_Ch6.fasta --runThreadN 4 --sjdbGTFfile ITAG_pre2.3_gene_models_Ch6.gtf
Lister le contenu du répertoire star-index. A quoi correspondent les nouveaux fichiers ?
Solution$ ls chrLength.txt chrName.txt exonGeTrInfo.tab geneInfo.tab genomeParameters.txt ITAG_pre2.3_gene_models_Ch6.gtf SA sjdbInfo.txt sjdbList.out.tab chrNameLength.txt chrStart.txt exonInfo.tab Genome ITAG2.3_genomic_Ch6.fasta Log.out SAindex sjdbList.fromGTF.out.tab transcriptInfo.tab
Ce sont les fichiers d'index du génome.
- Se connecter a un noeud du cluster en réservant 4 cpu (
- Se déconnecter du cluster (ctrl+D)
Sur le serveur genologin les génomes sont déjà indexés pour vous dans /bank/STARdb/. Vous pouvez directement les utiliser pour réaliser l'alignement.
Exercice n°4: Réaliser les alignements épissés des données nettoyées
Vous allez réaliser les alignements en soumettant des jobs avec la commande sbatch
.
Se positionner dans
tp_rnaseq
Créer un fichier par échantillon contenant une ligne de commande
STAR
comme vu pendant le cours sur les données nettoyées. Voir example de fichier sbash avec toutes les options possibles. PensezSolution MTcd ~/work/tp_rnaseq
Fichier de commande scriptSTAR_MT.sh :
#!/bin/bash #SBATCH -J starMT #SBATCH -c 4 #SBATCH -o star_MT.out #SBATCH -e star_MT.err #SBATCH -t 01:00:00 #SBATCH --mem 5G #SBATCH --mail-type=BEGIN,END,FAIL #Purge any previous modules module purge module load bioinfo/STAR-2.7.9a STAR --genomeDir star-index \ --readFilesIn cleanMT/MT_rep1_1_Ch6_val_1.fq.gz cleanMT/MT_rep1_2_Ch6_val_2.fq.gz \ --outFileNamePrefix MT --readFilesCommand zcat \ --alignIntronMin 20 --alignIntronMax 500000 \ --outSAMtype BAM SortedByCoordinate \ --quantMode TranscriptomeSAM GeneCounts \ --outSAMattributes All --runThreadN 4
Soumission (avec 4 CPU et 5G de ram spécifié dans le fichier) :
sbatch scriptSTAR_MT.sh
Solution WTFichier de commande scriptSTAR_WT.sh :
#!/bin/bash #SBATCH -J starWT #SBATCH -c 4 #SBATCH -o star_WT.out #SBATCH -e star_WT.err #SBATCH -t 01:00:00 #SBATCH --mem 5G #SBATCH --mail-type=BEGIN,END,FAIL #Purge any previous modules module purge module load bioinfo/STAR-2.7.9a STAR --genomeDir star-index \ --readFilesIn cleanWT/WT_rep1_1_Ch6_val_1.fq.gz cleanWT/WT_rep1_2_Ch6_val_2.fq.gz \ --outFileNamePrefix WT --readFilesCommand zcat \ --alignIntronMin 20 --alignIntronMax 500000 \ --outSAMtype BAM SortedByCoordinate \ --quantMode TranscriptomeSAM GeneCounts \ --outSAMattributes All --runThreadN 4
Soumission (avec 4 CPU et 5G de ram spécifié dans le fichier):
sbatch scriptSTAR_WT.sh
Lancer l’exécution sur le cluster avec la commande
sbatch
.Vérifier que votre job tourne sur le cluster et est lancé sur 4 CPU (
squeue
)Combien de read sont alignés de façon unique et de façon multiple ? (voir
Log.final.out
)SolutionsQ3.
sbatch scriptSTAR_WT.sh sbatch scriptSTAR_MT.sh
Q4.
squeue -u $USER
Q5.
TODO
Exercice n°5: Visualisation
La visualisation va se réaliser à l'aide de IGV sur votre ordinateur. Pour cela, il faut préparer les fichiers suivants :
- fai: index du fasta
- bai: index des fichiers bam
Nous allons les générer dans l'exercice.
- Se connecter sur un noeud en demandant 4 cpu.
Création des fichiers d’index "fai" pour le génome :
- Aller dans le répertoire de l'index star
- Charger le module samtools et executer la commande
samtools faidx <GENOME.fasta>
- Vérifier qu'un nouveau fichier nommé
.fai
a été crée.
Solutionscd star-index module load bioinfo/samtools-1.9 samtools faidx ITAG2.3_genomic_Ch6.fasta
Indexer les fichiers bam avec
samtools index
.- aller dans le repertoire
~/work/tp_rnaseq
- index chaque fichier bam en utilisant 4 CPU .
Solutionscd ~/work/tp_rnaseq samtools index -@ 4 WTAligned.sortedByCoord.out.bam samtools index -@ 4 MTAligned.sortedByCoord.out.bam
- aller dans le repertoire
Télécharger sur votre ordinateur les fichiers générés
- récupérer les fichiers STAR avec les bouton de download de mobaXterm:
*.bam
et*.bai
- récupérer les fichiers du génome: le fichier fasta, le gtf et le fai
- récupérer les fichiers STAR avec les bouton de download de mobaXterm:
Si non-installé , aller télécharger IGV: http://www.broadinstitute.org/software/igv/download comme décrit dans la page ressources -> prerequis
Lancer IGV et charger les données (voir le mode l'emploi dans la page ressouces -> Visualisation avec IGV).
- Charger le génome (fichier fasta)
- Charger les annotations (fichier gtf)
- Charger les
*Aligned.sortedByCoord.out.bam
Explorer les résultats
Explorez l'interface, utiliser le clic-droit (pour visualiser toutes les isoformes, les paires de lectures associées....)
Regardez les régions suivantes :
- SL2.40ch06:38,479,173-38,483,269
- SL2.40ch06:10,694,176-10,704,838
- Solyc06g009140.2.1
- SL2.40ch06:7,973,823-7,977,708