Mapping

Cours

Exercice n°3: Générer l'index STAR

L’aligneur STAR :
- Quelle est la version la plus récente disponible sur genobioinfo ?
Solution
```
$ search_module star
bioinfo/STAR/2.6.1d
bioinfo/STAR/2.7.10b
bioinfo/STAR/2.7.5a
...
```
Version 2.7.10b
- Quelle est la dernière version de STAR disponible sur internet (« rnaSTAR ») ?
Solution

2.7.11b

https://github.com/alexdobin/STAR/tags

Générer l'index STAR à partir du fichier fasta et du gtf :

Se connecter a un noeud du cluster en réservant 4 cpu (-c 4)
Créer un répertoire star-index et se déplacer dedans.

Récupérer la séquence et l’annotation du chromosome 6 (ITAG2.3_genomic_Ch6.fasta & ITAG_pre2.3_gene_models_Ch6.gtf).

Solution

srun --pty -c 4 bash
mkdir star-index
cd star-index
wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reference/ITAG2.3_genomic_Ch6.fasta
wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reference/ITAG_pre2.3_gene_models_Ch6.gtf

Indexer le génome avec la commande ̀STAR --runMode genomeGenerate .... Avez vous pensé a charger le module ?

Solution

module load bioinfo/STAR/2.7.10b
STAR --runMode genomeGenerate --genomeDir . --genomeFastaFiles ITAG2.3_genomic_Ch6.fasta --runThreadN 4 --sjdbGTFfile ITAG_pre2.3_gene_models_Ch6.gtf

Lister le contenu du répertoire star-index. A quoi correspondent les nouveaux fichiers ?

Solution

$ ls
chrLength.txt       chrName.txt     exonGeTrInfo.tab  geneInfo.tab  genomeParameters.txt        ITAG_pre2.3_gene_models_Ch6.gtf  SA       sjdbInfo.txt        sjdbList.out.tab
chrNameLength.txt  chrStart.txt  exonInfo.tab       Genome     ITAG2.3_genomic_Ch6.fasta  Log.out                 SAindex  sjdbList.fromGTF.out.tab    transcriptInfo.tab

Ce sont les fichiers d'index du génome.

Se déconnecter du cluster (ctrl+D)

Sur le serveur genobioinfo les génomes sont déjà indexés pour vous dans /bank/STARdb/. Vous pouvez directement les utiliser pour réaliser l'alignement.

Exercice n°4: Réaliser les alignements épissés des données nettoyées

Vous allez réaliser les alignements en soumettant des jobs avec la commande sbatch.

Se positionner dans tp_rnaseq

Créer un fichier par échantillon contenant une ligne de commande STAR comme vu pendant le cours sur les données nettoyées. Voir example de fichier sbash avec toutes les options possibles. Pensez

Solution MT

cd ~/work/tp_rnaseq

Fichier de commande scriptSTAR_MT.sh :

#!/bin/bash
#SBATCH -J starMT
#SBATCH -c 4
#SBATCH -o star_MT.out
#SBATCH -e star_MT.err
#SBATCH -t 01:00:00
#SBATCH --mem 5G
#SBATCH --mail-type=BEGIN,END,FAIL 
#Purge any previous modules
module purge
module load bioinfo/STAR/2.7.10b
STAR --genomeDir star-index \
--readFilesIn cleanMT/MT_rep1_1_Ch6_val_1.fq.gz cleanMT/MT_rep1_2_Ch6_val_2.fq.gz \
--outFileNamePrefix MT --readFilesCommand zcat \
--alignIntronMin  20 --alignIntronMax 500000 \
--outSAMtype BAM SortedByCoordinate \
--quantMode TranscriptomeSAM GeneCounts \
--outSAMattributes All --runThreadN 4

Soumission (avec 4 CPU et 5G de ram spécifié dans le fichier) :

sbatch scriptSTAR_MT.sh

Solution WT

Fichier de commande scriptSTAR_WT.sh :

#!/bin/bash
#SBATCH -J starWT
#SBATCH -c 4
#SBATCH -o star_WT.out
#SBATCH -e star_WT.err
#SBATCH -t 01:00:00
#SBATCH --mem 5G
#SBATCH --mail-type=BEGIN,END,FAIL 
#Purge any previous modules
module purge
module load bioinfo/STAR/2.7.10b
STAR --genomeDir star-index \
--readFilesIn cleanWT/WT_rep1_1_Ch6_val_1.fq.gz cleanWT/WT_rep1_2_Ch6_val_2.fq.gz \
--outFileNamePrefix WT --readFilesCommand zcat \
--alignIntronMin  20 --alignIntronMax 500000 \
--outSAMtype BAM SortedByCoordinate \
--quantMode TranscriptomeSAM GeneCounts \
--outSAMattributes All --runThreadN 4

Soumission (avec 4 CPU et 5G de ram spécifié dans le fichier):

 sbatch scriptSTAR_WT.sh

Lancer l’exécution sur le cluster avec la commande sbatch.
Vérifier que votre job tourne sur le cluster et est lancé sur 4 CPU (squeue)
Combien de read sont alignés de façon unique et de façon multiple ? (voir Log.final.out)
Solutions
Q3.
```
 sbatch scriptSTAR_WT.sh
 sbatch scriptSTAR_MT.sh
```
Q4.
```
 squeue -u $USER
```
Q5.
```
 less Log.final.out
```

Exercice n°5: Visualisation

La visualisation va se réaliser à l'aide de IGV sur votre ordinateur. Pour cela, il faut préparer les fichiers suivants :

fai: index du fasta
bai: index des fichiers bam

Nous allons les générer dans l'exercice.

Se connecter sur un noeud en demandant 4 cpu.
Création des fichiers d’index "fai" pour le génome :
- Aller dans le répertoire de l'index star
- Charger le module samtools et executer la commande samtools faidx <GENOME.fasta>
- Vérifier qu'un nouveau fichier nommé .fai a été crée.
Solutions
```
cd star-index
module load bioinfo/samtools/1.19
samtools faidx ITAG2.3_genomic_Ch6.fasta
```
Indexer les fichiers bam avec samtools index.
- aller dans le repertoire ~/work/tp_rnaseq
- index chaque fichier bam en utilisant 4 CPU .
Solutions
```
cd ~/work/tp_rnaseq
samtools index -@ 4 WTAligned.sortedByCoord.out.bam
samtools index -@ 4 MTAligned.sortedByCoord.out.bam
```
Télécharger sur votre ordinateur les fichiers générés
- récupérer les fichiers STAR avec les bouton de download de mobaXterm: *.bam et *.bai
- récupérer les fichiers du génome: le fichier fasta, le gtf et le fai
Si non-installé , aller télécharger IGV: http://www.broadinstitute.org/software/igv/download comme décrit dans la page ressources -> prerequis
Lancer IGV et charger les données (voir le mode l'emploi dans la page ressouces -> Visualisation avec IGV).
- Charger le génome (fichier fasta)
- Charger les annotations (fichier gtf)
- Charger les *Aligned.sortedByCoord.out.bam
Explorer les résultats
- Explorez l'interface, utiliser le clic-droit (pour visualiser toutes les isoformes, les paires de lectures associées....)
- Regardez les régions suivantes :
  - SL2.40ch06:38,479,173-38,483,269
  - SL2.40ch06:10,694,176-10,704,838
  - Solyc06g009140.2.1
  - SL2.40ch06:7,973,823-7,977,708

II. Mapping

Mapping

Cours

Exercice n°3: Générer l'index STAR

Exercice n°4: Réaliser les alignements épissés des données nettoyées

Exercice n°5: Visualisation

results matching ""

No results matching ""