Quantification des transcripts

Exercice n°7: estimation de l’expression avec RSEM

Si nous voulons faire la quantification sur le nouveau transcriptome, il faut réaliser a nouveau l’alignement car RSEM utilise les alignements sur le transcriptome (*Aligned.toTranscriptome.out.bam) réalisés par STAR. Pour l'exercice nous allons faire la quantification sur l'alignement initial, et donc utiliser l'annotation initiale.

Chercher et charger le module RSEM

Solution

 $ search_module rsem
 bioinfo/RSEM/1.3.3
 $ module load bioinfo/RSEM/1.3.3

Préparation de l’index RSEM Pour estimer l’abondance avec RSEM, il faut un fichier de référence. Préparer la référence à l’aide du programme rsem-prepare-reference
Rappels du cours:

module load bioinfo/RSEM/XXX

rsem-prepare-reference --gtf annot.gtf genome.fasta rsem_lib

Output files:
- rsem_lib.grp, rsem_lib.ti, rsem_lib.seq, and rsem_lib.chrlist are for internal use.
- rsem_lib.idx.fa : the transcript sequences
- rsem_lib.n2g.idx.fa: same, with N -> G
Solution
```
 rsem-prepare-reference --gtf star-index/ITAG_pre2.3_gene_models_Ch6.gtf star-index/ITAG2.3_genomic_Ch6.fasta rsem_index_itag
```

Lancer la quantification à l’aide des options présentées en cours.

Penser au fait que les calculs lourd doivent être lancer sur le cluster (faire srun ou créer un script pour le lancer en sbatch ) rsem-calculate-expression --paired-end --alignments alignment.bam [...options] rsem_lib quant

Solution

 rsem-calculate-expression --alignments --no-bam-output --estimate-rspd --calc-ci --seed 12345 -p 4 --ci-memory 3000 --paired-end WTAligned.toTranscriptome.out.bam rsem_index_itag QuantWT
 rsem-calculate-expression --alignments --no-bam-output --estimate-rspd --calc-ci --seed 12345 -p 4 --ci-memory 3000 --paired-end MTAligned.toTranscriptome.out.bam rsem_index_itag QuantMT

Création de la matrice de comptage à partir du comptage par gènes.
Utiliser le script suivant pour créer la matrice de comptage :
```
/usr/local/bioinfo/Scripts/bin/merge_cols.py -f Quantif_file1.txt,Quantif_file2.txt -n SampleName1,SampleName2 -c 5 -o matrice.txt
```
Description des options :
- -f liste des noms de fichier de comptage séparé par des ',' et sans espace.
- -n nom des echantillons séparé par des ',' dans le même ordre que les fichiers
- -c numéro de la colonne contenant le comptage a extraire des fichier
- -o fichier de sortie.
Solution
```
/usr/local/bioinfo/Scripts/bin/merge_cols.py -f QuantMT.genes.results,QuantWT_Quant.genes.results -n MT,WT -c 5 -o matrice.txt
```

Exercice n°8 : quantification des gènes avec FeatureCounts

Vous pouvez réaliser la quantification brute sur le nouveau transcriptome à l’aide de featureCount.

featureCounts -a transcripts.gtf -o featureCounts.txt -Q 20 sample1.bam sample2.bam ...

Charger le module

Lancer featureCount avec les deux fichiers d'alignement sur le transcriptome fusionné (merged.gtf).

Solution

$ search_module subread
bioinfo/Subread/2.0.4

$ module load bioinfo/Subread/2.0.4

$ featureCounts -a merged.gtf -o new_transcript_featureCounts.txt -Q 20 WTAligned.sortedByCoord.out.bam MTAligned.sortedByCoord.out.bam

Afficher le contenu du fichier new_transcript_featureCounts.txt.summary

Exercice n°9 : Synthèse des analyses

Lancer un multiQC sur le repertoire de tp sans option : multiqc .
Copier le fichier multiqc_report.html dans le public_html.
Consulter la page http://web-genobioinfo.toulouse.inra.fr/~USERNAME/multiqc_report.html
Visualiser les fichiers contenu dans le repertoire multiqc_data

IV. Quantification

Quantification des transcripts

Exercice n°7: estimation de l’expression avec RSEM

Exercice n°8 : quantification des gènes avec FeatureCounts

Exercice n°9 : Synthèse des analyses

results matching ""

No results matching ""