Quantification des transcripts
Exercice n°7: estimation de l’expression avec RSEM
Si nous voulons faire la quantification sur le nouveau transcriptome, il faut réaliser a nouveau l’alignement car RSEM utilise les alignements sur le transcriptome (*Aligned.toTranscriptome.out.bam) réalisés par STAR. Pour l'exercice nous allons faire la quantification sur l'alignement initial, et donc utiliser l'annotation initiale.
Chercher et charger le module RSEM
Solution$ search_module rsem bioinfo/RSEM-1.3.0 bioinfo/RSEM-1.3.3 $ module load bioinfo/RSEM-1.3.3
Préparation de l’index RSEM Pour estimer l’abondance avec RSEM, il faut un fichier de référence. Préparer la référence à l’aide du programme
rsem-prepare-reference
Rappels du cours:
module load bioinfo/RSEM-XXX
rsem-prepare-reference --gtf annot.gtf genome.fasta rsem_lib
Output files:
rsem_lib.grp, rsem_lib.ti, rsem_lib.seq, and rsem_lib.chrlist
are for internal use.rsem_lib.idx.fa
: the transcript sequencesrsem_lib.n2g.idx.fa
: same, with N -> G
Solutionrsem-prepare-reference --gtf star-index/ITAG_pre2.3_gene_models_Ch6.gtf star-index/ITAG2.3_genomic_Ch6.fasta rsem_index_itag
Lancer la quantification à l’aide des options présentées en cours.
Penser au fait que les calculs lourd doivent être lancer sur le cluster (faire
srun
ou créer un script pour le lancer ensbatch
)rsem-calculate-expression --paired-end --alignments alignment.bam [...options] rsem_lib quant
Solutionrsem-calculate-expression --alignments --no-bam-output --estimate-rspd --calc-ci --seed 12345 -p 4 --ci-memory 3000 --paired-end WTAligned.toTranscriptome.out.bam rsem_index_itag QuantWT rsem-calculate-expression --alignments --no-bam-output --estimate-rspd --calc-ci --seed 12345 -p 4 --ci-memory 3000 --paired-end MTAligned.toTranscriptome.out.bam rsem_index_itag QuantMT
Création de la matrice de comptage à partir du comptage par gènes.
Utiliser le script suivant pour créer la matrice de comptage :
/usr/local/bioinfo/Scripts/bin/merge_cols.py -f Quantif_file1.txt,Quantif_file2.txt -n SampleName1,SampleName2 -c 5 -o matrice.txt
Description des options :
- -f liste des noms de fichier de comptage séparé par des ',' et sans espace.
- -n nom des echantillons séparé par des ',' dans le même ordre que les fichiers
- -c numéro de la colonne contenant le comptage a extraire des fichier
- -o fichier de sortie.
Solution/usr/local/bioinfo/Scripts/bin/merge_cols.py -f QuantMT.genes.results,QuantWT_Quant.genes.results -n MT,WT -c 5 -o matrice.txt
Exercice n°8 : quantification des gènes avec FeatureCounts
Vous pouvez réaliser la quantification brute sur le nouveau transcriptome à l’aide de featureCount.
featureCounts -a transcripts.gtf -o featureCounts.txt -Q 20 sample1.bam sample2.bam ...
- Charger le module
Lancer featureCount avec les deux fichiers d'alignement sur le transcriptome fusionné (
merged.gtf
).Solution$ search_module subread bioinfo/subread-1.6.0 $ module load bioinfo/subread-1.6.0 $ featureCounts -a merged.gtf -o new_transcript_featureCounts.txt -Q 20 WTAligned.sortedByCoord.out.bam MTAligned.sortedByCoord.out.bam
Afficher le contenu du fichier
new_transcript_featureCounts.txt.summary
Exercice n°9 : Synthèse des analyses
- Lancer un multiQC sur le repertoire de tp sans option :
multiqc .
- Copier le fichier
multiqc_report.html
dans lepublic_html
. - Consulter la page http://genoweb.toulouse.inra.fr/~USERNAME/multiqc_report.html
- Visualiser les fichiers contenu dans le repertoire
multiqc_data