Quantification des transcripts


Exercice n°7: estimation de l’expression avec RSEM

Si nous voulons faire la quantification sur le nouveau transcriptome, il faut réaliser a nouveau l’alignement car RSEM utilise les alignements sur le transcriptome (*Aligned.toTranscriptome.out.bam) réalisés par STAR. Pour l'exercice nous allons faire la quantification sur l'alignement initial, et donc utiliser l'annotation initiale.

  1. Chercher et charger le module RSEM

    Solution
     $ search_module rsem
     bioinfo/RSEM/1.3.3
     $ module load bioinfo/RSEM/1.3.3
    
  2. Préparation de l’index RSEM Pour estimer l’abondance avec RSEM, il faut un fichier de référence. Préparer la référence à l’aide du programme rsem-prepare-reference

    Rappels du cours:

    module load bioinfo/RSEM/XXX

    rsem-prepare-reference --gtf annot.gtf genome.fasta rsem_lib

    Output files:

    • rsem_lib.grp, rsem_lib.ti, rsem_lib.seq, and rsem_lib.chrlist are for internal use.
    • rsem_lib.idx.fa : the transcript sequences
    • rsem_lib.n2g.idx.fa: same, with N -> G
    Solution
     rsem-prepare-reference --gtf star-index/ITAG_pre2.3_gene_models_Ch6.gtf star-index/ITAG2.3_genomic_Ch6.fasta rsem_index_itag
    
  3. Lancer la quantification à l’aide des options présentées en cours.

    Penser au fait que les calculs lourd doivent être lancer sur le cluster (faire srun ou créer un script pour le lancer en sbatch ) rsem-calculate-expression --paired-end --alignments alignment.bam [...options] rsem_lib quant

    Solution
     rsem-calculate-expression --alignments --no-bam-output --estimate-rspd --calc-ci --seed 12345 -p 4 --ci-memory 3000 --paired-end WTAligned.toTranscriptome.out.bam rsem_index_itag QuantWT
     rsem-calculate-expression --alignments --no-bam-output --estimate-rspd --calc-ci --seed 12345 -p 4 --ci-memory 3000 --paired-end MTAligned.toTranscriptome.out.bam rsem_index_itag QuantMT
    
  4. Création de la matrice de comptage à partir du comptage par gènes.

    Utiliser le script suivant pour créer la matrice de comptage :

    /usr/local/bioinfo/Scripts/bin/merge_cols.py -f Quantif_file1.txt,Quantif_file2.txt -n SampleName1,SampleName2 -c 5 -o matrice.txt
    

    Description des options :

    • -f liste des noms de fichier de comptage séparé par des ',' et sans espace.
    • -n nom des echantillons séparé par des ',' dans le même ordre que les fichiers
    • -c numéro de la colonne contenant le comptage a extraire des fichier
    • -o fichier de sortie.
    Solution
    /usr/local/bioinfo/Scripts/bin/merge_cols.py -f QuantMT.genes.results,QuantWT_Quant.genes.results -n MT,WT -c 5 -o matrice.txt
    

Exercice n°8 : quantification des gènes avec FeatureCounts

Vous pouvez réaliser la quantification brute sur le nouveau transcriptome à l’aide de featureCount.

featureCounts -a transcripts.gtf -o featureCounts.txt -Q 20 sample1.bam sample2.bam ...
  • Charger le module
  • Lancer featureCount avec les deux fichiers d'alignement sur le transcriptome fusionné (merged.gtf).

    Solution
    $ search_module subread
    bioinfo/Subread/2.0.4
    
    $ module load bioinfo/Subread/2.0.4
    
    $ featureCounts -a merged.gtf -o new_transcript_featureCounts.txt -Q 20 WTAligned.sortedByCoord.out.bam MTAligned.sortedByCoord.out.bam
    
  • Afficher le contenu du fichier new_transcript_featureCounts.txt.summary

Exercice n°9 : Synthèse des analyses

results matching ""

    No results matching ""