Mapping


Cours

不支持嵌入的PDF对象: Part2 : Mapping

Exercice n°3: Générer l'index STAR

  1. L’aligneur STAR :

    • Quelle est la version la plus récente disponible sur genobioinfo ?
    Solution
    $ search_module star
    bioinfo/STAR/2.6.1d
    bioinfo/STAR/2.7.10b
    bioinfo/STAR/2.7.5a
    ...
    

    Version 2.7.10b

    • Quelle est la dernière version de STAR disponible sur internet (« rnaSTAR ») ?
  2. Générer l'index STAR à partir du fichier fasta et du gtf :

    • Se connecter a un noeud du cluster en réservant 4 cpu (-c 4)
    • Créer un répertoire star-index et se déplacer dedans.
    • Récupérer la séquence et l’annotation du chromosome 6 (ITAG2.3_genomic_Ch6.fasta & ITAG_pre2.3_gene_models_Ch6.gtf).

      Solution
      srun --pty -c 4 bash
      mkdir star-index
      cd star-index
      wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reference/ITAG2.3_genomic_Ch6.fasta
      wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reference/ITAG_pre2.3_gene_models_Ch6.gtf
      
    • Indexer le génome avec la commande ̀STAR --runMode genomeGenerate .... Avez vous pensé a charger le module ?

      Solution
      module load bioinfo/STAR/2.7.10b
      STAR --runMode genomeGenerate --genomeDir . --genomeFastaFiles ITAG2.3_genomic_Ch6.fasta --runThreadN 4 --sjdbGTFfile ITAG_pre2.3_gene_models_Ch6.gtf
      
    • Lister le contenu du répertoire star-index. A quoi correspondent les nouveaux fichiers ?

      Solution
      $ ls
      chrLength.txt       chrName.txt     exonGeTrInfo.tab  geneInfo.tab  genomeParameters.txt        ITAG_pre2.3_gene_models_Ch6.gtf  SA       sjdbInfo.txt        sjdbList.out.tab
      chrNameLength.txt  chrStart.txt  exonInfo.tab       Genome     ITAG2.3_genomic_Ch6.fasta  Log.out                 SAindex  sjdbList.fromGTF.out.tab    transcriptInfo.tab
      

      Ce sont les fichiers d'index du génome.

  • Se déconnecter du cluster (ctrl+D)

Sur le serveur genobioinfo les génomes sont déjà indexés pour vous dans /bank/STARdb/. Vous pouvez directement les utiliser pour réaliser l'alignement.

Exercice n°4: Réaliser les alignements épissés des données nettoyées

Vous allez réaliser les alignements en soumettant des jobs avec la commande sbatch.

  1. Se positionner dans tp_rnaseq

  2. Créer un fichier par échantillon contenant une ligne de commande STAR comme vu pendant le cours sur les données nettoyées. Voir example de fichier sbash avec toutes les options possibles. Pensez

    Solution MT
    cd ~/work/tp_rnaseq
    

    Fichier de commande scriptSTAR_MT.sh :

    #!/bin/bash
    #SBATCH -J starMT
    #SBATCH -c 4
    #SBATCH -o star_MT.out
    #SBATCH -e star_MT.err
    #SBATCH -t 01:00:00
    #SBATCH --mem 5G
    #SBATCH --mail-type=BEGIN,END,FAIL 
    #Purge any previous modules
    module purge
    module load bioinfo/STAR/2.7.10b
    STAR --genomeDir star-index \
    --readFilesIn cleanMT/MT_rep1_1_Ch6_val_1.fq.gz cleanMT/MT_rep1_2_Ch6_val_2.fq.gz \
    --outFileNamePrefix MT --readFilesCommand zcat \
    --alignIntronMin  20 --alignIntronMax 500000 \
    --outSAMtype BAM SortedByCoordinate \
    --quantMode TranscriptomeSAM GeneCounts \
    --outSAMattributes All --runThreadN 4
    

    Soumission (avec 4 CPU et 5G de ram spécifié dans le fichier) :

    sbatch scriptSTAR_MT.sh
    
    Solution WT

    Fichier de commande scriptSTAR_WT.sh :

    #!/bin/bash
    #SBATCH -J starWT
    #SBATCH -c 4
    #SBATCH -o star_WT.out
    #SBATCH -e star_WT.err
    #SBATCH -t 01:00:00
    #SBATCH --mem 5G
    #SBATCH --mail-type=BEGIN,END,FAIL 
    #Purge any previous modules
    module purge
    module load bioinfo/STAR/2.7.10b
    STAR --genomeDir star-index \
    --readFilesIn cleanWT/WT_rep1_1_Ch6_val_1.fq.gz cleanWT/WT_rep1_2_Ch6_val_2.fq.gz \
    --outFileNamePrefix WT --readFilesCommand zcat \
    --alignIntronMin  20 --alignIntronMax 500000 \
    --outSAMtype BAM SortedByCoordinate \
    --quantMode TranscriptomeSAM GeneCounts \
    --outSAMattributes All --runThreadN 4
    

    Soumission (avec 4 CPU et 5G de ram spécifié dans le fichier):

     sbatch scriptSTAR_WT.sh
    
  3. Lancer l’exécution sur le cluster avec la commande sbatch.

  4. Vérifier que votre job tourne sur le cluster et est lancé sur 4 CPU (squeue)

  5. Combien de read sont alignés de façon unique et de façon multiple ? (voir Log.final.out)

    Solutions

    Q3.

     sbatch scriptSTAR_WT.sh
     sbatch scriptSTAR_MT.sh
    

    Q4.

     squeue -u $USER
    

    Q5.

     less Log.final.out
    

Exercice n°5: Visualisation

La visualisation va se réaliser à l'aide de IGV sur votre ordinateur. Pour cela, il faut préparer les fichiers suivants :

  • fai: index du fasta
  • bai: index des fichiers bam

Nous allons les générer dans l'exercice.

  1. Se connecter sur un noeud en demandant 4 cpu.
  2. Création des fichiers d’index "fai" pour le génome :

    • Aller dans le répertoire de l'index star
    • Charger le module samtools et executer la commande samtools faidx <GENOME.fasta>
    • Vérifier qu'un nouveau fichier nommé .fai a été crée.
    Solutions
    cd star-index
    module load bioinfo/samtools/1.19
    samtools faidx ITAG2.3_genomic_Ch6.fasta
    
  3. Indexer les fichiers bam avec samtools index.

    • aller dans le repertoire ~/work/tp_rnaseq
    • index chaque fichier bam en utilisant 4 CPU .
    Solutions
    cd ~/work/tp_rnaseq
    samtools index -@ 4 WTAligned.sortedByCoord.out.bam
    samtools index -@ 4 MTAligned.sortedByCoord.out.bam
    
  4. Télécharger sur votre ordinateur les fichiers générés

    • récupérer les fichiers STAR avec les bouton de download de mobaXterm: *.bam et *.bai
    • récupérer les fichiers du génome: le fichier fasta, le gtf et le fai
  5. Si non-installé , aller télécharger IGV: http://www.broadinstitute.org/software/igv/download comme décrit dans la page ressources -> prerequis

  6. Lancer IGV et charger les données (voir le mode l'emploi dans la page ressouces -> Visualisation avec IGV).

    • Charger le génome (fichier fasta)
    • Charger les annotations (fichier gtf)
    • Charger les *Aligned.sortedByCoord.out.bam
  7. Explorer les résultats

    • Explorez l'interface, utiliser le clic-droit (pour visualiser toutes les isoformes, les paires de lectures associées....)

    • Regardez les régions suivantes :

      • SL2.40ch06:38,479,173-38,483,269
      • SL2.40ch06:10,694,176-10,704,838
      • Solyc06g009140.2.1
      • SL2.40ch06:7,973,823-7,977,708

results matching ""

    No results matching ""