Quality check


Cours

Exercice n°1: Quality control and cleaning

  1. Se connecter sur le serveur genobioinfo.toulouse.inrae.fr suivre les indications de la page ressources -> Connexion SSH avec Putty

  2. Sur genobioinfo, créer dans votre répertoire work, un répertoire de travail: tp_rnaseq.

    Solution
    cd work
    mkdir tp_rnaseq
    cd tp_rnaseq
    
  3. Récupérer les lectures re-formatées pour l'étude du chromosome 6 de la Tomate depuis la page http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/ (sous répertoire reads puis contient 4 fichiers fastq)

    Vous pouvez télécharger les fichiers fastq directement sur votre compte genobioinfo en utilisant la commande wget depuis genobioinfo (en copiant l'adresse du lien et coller), penser à vous placer dans le répertoire correspondant sur genobioinfo.

    Vérifier que les fichiers sont présent.

    Solution
    wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reads/MT_rep1_1_Ch6.fastq.gz
    wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reads/MT_rep1_2_Ch6.fastq.gz
    wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reads/WT_rep1_1_Ch6.fastq.gz
    wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reads/WT_rep1_2_Ch6.fastq.gz
    

    Vérifier que les fichiers sont présent:

    $ ls
    MT_rep1_1_Ch6.fastq.gz  WT_rep1_1_Ch6.fastq.gz
    MT_rep1_2_Ch6.fastq.gz  WT_rep1_2_Ch6.fastq.gz
    
  4. Lancer les 4 analyses fastqc en parallele, pour cela suivre les indications suivantes:

    • Trouver le module à charger (search_module NOM_LOGICIEL) et charger la derniere version du module
    • Trouver la syntaxe de la commande (--help ? ou site web du logiciel)
    • Créer un fichier mesfastqc.cmd contenant les 4 commandes à la suite.
    Solution
    $ search_module fastqc
    bioinfo/FastQC/0.12.1
    $ module load bioinfo/FastQC/0.12.1
    
    $ fastqc --help
             FastQC - A high throughput sequence QC analysis tool
    SYNOPSIS
     fastqc seqfile1 seqfile2 .. seqfileN
     fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] 
            [-c contaminant file] seqfile1 .. seqfileN
    DESCRIPTION
     FastQC reads a set of sequence files and produces from each one a quality
     control report consisting of a number of different modules, each one of 
     which will help to identify a different potential type of problem in your
     data.
    ...
    

    Créer le fichier avec l'editeur geany:

    geany mesfastqc.cmd &
    

    Saisir les lignes suivantes:

    module load bioinfo/FastQC/0.12.1 ; fastqc MT_rep1_1_Ch6.fastq.gz  
    module load bioinfo/FastQC/0.12.1 ; fastqc WT_rep1_1_Ch6.fastq.gz
    module load bioinfo/FastQC/0.12.1 ; fastqc MT_rep1_2_Ch6.fastq.gz  
    module load bioinfo/FastQC/0.12.1 ; fastqc WT_rep1_2_Ch6.fastq.gz
    
    • Lancer les 4 fastqc en parallèle à l'aide de la commande sarray nom_fichier_commande
    • Suivre l'avancement des jobs avec la commande squeue -u UNSERNAME
    Solution
    sarray -t 01:00 mesfastqc.cmd
    

    Puis

    squeue -u USERNAME
    
  5. Pour synthétiser les 4 résultats fastqc dans un seul rapport, utiliser le logiciel multiqc.

    • Se mettre sur un noeud avec srun
    • Charger le module multiqc
    • Lancer la commande multiqc -m fastqc .
    Solution
    $ srun --pty bash
    $ search_module multiqc
    bioinfo/MultiQC/1.14
    bioinfo/MultiQC/1.19
    $ module load bioinfo/MultiQC/1.19
    

    Puis

    multiqc -m fastqc .
    
  6. Visualiser le rapport html vous avez plusieurs possibilité :

    Voici la procedure pour utiliser le public_html:

    • Creer un répertoire pour mettre les fichiers qui seront accessible via le web:
      $ mkdir -p /home/$USER/save/public_html
      $ ln -s /save/user/$USER/public_html /home/$USER/public_html
      $ chmod a+x /save/user/$USER ; chmod 755 /save/user/$USER/public_html ;
      
    • Copier le rapport multiQC multiqc_report.html dans votre /home/$USER/public_html et un rapport fastqc WT_rep1_2_Ch6_fastqc.html
      cp multiqc_report.html ~/public_html/
      cp WT_rep1_2_Ch6_fastqc.html ~/public_html/
      
    • Accéder via un navigateur à la page http://web-genobioinfo.toulouse.inrae.fr/~USERNAME et visualiser les deux fichiers html
  7. Quelle est la longueur des lectures ? Quelle est la qualité du séquençage ? Regarder les résultats concernant les biais décrits lors du cours, lesquels retrouve-t-on ?

    Solution
    • Quelle est la longueur des lectures ? 101
    • Quelle est la qualité du séquençage ? Bonne, très peu de sequences ont une mauvaise qualité en 5'
    • Regarder les résultats concernant les biais décrits lors du cours, lesquels retrouve-t-on ?
    • hexamer random priming

Exercice n°2 : Nettoyage des adaptateurs

  1. Aller sur la page de la plateforme http://bioinfo.genotoul.fr/ -> ressources -> software Rechercher le logiciel trim_galore, visualiser le contenu du « How_to_use »

  2. Sur genobioinfo, regarder le fichier de test situé dans le répertoire « example_on_cluster » de trim_galore.

    Solution
    $ more /usr/local/bioinfo/src/TrimGalore/example_on_cluster/test_TrimGalore-0.6.10.sh
    #!/bin/bash
    #SBATCH -p workq
    #SBATCH -t 01:00:00 #Acceptable time formats include "minutes", "minutes:seconds", "hours:minutes:seconds", "days-hours", "days-hours:minutes" and "days-hours:minutes:seconds". 
    
    #Load modules
    #Need cutadapt (in Python-3.11.1) and FastQC
    module load devel/python/Python-3.11.1 bioinfo/FastQC/0.12.1
    
    module load bioinfo/TrimGalore/0.6.10
    
    trim_galore --fastqc --gzip -o test illumina_100K.fastq.gz
    
  3. Créer un fichier de commande en vous inspirant de ce modèle, de la page « How_to_use » et du cours pour les paires de sequences MT et pour les paires de séquences WT.

    Solution

    Fichier pour MT:

    $ more trim_galore_MT.sh
    #!/bin/bash
    #SBATCH -p workq
    #SBATCH -t 10 #minutes
    
    #Load binaries
    module load devel/python/Python-3.11.1 bioinfo/FastQC/0.12.1
    
    trim_galore --fastqc --gzip --trim-n -o cleanMT --paired MT_rep1_1_Ch6.fastq.gz MT_rep1_2_Ch6.fastq.gz
    

    Fichier pour WT:

    $ more trim_galore_WT.sh
    #!/bin/bash
    #SBATCH -p workq
    #SBATCH -t 10 #minutes
    
    #Load binaries
    module load devel/python/Python-3.11.1 bioinfo/FastQC/0.12.1
    
    trim_galore --fastqc --gzip --trim-n -o cleanWT --paired WT_rep1_1_Ch6.fastq.gz WT_rep1_2_Ch6.fastq.gz
    

    Option TP avancé: si vous souhaitez générer le fichier de commande en utilisant une boucle bash vous pouvez utiliser la commande suivante qui va pour chaque paire de fichier fastq écrire une ligne:

    for r1 in `ls *_1_Ch6.fastq.gz`; do ech=${r1%*_1_Ch6.fastq.gz}; r2=${i/_1_/_2_} ; echo "$ech: $r1 $r2" ; done
    

    En modifiant le texte entre cote "$ech: $r1 $r2", vous pouvez ecrire la ligne de commande que vous souhaitez.

    Solution
    for i in $(ls *1_Ch6.fastq.gz); do ech=${i%.fastq.gz}; r2=${i/_1_/_2_} ; echo "module load bioinfo/TrimGalore/0.6.10; module load bioinfo/Cutadapt/4.3; module load bioinfo/FastQC/0.12.1; trim_galore --fastqc --gzip --trim-n -o $ech --paired $i $r2" ; done
    
  4. Lancer les commandes sur le cluster.

    Solution
    $ sbatch trim_galore_MT.sh
    $ sbatch trim_galore_WT.sh
    
  5. Regarder un résultat fastqc issus de trim_galore.

    Solution

    La taille des séquences a diminué pour une partie des reads.

results matching ""

    No results matching ""