Quality check
Cours
Exercice n°1: Quality control and cleaning
Se connecter sur le serveur
genologin.toulouse.inra.fr
suivre les indications de la page ressources -> Connexion SSH avec PuttySur
genologin
, créer dans votre répertoirework
, un répertoire de travail:tp_rnaseq
.Solutioncd work mkdir tp_rnaseq cd tp_rnaseq
Récupérer les lectures re-formatées pour l'étude du chromosome 6 de la Tomate depuis la page http://genoweb.toulouse.inra.fr/~formation/19_Rnaseq_Cli/data/ (sous répertoire reads puis contient 4 fichiers fastq)
Vous pouvez télécharger les fichiers fastq directement sur votre compte
genologin
en utilisant la commandewget
depuis genologin (en copiant l'adresse du lien et coller), penser à vous placer dans le répertoire correspondant sur genologin.Vérifier que les fichiers sont présent.
Solutionwget http://genoweb.toulouse.inra.fr/~formation/19_Rnaseq_Cli/data/reads/MT_rep1_1_Ch6.fastq.gz wget http://genoweb.toulouse.inra.fr/~formation/19_Rnaseq_Cli/data/reads/MT_rep1_2_Ch6.fastq.gz wget http://genoweb.toulouse.inra.fr/~formation/19_Rnaseq_Cli/data/reads/WT_rep1_1_Ch6.fastq.gz wget http://genoweb.toulouse.inra.fr/~formation/19_Rnaseq_Cli/data/reads/WT_rep1_2_Ch6.fastq.gz
Vérifier que les fichiers sont présent:
$ ls MT_rep1_1_Ch6.fastq.gz WT_rep1_1_Ch6.fastq.gz MT_rep1_2_Ch6.fastq.gz WT_rep1_2_Ch6.fastq.gz
Lancer les 4 analyses fastqc en parallele, pour cela suivre les indications suivantes:
- Trouver le module à charger (
search_module NOM_LOGICIEL
) et charger la derniere version du module - Trouver la syntaxe de la commande (
--help
? ou site web du logiciel) - Créer un fichier
mesfastqc.cmd
contenant les 4 commandes à la suite.
Solution$ search_module fastqc bioinfo/FastQC_v0.11.2 bioinfo/FastQC_v0.11.5 bioinfo/FastQC_v0.11.7 $ module load bioinfo/FastQC_v0.11.7
$ fastqc --help FastQC - A high throughput sequence QC analysis tool SYNOPSIS fastqc seqfile1 seqfile2 .. seqfileN fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN DESCRIPTION FastQC reads a set of sequence files and produces from each one a quality control report consisting of a number of different modules, each one of which will help to identify a different potential type of problem in your data. ...
Créer le fichier avec l'editeur geany:
geany mesfastqc.cmd &
Saisir les lignes suivantes:
module load bioinfo/FastQC_v0.11.7 ; fastqc MT_rep1_1_Ch6.fastq.gz module load bioinfo/FastQC_v0.11.7 ; fastqc WT_rep1_1_Ch6.fastq.gz module load bioinfo/FastQC_v0.11.7 ; fastqc MT_rep1_2_Ch6.fastq.gz module load bioinfo/FastQC_v0.11.7 ; fastqc WT_rep1_2_Ch6.fastq.gz
- Lancer les 4 fastqc en parallèle à l'aide de la commande
sarray nom_fichier_commande
- Suivre l'avancement des jobs avec la commande
squeue -u UNSERNAME
Solutionsarray -t 01:00 mesfastqc.cmd
Puis
squeue -u USERNAME
- Trouver le module à charger (
Pour synthétiser les 4 résultats fastqc dans un seul rapport, utiliser le logiciel multiqc.
- Se mettre sur un noeud avec
srun
- Charger le module multiqc
- Lancer la commande
multiqc -m fastqc .
Solution$ srun --pty bash $ search_module multiqc bioinfo/MultiQC-v1.11 bioinfo/multiqc-v1.5 bioinfo/MultiQC-v1.7 $ module load bioinfo/MultiQC-v1.11
Puis
multiqc -m fastqc .
- Se mettre sur un noeud avec
Visualiser le rapport html vous avez plusieurs possibilité :
- Le télécharger en local
- Le déposer dans le repertoire /home/$USER/public_html multiqc (en utilisant le public_html) et le rendre accessible à l'adresse web http://genoweb.toulouse.inra.fr/~USERNAME
Voici la procedure pour utiliser le public_html:
- Creer un répertoire pour mettre les fichiers qui seront accessible via le web:
$ mkdir -p /home/$USER/save/public_html $ ln -s /save/$USER/public_html /home/$USER/public_html $ chmod a+x /save/$USER ; chmod 755 /save/$USER/public_html ;
- Copier le rapport multiQC
multiqc_report.html
dans votre/home/$USER/public_html
et un rapport fastqcWT_rep1_2_Ch6_fastqc.html
cp multiqc_report.html ~/public_html/ cp WT_rep1_2_Ch6_fastqc.html ~/public_html/
- Accéder via un navigateur à la page http://genoweb.toulouse.inra.fr/~USERNAME et visualiser les deux fichiers html
Quelle est la longueur des lectures ? Quelle est la qualité du séquençage ? Regarder les résultats concernant les biais décrits lors du cours, lesquels retrouve-t-on ?
Solution- Quelle est la longueur des lectures ? 101
- Quelle est la qualité du séquençage ? Bonne, très peu de sequences ont une mauvaise qualité en 5'
- Regarder les résultats concernant les biais décrits lors du cours, lesquels retrouve-t-on ?
- hexamer random priming
Exercice n°2 : Nettoyage des adaptateurs
Aller sur la page de la plateforme http://bioinfo.genotoul.fr/ -> ressources -> software Rechercher le logiciel
trim_galore
, visualiser le contenu du « How_to_use »Sur genologin, regarder le fichier de test situé dans le répertoire « example_on_cluster » de trim_galore.
Solution$ more /usr/local/bioinfo/src/TrimGalore/example_on_cluster/TrimGalore-0.6.5/test_TrimGalore-0.6.5.sh #!/bin/bash #SBATCH -p workq #SBATCH -t 10 #minutes #Load binaries module load bioinfo/TrimGalore-0.6.5 module load bioinfo/cutadapt-2.1 module load bioinfo/FastQC_v0.11.5 trim_galore --fastqc --gzip -o test illumina_100K.fastq.gz
Créer un fichier de commande en vous inspirant de ce modèle, de la page « How_to_use » et du cours pour les paires de sequences MT et pour les paires de séquences WT.
SolutionFichier pour MT:
$ more trim_galore_MT.sh #!/bin/bash #SBATCH -p workq #SBATCH -t 10 #minutes #Load binaries module load bioinfo/TrimGalore-0.6.5 module load bioinfo/cutadapt-2.1 module load bioinfo/FastQC_v0.11.5 trim_galore --fastqc --gzip --trim-n -o cleanMT --paired MT_rep1_1_Ch6.fastq.gz MT_rep1_2_Ch6.fastq.gz
Fichier pour WT:
$ more trim_galore_WT.sh #!/bin/bash #SBATCH -p workq #SBATCH -t 10 #minutes #Load binaries module load bioinfo/TrimGalore-0.6.5 module load bioinfo/cutadapt-2.1 module load bioinfo/FastQC_v0.11.5 trim_galore --fastqc --gzip --trim-n -o cleanWT --paired WT_rep1_1_Ch6.fastq.gz WT_rep1_2_Ch6.fastq.gz
Option TP avancé: si vous souhaitez générer le fichier de commande en utilisant une boucle bash vous pouvez utiliser la commande suivante qui va pour chaque paire de fichier fastq écrire une ligne:
for r1 in `ls *_1_Ch6.fastq.gz`; do ech=${r1%*_1_Ch6.fastq.gz}; r2=${i/_1_/_2_} ; echo "$ech: $r1 $r2" ; done
En modifiant le texte entre cote
"$ech: $r1 $r2"
, vous pouvez ecrire la ligne de commande que vous souhaitez.Solutionfor i in $(ls *1_Ch6.fastq.gz); do ech=${i%.fastq.gz}; r2=${i/_1_/_2_} ; echo "module load bioinfo/cutadapt-2.1; module load bioinfo/FastQC_v0.11.5; module load bioinfo/TrimGalore-0.6.5; trim_galore --fastqc --gzip --trim-n -o $ech --paired $i $r2" ; done
Lancer les commandes sur le cluster.
Solution$ sbatch trim_galore_MT.sh $ sbatch trim_galore_WT.sh
Regarder un résultat fastqc issus de trim_galore.
SolutionLa taille des séquences a diminué pour une partie des reads.