Quality check

Cours

Exercice n°1: Quality control and cleaning

Se connecter sur le serveur genobioinfo.toulouse.inrae.fr suivre les indications de la page ressources -> Connexion SSH avec Putty
Sur genobioinfo, créer dans votre répertoire work, un répertoire de travail: tp_rnaseq.
Solution
```
cd work
mkdir tp_rnaseq
cd tp_rnaseq
```
Récupérer les lectures re-formatées pour l'étude du chromosome 6 de la Tomate depuis la page http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/ (sous répertoire reads puis contient 4 fichiers fastq)

Vous pouvez télécharger les fichiers fastq directement sur votre compte genobioinfo en utilisant la commande wget depuis genobioinfo (en copiant l'adresse du lien et coller), penser à vous placer dans le répertoire correspondant sur genobioinfo.

Vérifier que les fichiers sont présent.
Solution
```
wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reads/MT_rep1_1_Ch6.fastq.gz
wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reads/MT_rep1_2_Ch6.fastq.gz
wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reads/WT_rep1_1_Ch6.fastq.gz
wget http://web-genobioinfo.toulouse.inrae.fr/~formation/19_Rnaseq_Cli/data/reads/WT_rep1_2_Ch6.fastq.gz
```
Vérifier que les fichiers sont présent:
```
$ ls
MT_rep1_1_Ch6.fastq.gz  WT_rep1_1_Ch6.fastq.gz
MT_rep1_2_Ch6.fastq.gz  WT_rep1_2_Ch6.fastq.gz
```

Lancer les 4 analyses fastqc en parallele, pour cela suivre les indications suivantes:

Trouver le module à charger (search_module NOM_LOGICIEL) et charger la derniere version du module
Trouver la syntaxe de la commande (--help ? ou site web du logiciel)
Créer un fichier mesfastqc.cmd contenant les 4 commandes à la suite.

Solution

$ search_module fastqc
bioinfo/FastQC/0.12.1
$ module load bioinfo/FastQC/0.12.1

$ fastqc --help
         FastQC - A high throughput sequence QC analysis tool
SYNOPSIS
 fastqc seqfile1 seqfile2 .. seqfileN
 fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] 
        [-c contaminant file] seqfile1 .. seqfileN
DESCRIPTION
 FastQC reads a set of sequence files and produces from each one a quality
 control report consisting of a number of different modules, each one of 
 which will help to identify a different potential type of problem in your
 data.
...

Créer le fichier avec l'editeur geany:

geany mesfastqc.cmd &

Saisir les lignes suivantes:

module load bioinfo/FastQC/0.12.1 ; fastqc MT_rep1_1_Ch6.fastq.gz  
module load bioinfo/FastQC/0.12.1 ; fastqc WT_rep1_1_Ch6.fastq.gz
module load bioinfo/FastQC/0.12.1 ; fastqc MT_rep1_2_Ch6.fastq.gz  
module load bioinfo/FastQC/0.12.1 ; fastqc WT_rep1_2_Ch6.fastq.gz

Lancer les 4 fastqc en parallèle à l'aide de la commande sarray nom_fichier_commande
Suivre l'avancement des jobs avec la commande squeue -u UNSERNAME

Solution

sarray -t 01:00 mesfastqc.cmd

Puis

squeue -u USERNAME

Pour synthétiser les 4 résultats fastqc dans un seul rapport, utiliser le logiciel multiqc.
- Se mettre sur un noeud avec srun
- Charger le module multiqc
- Lancer la commande multiqc -m fastqc .
Solution
```
$ srun --pty bash
$ search_module multiqc
bioinfo/MultiQC/1.14
bioinfo/MultiQC/1.19
$ module load bioinfo/MultiQC/1.19
```
Puis
```
multiqc -m fastqc .
```
Visualiser le rapport html vous avez plusieurs possibilité :
- Le télécharger en local
- Le déposer dans le repertoire /home/$USER/public_html multiqc (en utilisant le public_html) et le rendre accessible à l'adresse web http://web-genologin.toulouse.inrae.fr/~USERNAME
Voici la procedure pour utiliser le public_html:
- Creer un répertoire pour mettre les fichiers qui seront accessible via le web:
```
$ mkdir -p /home/$USER/save/public_html
$ ln -s /save/user/$USER/public_html /home/$USER/public_html
$ chmod a+x /save/user/$USER ; chmod 755 /save/user/$USER/public_html ;
```
- Copier le rapport multiQC multiqc_report.html dans votre /home/$USER/public_html et un rapport fastqc WT_rep1_2_Ch6_fastqc.html
```
cp multiqc_report.html ~/public_html/
cp WT_rep1_2_Ch6_fastqc.html ~/public_html/
```
- Accéder via un navigateur à la page http://web-genobioinfo.toulouse.inrae.fr/~USERNAME et visualiser les deux fichiers html
Quelle est la longueur des lectures ? Quelle est la qualité du séquençage ? Regarder les résultats concernant les biais décrits lors du cours, lesquels retrouve-t-on ?
Solution
- Quelle est la longueur des lectures ? 101
- Quelle est la qualité du séquençage ? Bonne, très peu de sequences ont une mauvaise qualité en 5'
- Regarder les résultats concernant les biais décrits lors du cours, lesquels retrouve-t-on ?
- hexamer random priming

Exercice n°2 : Nettoyage des adaptateurs

Aller sur la page de la plateforme http://bioinfo.genotoul.fr/ -> ressources -> software Rechercher le logiciel trim_galore, visualiser le contenu du « How_to_use »

Solution

http://bioinfo.genotoul.fr/index.php/how-to-use/?software=How_to_use_SLURM_TrimGalore

Sur genobioinfo, regarder le fichier de test situé dans le répertoire « example_on_cluster » de trim_galore.

Solution

$ more /usr/local/bioinfo/src/TrimGalore/example_on_cluster/test_TrimGalore-0.6.10.sh
#!/bin/bash
#SBATCH -p workq
#SBATCH -t 01:00:00 #Acceptable time formats include "minutes", "minutes:seconds", "hours:minutes:seconds", "days-hours", "days-hours:minutes" and "days-hours:minutes:seconds". 

#Load modules
#Need cutadapt (in Python-3.11.1) and FastQC
module load devel/python/Python-3.11.1 bioinfo/FastQC/0.12.1

module load bioinfo/TrimGalore/0.6.10

trim_galore --fastqc --gzip -o test illumina_100K.fastq.gz

Créer un fichier de commande en vous inspirant de ce modèle, de la page « How_to_use » et du cours pour les paires de sequences MT et pour les paires de séquences WT.

Solution

Fichier pour MT:

$ more trim_galore_MT.sh
#!/bin/bash
#SBATCH -p workq
#SBATCH -t 10 #minutes

#Load binaries
module load devel/python/Python-3.11.1 bioinfo/FastQC/0.12.1

trim_galore --fastqc --gzip --trim-n -o cleanMT --paired MT_rep1_1_Ch6.fastq.gz MT_rep1_2_Ch6.fastq.gz

Fichier pour WT:

$ more trim_galore_WT.sh
#!/bin/bash
#SBATCH -p workq
#SBATCH -t 10 #minutes

#Load binaries
module load devel/python/Python-3.11.1 bioinfo/FastQC/0.12.1

trim_galore --fastqc --gzip --trim-n -o cleanWT --paired WT_rep1_1_Ch6.fastq.gz WT_rep1_2_Ch6.fastq.gz

Option TP avancé: si vous souhaitez générer le fichier de commande en utilisant une boucle bash vous pouvez utiliser la commande suivante qui va pour chaque paire de fichier fastq écrire une ligne:
for r1 in `ls *_1_Ch6.fastq.gz`; do ech=${r1%*_1_Ch6.fastq.gz}; r2=${i/_1_/_2_} ; echo "$ech: $r1 $r2" ; done
En modifiant le texte entre cote "$ech: $r1 $r2", vous pouvez ecrire la ligne de commande que vous souhaitez.

Solution

for i in $(ls *1_Ch6.fastq.gz); do ech=${i%.fastq.gz}; r2=${i/_1_/_2_} ; echo "module load bioinfo/TrimGalore/0.6.10; module load bioinfo/Cutadapt/4.3; module load bioinfo/FastQC/0.12.1; trim_galore --fastqc --gzip --trim-n -o $ech --paired $i $r2" ; done

Lancer les commandes sur le cluster.

Solution

$ sbatch trim_galore_MT.sh
$ sbatch trim_galore_WT.sh

Regarder un résultat fastqc issus de trim_galore.

Solution

La taille des séquences a diminué pour une partie des reads.

I. Quality check

Quality check

Cours

Exercice n°1: Quality control and cleaning

Exercice n°2 : Nettoyage des adaptateurs

results matching ""

No results matching ""