Formation bioinformatique à l'analyse de données RNA-seq

image


MAJ: 20/03/2024

Objectifs:

Cette formation a pour but de vous aider à traiter les séquences courtes issues des plates-formes de séquençage Illumina. Vous y découvrirez les formats de séquences et d’alignement les biais connus et mettrez en œuvre des logiciels d'alignement épissé sur génome de référence, la recherche de nouveaux gènes, de nouveaux transcrits et la quantification de l'expression de ces gènes et transcrits.

image

Pré-requis: savoir utiliser un environnement Unix.

Pour réaliser l'ensemble de ces exercices, connectez-vous sur votre compte genobioinfo en utilisant mobaxterm depuis un poste windows (voir les instructions de connexion) ou la commande ssh depuis un poste linux.

Pour les traitements « lourds » utilisez le cluster avec la commande srun --pty bash ou srun --x11 --pty bash (pour l’interface graphique).


Ressources:

Voici une liste des éléments que nous allons aborder durant la formation avec les liens vers les sites de référence.

  • Données publiques

    • ENA The European Nucleotide Archive (ENA) provides a comprehensive record of the world's nucleotide sequencing information, covering raw sequencing data, sequence assembly information and functional annotation. http://www.ebi.ac.uk/ena/

    • GEO The GEO Profiles database stores gene expression profiles derived from curated GEO DataSets. Each Profile is presented as a chart that displays the expression level of one gene across all Samples within a DataSet.

    • Ensembl The Ensembl project produces genome databases for vertebrates and other eukaryotic species, and makes this information freely available online. http://www.ensembl.org/index.html

  • Logiciels utilisés

    A savoir: pour tous les logiciels de bioinformatique installé sur la plateforme, vous avez sur le site web une description d’utilisation du logiciel, voir le lien 'How to use'.

    • Fastqc aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing pipelines. It provides a modular set of analyses which you can use to give a quick impression of whether your data has any problems of which you should be aware before doing any further analysis. http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/

    • Trim Galore! is a wrapper script to automate quality and adapter trimming as well as quality control, with some added functionality to remove biased methylation positions for RRBS sequence files (for directional, non-directional (or paired-end) sequencing). https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/

    • STAR is a Spliced Transcripts Alignment to a Reference. https://github.com/alexdobin/STAR

    • StringTie is a fast and highly efficient assembler of RNA-Seq alignments into potential transcripts. It uses a novel network flow algorithm as well as an optional de novo assembly step to assemble and quantitate full-length transcripts representing multiple splice variants for each gene locus. https://ccb.jhu.edu/software/stringtie/

    • SAMtools Samtools is a suite of programs for interacting with high-throughput sequencing data. http://www.htslib.org/

    • RSEM is an accurate and user-friendly software tool for quantifying transcript abundances from RNA-Seq data. https://github.com/deweylab/RSEM

    • IGV: The Integrative Genomics Viewer (IGV) is a high-performance visualization tool for interactive exploration of large, integrated datasets. It supports a wide variety of data types including sequence alignments, microarrays, and genomic annotations. http://www.broadinstitute.org/igv/

  • File formats

results matching ""

    No results matching ""