BBB Terminale/Bioinformatique
πŸ’»

Bioinformatique : Bases et Outils

BBB TerminaleInterdisciplinaireNumerique

Duree : 50 min · Difficulte : ⭐⭐⭐⭐

Objectifs du cours

  • β€’Comprendre ce quest la bioinformatique et son importance en biologie moderne
  • β€’Connaitre les principales bases de donnees biologiques (GenBank, UniProt, PDB, NCBI)
  • β€’Maitriser les principes de lalignement de sequences et de BLAST
  • β€’Interpreter les arbres phylogenetiques et comprendre leur construction
  • β€’Decouvrir les applications : genomique, metagenomique, drug design, AlphaFold

I. Introduction a la bioinformatique

La bioinformatique est une discipline scientifique a linterface entre la biologie, linformatique et les mathematiques. Elle utilise des outils computationnels pour analyser, stocker et interpreter les donnees biologiques, notamment les sequences dADN, dARN et de proteines.

Definition

La bioinformatique est lapplication de techniques informatiques et statistiques pour comprendre et organiser linformation biologique a grande echelle.

Pourquoi la bioinformatique est-elle essentielle ?

🧬 Explosion des donnees

  • β€’ Genome humain : 3,2 milliards de paires de bases
  • β€’ GenBank : plus de 250 milliards de nucleotides
  • β€’ 1 sequenceur moderne : 1 teraoctet/jour

⚑ Necessite dautomatisation

  • β€’ Comparaison de millions de sequences
  • β€’ Annotation automatique des genomes
  • β€’ Prediction de structures 3D

Contexte historique

Le Projet Genome Humain (1990-2003) a marque un tournant majeur. Le sequencage complet du genome humain na ete possible que grace aux outils bioinformatiques. Depuis, le cout du sequencage est passe de 3 milliards de dollars a moins de 1000 dollars !

II. Les donnees biologiques

La bioinformatique manipule differents types de donnees biologiques, chacune ayant ses specificites et ses formats standards.

1. Sequences nucleotidiques (ADN/ARN)

Composees de 4 lettres : A (Adenine), T/U (Thymine/Uracile), G (Guanine), C (Cytosine).

>Exemple_sequence_ADN

ATGCGATCGATCGATCGATCGATCGATCGATCGATCG

ATCGATCGATCGATCGATCGATCGATCGATCGATCGA

Format standard : FASTA (commence par > suivi du nom)

2. Sequences proteiques

Composees de 20 acides amines codes par une lettre chacun (A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y).

>Insuline_humaine

MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEA

LYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQ

3. Structures tridimensionnelles

Coordonnees atomiques des molecules biologiques (proteines, ADN, complexes).

# Extrait format PDB

ATOM 1 N ALA A 1 27.340 24.430 2.614

ATOM 2 CA ALA A 1 26.266 25.413 2.842

ATOM 3 C ALA A 1 26.913 26.639 3.531

Format standard : PDB (Protein Data Bank)

III. Les bases de donnees biologiques

Les bases de donnees centralisent et organisent les donnees biologiques mondiales. Elles sont essentielles pour la recherche et sont generalement en acces libre.

N

NCBI (National Center for Biotechnology Information)

Portail centralisant plusieurs bases de donnees majeures

Sequences ADNPublicationsOutils
ncbi.nlm.nih.gov

🧬 GenBank

Base de donnees de sequences nucleotidiques (ADN et ARN) annotees de tous les organismes.

  • β€’ Plus de 250 milliards de nucleotides
  • β€’ Mise a jour quotidienne
  • β€’ Acces gratuit et illimite

Gere par le NCBI (USA)

πŸ”¬ UniProt

Base de donnees de sequences proteiques avec annotations fonctionnelles detaillees.

  • β€’ SwissProt : annote manuellement (qualite)
  • β€’ TrEMBL : annote automatiquement
  • β€’ Plus de 250 millions de sequences
uniprot.org

🎯 PDB (Protein Data Bank)

Base de donnees des structures 3D des macromolecules (proteines, ADN, ARN, complexes).

  • β€’ Plus de 200 000 structures
  • β€’ Cristallographie, RMN, cryo-EM
  • β€’ Visualisation 3D interactive
rcsb.org

🌐 Ensembl

Navigateur genomique complet avec annotation des genes, variants, elements regulateurs.

  • β€’ Genomes vertebres et modeles
  • β€’ Comparaison entre especes
  • β€’ API pour analyses automatisees
ensembl.org

Conseil pratique

Pour trouver une sequence : commencez par NCBI (portail general), puis utilisez UniProt pour les proteines annotees ou PDBsi vous cherchez une structure 3D.

IV. Alignement de sequences et BLAST

Principe de lalignement

Lalignement de sequences consiste a comparer deux ou plusieurs sequences pour identifier les regions similaires. Cela permet de detecter des homologies(ancetre commun), des mutations, et dinferir des fonctions.

Exemple dalignement de deux sequences proteiques :

Seq1: MVLSPADKTNVKAAWGKVGAHAGEYGAE

Β Β Β Β Β  |||||||||| |||||||| |||||||

Seq2: MVLSPADKTNIKAAWGKVGA-AGEYGAE

Match (identique) Mismatch (different) Gap (insertion/deletion)

Alignement global

Compare les sequences sur toute leur longueur. Utilise lalgorithme Needleman-Wunsch.

Usage : sequences de taille similaire

Alignement local

Cherche les regions les plus similaires entre deux sequences. Utilise lalgorithme Smith-Waterman.

Usage : recherche de domaines conserves

πŸ” BLAST (Basic Local Alignment Search Tool)

BLAST est loutil le plus utilise en bioinformatique. Il permet de rechercher rapidement des sequences similaires dans les bases de donnees (GenBank, UniProt, etc.).

Les differents types de BLAST

ProgrammeRequeteBase de donneesUsage
BLASTnNucleotideNucleotideADN vs ADN
BLASTpProteineProteineProteine vs Proteine
BLASTxNucleotide traduitProteineADN (6 cadres) vs Proteines
tBLASTnProteineNucleotide traduitProteine vs ADN traduit
Acceder a BLAST

πŸ“Š Interpreter les resultats BLAST

Score (bits)

Mesure la qualite de lalignement. Plus le score est élève, meilleur est lalignement.

< 50 : faible50-80 : moyen> 80 : bon> 200 : excellent

E-value (Expect value)

Probabilite dobtenir un alignement de ce score par hasard. Plus lE-value est basse, plus lalignement est significatif.

> 1 : non significatif0.01-1 : douteux< 10⁻⁡ : significatif< 10⁻⁡⁰ : tres forte homologie

Pourcentage didentite

Pourcentage de positions identiques dans lalignement. > 30% pour les proteines suggere souvent une homologie.

Exemple danalyse : Un resultat BLAST avec E-value = 2e-89, Score = 320 bits, Identite = 78% indique une tres forte homologie entre les deux sequences. Elles partagent probablement un ancetre commun et des fonctions similaires.

V. Arbres phylogenetiques

Un arbre phylogenetique est une representation graphique des relations evolutives entre differents organismes ou sequences. Il illustre lhistoire evolutive et permet didentifier les ancetres communs.

Anatomie dun arbre phylogenetique :

                    β”Œβ”€β”€β”€ Espece A
               β”Œβ”€β”€β”€β”€β”€
          β”Œβ”€β”€β”€β”€β”€    └─── Espece B      ← Noeuds (ancetres)
          β”‚    β”‚
    ───────    └──────── Espece C      ← Branches (temps/mutations)
          β”‚
          β”‚    β”Œβ”€β”€β”€β”€β”€β”€β”€β”€ Espece D
          └─────
               └──────── Espece E      ← Feuilles (taxons actuels)

    ← Racine (ancetre commun)

Methodes de construction

1. Methodes de distance (UPGMA, Neighbor-Joining)

Basees sur une matrice de distances calculee a partir des alignements. Les sequences les plus proches sont regroupees en premier.

Matrice de distance (exemple) :

-ABC
A059
B5010
C9100

Avantage : rapide. Inconvenient : approximatif.

2. Maximum de parcimonie

Cherche larbre necessitant le nombre minimum de mutations pour expliquer les differences observees. Principe du rasoir dOckham : lexplication la plus simple est la meilleure.

Avantage : intuitif. Inconvenient : peut etre trompeur si taux de mutation variable.

3. Maximum de vraisemblance (ML)

Utilise des modeles probabilistes devolution pour trouver larbre qui a la plus forte probabilite davoir produit les sequences observees.

Avantage : le plus precis. Inconvenient : calculs intensifs.

4. Inference bayesienne

Approche statistique utilisant le theoreme de Bayes pour calculer la probabilite de chaque arbre etant donnees les donnees.

Avantage : fournit des probabilites. Outils : MrBayes, BEAST.

Bootstrap : mesurer la robustesse

Le bootstrap est une technique statistique pour evaluer la fiabilite dun arbre. On reechantillonne les donnees 100-1000 fois et on regarde combien de fois chaque branche apparait. Une valeur > 70% est consideree comme robuste.

VI. Annotation des genomes

Lannotation genomique consiste a identifier et caracteriser les elements fonctionnels dun genome : genes, elements regulateurs, ARN non-codants, etc.

πŸ”¬ Annotation structurale

Localiser les elements sur le genome :

  • β€’ Prediction des genes (ORF)
  • β€’ Identification des exons/introns
  • β€’ Sites depissage
  • β€’ Promoteurs et terminateurs

πŸ“ Annotation fonctionnelle

Attribuer des fonctions aux genes :

  • β€’ Comparaison avec bases de donnees
  • β€’ Classification GO (Gene Ontology)
  • β€’ Voies metaboliques (KEGG)
  • β€’ Domaines proteiques (Pfam, InterPro)

Pipeline dannotation typique

Sequence brute→Prediction ORF→BLAST vs BD→Annotation GO→Curation manuelle

VII. Prediction de structure proteique

La structure 3D dune proteine determine sa fonction. La predire a partir de la sequence dacides amines est lun des plus grands defis de la biologie.

Le probleme du repliement

Le paradoxe de Levinthal : une proteine de 100 acides amines pourrait theoriquement adopter 10^143 conformations. Pourtant, elle se replie en millisecondes ! Comment predire la structure finale ?

πŸ€–

AlphaFold : la revolution IA

Developpe par DeepMind (Google), AlphaFold utilise lapprentissage profond (deep learning) pour predire les structures proteiques avec une precision comparable aux mΓ©thodes experimentales.

CASP14 (2020) : AlphaFold2 a atteint un score GDT de 92.4/100, resolution du probleme du repliement proteique apres 50 ans de recherche !

AlphaFold DB +200 millions de structures

πŸ”¬

Cristallographie

Methode experimentale de reference

Mois a annees / proteine

🧲

RMN

Resonance magnetique nucleaire

Petites proteines en solution

πŸ€–

AlphaFold

Prediction par IA

Minutes / proteine !

VIII. Applications de la bioinformatique

🧬 Genomique comparative

Compare les genomes de differentes especes pour identifier les genes conserves, comprendre levolution et trouver des elements fonctionnels.

  • β€’ Identification de genes orthologue
  • β€’ Detection de regions syntenic
  • β€’ Reconstruction devolution

🌍 Metagenomique

Analyse lADN de communautes microbiennes entieres sans cultiver les organismes (sol, ocean, intestin humain).

  • β€’ Microbiome intestinal et sante
  • β€’ Decouverte de nouveaux genes
  • β€’ Ecologie microbienne

πŸ’Š Drug design (conception de medicaments)

Utilise la structure 3D des proteines cibles pour concevoir des molecules therapeutiques sur mesure.

  • β€’ Docking moleculaire (arrimage)
  • β€’ Criblage virtuel de molecules
  • β€’ Optimisation de leads

πŸ₯ Medecine personnalisee

Adapte les traitements au profil genetique de chaque patient pour une meilleure efficacite et moins deffets secondaires.

  • β€’ Pharmacogenomique
  • β€’ Diagnostic de maladies genetiques
  • β€’ Oncologie de precision

πŸ§ͺ Biotechnologies

Ingenierie des organismes vivants pour produire des molecules dinteret (enzymes, biocarburants, medicaments).

  • β€’ Optimisation de voies metaboliques
  • β€’ Design de proteines synthetiques
  • β€’ CRISPR et edition genomique

🦠 Epidemiologie genomique

Suit levolution des pathogenes en temps reel pour comprendre les epidemies et developper des vaccins.

  • β€’ Tracage des variants COVID-19
  • β€’ Surveillance de la grippe
  • β€’ Detection de resistances

πŸ› οΈ Outils bioinformatiques essentiels

Alignement

  • β€’ BLAST (NCBI)
  • β€’ Clustal Omega
  • β€’ MUSCLE
  • β€’ MAFFT

Phylogenie

  • β€’ MEGA
  • β€’ PhyML
  • β€’ RAxML
  • β€’ IQ-TREE

Visualisation

  • β€’ PyMOL (3D)
  • β€’ Chimera (3D)
  • β€’ IGV (genomes)
  • β€’ Jalview (alignements)

πŸ“Š Chiffres cles a retenir

3.2 Md

pb genome humain

~20 000

genes humains

200M+

structures AlphaFold

E-value

< 10⁻⁡ = significatif

πŸ“ Resume

  • Bioinformatique = analyse informatique des donnees biologiques (sequences, structures)
  • Bases de donnees : GenBank (ADN), UniProt (proteines), PDB (structures 3D)
  • BLAST = outil dalignement local pour rechercher des sequences similaires
  • E-value : mesure de significativite statistique (plus petite = meilleure)
  • Arbres phylogenetiques : representation des relations evolutives
  • Methodes : distance, parcimonie, maximum de vraisemblance, bayesienne
  • AlphaFold : revolution IA pour la prediction de structure proteique
  • Applications : genomique comparative, metagenomique, drug design, medecine personnalisee

πŸ”— Liens utiles pour sentrainer

Scientia