Bioinformatique : Bases et Outils
Duree : 50 min Β· Difficulte : ββββ
Objectifs du cours
- β’Comprendre ce quest la bioinformatique et son importance en biologie moderne
- β’Connaitre les principales bases de donnees biologiques (GenBank, UniProt, PDB, NCBI)
- β’Maitriser les principes de lalignement de sequences et de BLAST
- β’Interpreter les arbres phylogenetiques et comprendre leur construction
- β’Decouvrir les applications : genomique, metagenomique, drug design, AlphaFold
I. Introduction a la bioinformatique
La bioinformatique est une discipline scientifique a linterface entre la biologie, linformatique et les mathematiques. Elle utilise des outils computationnels pour analyser, stocker et interpreter les donnees biologiques, notamment les sequences dADN, dARN et de proteines.
Definition
La bioinformatique est lapplication de techniques informatiques et statistiques pour comprendre et organiser linformation biologique a grande echelle.
Pourquoi la bioinformatique est-elle essentielle ?
𧬠Explosion des donnees
- β’ Genome humain : 3,2 milliards de paires de bases
- β’ GenBank : plus de 250 milliards de nucleotides
- β’ 1 sequenceur moderne : 1 teraoctet/jour
β‘ Necessite dautomatisation
- β’ Comparaison de millions de sequences
- β’ Annotation automatique des genomes
- β’ Prediction de structures 3D
Contexte historique
Le Projet Genome Humain (1990-2003) a marque un tournant majeur. Le sequencage complet du genome humain na ete possible que grace aux outils bioinformatiques. Depuis, le cout du sequencage est passe de 3 milliards de dollars a moins de 1000 dollars !
II. Les donnees biologiques
La bioinformatique manipule differents types de donnees biologiques, chacune ayant ses specificites et ses formats standards.
1. Sequences nucleotidiques (ADN/ARN)
Composees de 4 lettres : A (Adenine), T/U (Thymine/Uracile), G (Guanine), C (Cytosine).
>Exemple_sequence_ADN
ATGCGATCGATCGATCGATCGATCGATCGATCGATCG
ATCGATCGATCGATCGATCGATCGATCGATCGATCGA
Format standard : FASTA (commence par > suivi du nom)
2. Sequences proteiques
Composees de 20 acides amines codes par une lettre chacun (A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y).
>Insuline_humaine
MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEA
LYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQ
3. Structures tridimensionnelles
Coordonnees atomiques des molecules biologiques (proteines, ADN, complexes).
# Extrait format PDB
ATOM 1 N ALA A 1 27.340 24.430 2.614
ATOM 2 CA ALA A 1 26.266 25.413 2.842
ATOM 3 C ALA A 1 26.913 26.639 3.531
Format standard : PDB (Protein Data Bank)
III. Les bases de donnees biologiques
Les bases de donnees centralisent et organisent les donnees biologiques mondiales. Elles sont essentielles pour la recherche et sont generalement en acces libre.
NCBI (National Center for Biotechnology Information)
Portail centralisant plusieurs bases de donnees majeures
𧬠GenBank
Base de donnees de sequences nucleotidiques (ADN et ARN) annotees de tous les organismes.
- β’ Plus de 250 milliards de nucleotides
- β’ Mise a jour quotidienne
- β’ Acces gratuit et illimite
Gere par le NCBI (USA)
π¬ UniProt
Base de donnees de sequences proteiques avec annotations fonctionnelles detaillees.
- β’ SwissProt : annote manuellement (qualite)
- β’ TrEMBL : annote automatiquement
- β’ Plus de 250 millions de sequences
π― PDB (Protein Data Bank)
Base de donnees des structures 3D des macromolecules (proteines, ADN, ARN, complexes).
- β’ Plus de 200 000 structures
- β’ Cristallographie, RMN, cryo-EM
- β’ Visualisation 3D interactive
π Ensembl
Navigateur genomique complet avec annotation des genes, variants, elements regulateurs.
- β’ Genomes vertebres et modeles
- β’ Comparaison entre especes
- β’ API pour analyses automatisees
Conseil pratique
Pour trouver une sequence : commencez par NCBI (portail general), puis utilisez UniProt pour les proteines annotees ou PDBsi vous cherchez une structure 3D.
IV. Alignement de sequences et BLAST
Principe de lalignement
Lalignement de sequences consiste a comparer deux ou plusieurs sequences pour identifier les regions similaires. Cela permet de detecter des homologies(ancetre commun), des mutations, et dinferir des fonctions.
Exemple dalignement de deux sequences proteiques :
Seq1: MVLSPADKTNVKAAWGKVGAHAGEYGAE
Β Β Β Β Β |||||||||| |||||||| |||||||
Seq2: MVLSPADKTNIKAAWGKVGA-AGEYGAE
Alignement global
Compare les sequences sur toute leur longueur. Utilise lalgorithme Needleman-Wunsch.
Usage : sequences de taille similaire
Alignement local
Cherche les regions les plus similaires entre deux sequences. Utilise lalgorithme Smith-Waterman.
Usage : recherche de domaines conserves
π BLAST (Basic Local Alignment Search Tool)
BLAST est loutil le plus utilise en bioinformatique. Il permet de rechercher rapidement des sequences similaires dans les bases de donnees (GenBank, UniProt, etc.).
Les differents types de BLAST
| Programme | Requete | Base de donnees | Usage |
|---|---|---|---|
| BLASTn | Nucleotide | Nucleotide | ADN vs ADN |
| BLASTp | Proteine | Proteine | Proteine vs Proteine |
| BLASTx | Nucleotide traduit | Proteine | ADN (6 cadres) vs Proteines |
| tBLASTn | Proteine | Nucleotide traduit | Proteine vs ADN traduit |
π Interpreter les resultats BLAST
Score (bits)
Mesure la qualite de lalignement. Plus le score est élève, meilleur est lalignement.
E-value (Expect value)
Probabilite dobtenir un alignement de ce score par hasard. Plus lE-value est basse, plus lalignement est significatif.
Pourcentage didentite
Pourcentage de positions identiques dans lalignement. > 30% pour les proteines suggere souvent une homologie.
Exemple danalyse : Un resultat BLAST avec E-value = 2e-89, Score = 320 bits, Identite = 78% indique une tres forte homologie entre les deux sequences. Elles partagent probablement un ancetre commun et des fonctions similaires.
V. Arbres phylogenetiques
Un arbre phylogenetique est une representation graphique des relations evolutives entre differents organismes ou sequences. Il illustre lhistoire evolutive et permet didentifier les ancetres communs.
Anatomie dun arbre phylogenetique :
ββββ Espece A
ββββββ€
ββββββ€ ββββ Espece B β Noeuds (ancetres)
β β
βββββββ€ βββββββββ Espece C β Branches (temps/mutations)
β
β βββββββββ Espece D
ββββββ€
βββββββββ Espece E β Feuilles (taxons actuels)
β Racine (ancetre commun)Methodes de construction
1. Methodes de distance (UPGMA, Neighbor-Joining)
Basees sur une matrice de distances calculee a partir des alignements. Les sequences les plus proches sont regroupees en premier.
Matrice de distance (exemple) :
| - | A | B | C |
| A | 0 | 5 | 9 |
| B | 5 | 0 | 10 |
| C | 9 | 10 | 0 |
Avantage : rapide. Inconvenient : approximatif.
2. Maximum de parcimonie
Cherche larbre necessitant le nombre minimum de mutations pour expliquer les differences observees. Principe du rasoir dOckham : lexplication la plus simple est la meilleure.
Avantage : intuitif. Inconvenient : peut etre trompeur si taux de mutation variable.
3. Maximum de vraisemblance (ML)
Utilise des modeles probabilistes devolution pour trouver larbre qui a la plus forte probabilite davoir produit les sequences observees.
Avantage : le plus precis. Inconvenient : calculs intensifs.
4. Inference bayesienne
Approche statistique utilisant le theoreme de Bayes pour calculer la probabilite de chaque arbre etant donnees les donnees.
Avantage : fournit des probabilites. Outils : MrBayes, BEAST.
Bootstrap : mesurer la robustesse
Le bootstrap est une technique statistique pour evaluer la fiabilite dun arbre. On reechantillonne les donnees 100-1000 fois et on regarde combien de fois chaque branche apparait. Une valeur > 70% est consideree comme robuste.
VI. Annotation des genomes
Lannotation genomique consiste a identifier et caracteriser les elements fonctionnels dun genome : genes, elements regulateurs, ARN non-codants, etc.
π¬ Annotation structurale
Localiser les elements sur le genome :
- β’ Prediction des genes (ORF)
- β’ Identification des exons/introns
- β’ Sites depissage
- β’ Promoteurs et terminateurs
π Annotation fonctionnelle
Attribuer des fonctions aux genes :
- β’ Comparaison avec bases de donnees
- β’ Classification GO (Gene Ontology)
- β’ Voies metaboliques (KEGG)
- β’ Domaines proteiques (Pfam, InterPro)
Pipeline dannotation typique
VII. Prediction de structure proteique
La structure 3D dune proteine determine sa fonction. La predire a partir de la sequence dacides amines est lun des plus grands defis de la biologie.
Le probleme du repliement
Le paradoxe de Levinthal : une proteine de 100 acides amines pourrait theoriquement adopter 10^143 conformations. Pourtant, elle se replie en millisecondes ! Comment predire la structure finale ?
AlphaFold : la revolution IA
Developpe par DeepMind (Google), AlphaFold utilise lapprentissage profond (deep learning) pour predire les structures proteiques avec une precision comparable aux mΓ©thodes experimentales.
CASP14 (2020) : AlphaFold2 a atteint un score GDT de 92.4/100, resolution du probleme du repliement proteique apres 50 ans de recherche !
π¬
Cristallographie
Methode experimentale de reference
Mois a annees / proteine
π§²
RMN
Resonance magnetique nucleaire
Petites proteines en solution
π€
AlphaFold
Prediction par IA
Minutes / proteine !
VIII. Applications de la bioinformatique
𧬠Genomique comparative
Compare les genomes de differentes especes pour identifier les genes conserves, comprendre levolution et trouver des elements fonctionnels.
- β’ Identification de genes orthologue
- β’ Detection de regions syntenic
- β’ Reconstruction devolution
π Metagenomique
Analyse lADN de communautes microbiennes entieres sans cultiver les organismes (sol, ocean, intestin humain).
- β’ Microbiome intestinal et sante
- β’ Decouverte de nouveaux genes
- β’ Ecologie microbienne
π Drug design (conception de medicaments)
Utilise la structure 3D des proteines cibles pour concevoir des molecules therapeutiques sur mesure.
- β’ Docking moleculaire (arrimage)
- β’ Criblage virtuel de molecules
- β’ Optimisation de leads
π₯ Medecine personnalisee
Adapte les traitements au profil genetique de chaque patient pour une meilleure efficacite et moins deffets secondaires.
- β’ Pharmacogenomique
- β’ Diagnostic de maladies genetiques
- β’ Oncologie de precision
π§ͺ Biotechnologies
Ingenierie des organismes vivants pour produire des molecules dinteret (enzymes, biocarburants, medicaments).
- β’ Optimisation de voies metaboliques
- β’ Design de proteines synthetiques
- β’ CRISPR et edition genomique
π¦ Epidemiologie genomique
Suit levolution des pathogenes en temps reel pour comprendre les epidemies et developper des vaccins.
- β’ Tracage des variants COVID-19
- β’ Surveillance de la grippe
- β’ Detection de resistances
π οΈ Outils bioinformatiques essentiels
Alignement
- β’ BLAST (NCBI)
- β’ Clustal Omega
- β’ MUSCLE
- β’ MAFFT
Phylogenie
- β’ MEGA
- β’ PhyML
- β’ RAxML
- β’ IQ-TREE
Visualisation
- β’ PyMOL (3D)
- β’ Chimera (3D)
- β’ IGV (genomes)
- β’ Jalview (alignements)
π Chiffres cles a retenir
3.2 Md
pb genome humain
~20 000
genes humains
200M+
structures AlphaFold
E-value
< 10β»β΅ = significatif
π Resume
- Bioinformatique = analyse informatique des donnees biologiques (sequences, structures)
- Bases de donnees : GenBank (ADN), UniProt (proteines), PDB (structures 3D)
- BLAST = outil dalignement local pour rechercher des sequences similaires
- E-value : mesure de significativite statistique (plus petite = meilleure)
- Arbres phylogenetiques : representation des relations evolutives
- Methodes : distance, parcimonie, maximum de vraisemblance, bayesienne
- AlphaFold : revolution IA pour la prediction de structure proteique
- Applications : genomique comparative, metagenomique, drug design, medecine personnalisee
