Représentation moléculaire et descripteurs
Les ordinateurs nécessitent des encodages de molécules lisibles par machine ; les notations linéaires, les graphes chimiques, les empreintes moléculaires et les descripteurs numériques traduisent la structure chimique en des formes qui peuvent être stockées, recherchées et modélisées.
Definition
Les encodages et les caractéristiques calculées qui représentent numériquement la structure moléculaire, allant des chaînes et graphes canoniques aux vecteurs binaires d'empreintes et aux descripteurs numériques.
Scope
Couvre la représentation des molécules sous forme de graphes chimiques, les notations linéaires telles que SMILES et InChI, les clés structurelles et les empreintes hachées, ainsi que la vaste famille des descripteurs moléculaires qui transforment la structure en caractéristiques numériques pour la recherche de similarité et la modélisation prédictive.
Core questions
- Comment les molécules sont-elles représentées sous forme de graphes et de chaînes canoniques ?
- Quelle est la différence entre les clés structurelles, les empreintes hachées et les descripteurs numériques ?
- Comment un identifiant unique et canonique tel qu'InChI est-il généré ?
- Comment le choix de la représentation influence-t-il la recherche et la modélisation ultérieures ?
Key theories
- Graphe chimique et notation linéaire
- Représenter une molécule comme un graphe étiqueté d'atomes et de liaisons, et la sérialiser en une notation linéaire compacte telle que SMILES, constitue la base du stockage, de l'échange et de la canonisation.
- Encodage des descripteurs et des empreintes
- Transformer la structure en descripteurs numériques de longueur fixe ou en empreintes binaires permet la comparaison quantitative, la recherche de similarité et les modèles d'apprentissage automatique.
Clinical relevance
Des représentations moléculaires robustes constituent le fondement de tout flux de travail en chimioinformatique, de la déduplication et de la recherche dans les bases de données aux modèles quantitatifs structure-activité qui orientent la découverte de médicaments et de matériaux.
History
Des premières tables de connexion et de la canonisation de Morgan, le domaine a vu l'émergence de la notation SMILES en 1988, puis du standard ouvert InChI, parallèlement à une prolifération de descripteurs et d'empreintes catalogués dans des ouvrages de référence.
Key figures
- David Weininger
- Roberto Todeschini
- Peter Willett
- Stephen Heller
Related topics
Seminal works
- weininger1988
- todeschini2009
Frequently asked questions
- Quelle est la différence entre SMILES et InChI ?
- SMILES est une notation linéaire flexible et lisible par l'homme qui peut avoir plusieurs formes valides pour une même molécule, tandis qu'InChI est un identifiant canonique standardisé conçu pour attribuer une seule chaîne unique par structure.
- Qu'est-ce qu'une empreinte moléculaire ?
- C'est un vecteur binaire encodant la présence de caractéristiques ou de fragments structurels, permettant des comparaisons de similarité rapides entre molécules à l'aide de mesures simples basées sur des ensembles.