Representación Molecular y Descriptores
Las computadoras necesitan codificaciones de moléculas legibles por máquina; las notaciones de línea, los grafos químicos, las huellas dactilares y los descriptores numéricos traducen la estructura química a formas que pueden almacenarse, buscarse y modelarse.
Definition
Las codificaciones y características computadas que representan digitalmente la estructura molecular, que van desde cadenas canónicas y grafos hasta vectores de bits de huellas dactilares y descriptores numéricos.
Scope
Cubre la vista de grafo químico de las moléculas, notaciones de línea como SMILES e InChI, claves estructurales y huellas dactilares hash, y la amplia familia de descriptores moleculares que convierten la estructura en características numéricas para la similitud y el modelado predictivo.
Core questions
- ¿Cómo se representan las moléculas como grafos y como cadenas canónicas?
- ¿Cuál es la diferencia entre las claves estructurales, las huellas dactilares hash y los descriptores numéricos?
- ¿Cómo se genera un identificador único y canónico como InChI?
- ¿Cómo influye la elección de la representación en la búsqueda y el modelado posteriores?
Key theories
- Grafo químico y notación de línea
- Representar una molécula como un grafo etiquetado de átomos y enlaces, y serializarla en una notación de línea compacta como SMILES, proporciona la base para el almacenamiento, el intercambio y la canonización.
- Codificación de descriptores y huellas dactilares
- Transformar la estructura en descriptores numéricos de longitud fija o huellas dactilares binarias permite la comparación cuantitativa, la búsqueda de similitudes y los modelos de aprendizaje automático.
Clinical relevance
Las representaciones moleculares robustas son la base de cada flujo de trabajo de quimioinformática, desde la deduplicación y búsqueda en bases de datos hasta los modelos cuantitativos de estructura-actividad que guían el descubrimiento de fármacos y materiales.
History
Desde las primeras tablas de conexión y la canonización de Morgan, el campo obtuvo la notación SMILES en 1988 y, posteriormente, el estándar abierto InChI, junto con una proliferación de descriptores y huellas dactilares catalogados en obras de referencia.
Key figures
- David Weininger
- Roberto Todeschini
- Peter Willett
- Stephen Heller
Related topics
Seminal works
- weininger1988
- todeschini2009
Frequently asked questions
- ¿Cuál es la diferencia entre SMILES e InChI?
- SMILES es una notación de línea flexible y legible por humanos que puede tener múltiples formas válidas para una molécula, mientras que InChI es un identificador estandarizado y canónico diseñado para proporcionar una única cadena única por estructura.
- ¿Qué es una huella dactilar molecular?
- Es un vector de bits que codifica la presencia de características o fragmentos estructurales, lo que permite comparaciones rápidas de similitud entre moléculas utilizando medidas simples basadas en conjuntos.