Молекулярное представление и дескрипторы
Компьютерам необходимы машиночитаемые кодировки молекул; линейные нотации, химические графы, отпечатки и численные дескрипторы преобразуют химическую структуру в формы, которые могут быть сохранены, найдены и смоделированы.
Definition
Кодировки и вычисляемые признаки, которые представляют молекулярную структуру в цифровом виде, начиная от канонических строк и графов до битовых векторов отпечатков и числовых дескрипторов.
Scope
Охватывает представление молекул в виде химических графов, линейные нотации, такие как SMILES и InChI, структурные ключи и хешированные отпечатки, а также широкое семейство молекулярных дескрипторов, которые преобразуют структуру в числовые признаки для оценки сходства и прогностического моделирования.
Core questions
- Как молекулы представляются в виде графов и канонических строк?
- В чем разница между структурными ключами, хешированными отпечатками и числовыми дескрипторами?
- Как генерируется уникальный, канонический идентификатор, такой как InChI?
- Как выбор представления влияет на последующий поиск и моделирование?
Key theories
- Химический граф и линейная нотация
- Представление молекулы в виде помеченного графа атомов и связей и ее сериализация в компактную линейную нотацию, такую как SMILES, обеспечивает основу для хранения, обмена и канонизации.
- Кодирование дескрипторов и отпечатков
- Преобразование структуры в числовые дескрипторы фиксированной длины или бинарные отпечатки позволяет проводить количественное сравнение, поиск сходства и использовать модели машинного обучения.
Clinical relevance
Надежные молекулярные представления являются основой каждого хемоинформатического рабочего процесса, от дедупликации и поиска в базах данных до количественных моделей структура-активность, которые направляют открытие лекарств и материалов.
History
От ранних таблиц связей и канонизации Моргана, область получила нотацию SMILES в 1988 году, а затем открытый стандарт InChI, наряду с распространением дескрипторов и отпечатков, каталогизированных в справочных работах.
Key figures
- David Weininger
- Roberto Todeschini
- Peter Willett
- Stephen Heller
Related topics
Seminal works
- weininger1988
- todeschini2009
Frequently asked questions
- В чем разница между SMILES и InChI?
- SMILES — это гибкая, удобочитаемая линейная нотация, которая может иметь несколько допустимых форм для одной молекулы, в то время как InChI — это стандартизированный, канонический идентификатор, разработанный для получения одной уникальной строки для каждой структуры.
- Что такое молекулярный отпечаток?
- Это битовый вектор, кодирующий наличие структурных особенностей или фрагментов, что позволяет быстро сравнивать молекулы по сходству с использованием простых мер, основанных на множествах.