分子表現と記述子
コンピュータは、分子の機械可読なエンコーディングを必要とします。ライン表記、化学グラフ、フィンガープリント、および数値記述子は、化学構造を保存、検索、モデル化できる形式に変換します。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
分子構造をデジタルで表現するエンコーディングと計算された特徴であり、標準的な文字列やグラフからフィンガープリントのビットベクトルや数値記述子まで多岐にわたります。
Scope
分子の化学グラフ的視点、SMILESやInChIなどのライン表記、構造キーとハッシュ化されたフィンガープリント、および類似性や予測モデリングのために構造を数値特徴に変換する分子記述子の広範なファミリーを扱います。
Core questions
- 分子はどのようにグラフとして、また標準的な文字列として表現されるのでしょうか?
- 構造キー、ハッシュ化されたフィンガープリント、および数値記述子の違いは何でしょうか?
- InChIのような一意の標準識別子はどのように生成されるのでしょうか?
- 表現の選択は、下流の検索とモデリングにどのように影響するのでしょうか?
Key theories
- 化学グラフとライン表記
- 分子を原子と結合のラベル付きグラフとして表現し、それをSMILESのようなコンパクトなライン表記にシリアル化することは、保存、交換、および標準化の基礎を提供します。
- 記述子とフィンガープリントのエンコーディング
- 構造を固定長の数値記述子またはバイナリフィンガープリントに変換することで、定量的比較、類似性検索、および機械学習モデルが可能になります。
Clinical relevance
堅牢な分子表現は、データベースの重複排除と検索から、医薬品や材料の発見を導く定量的構造活性モデルに至るまで、あらゆるケモインフォマティクスワークフローの基盤となります。
History
初期の接続表とモーガン標準化から、この分野は1988年にSMILES表記を獲得し、その後オープンなInChI標準が登場しました。これと並行して、参考文献にカタログ化された記述子とフィンガープリントが多数普及しました。
Key figures
- David Weininger
- Roberto Todeschini
- Peter Willett
- Stephen Heller
Related topics
Seminal works
- weininger1988
- todeschini2009
Frequently asked questions
- SMILESとInChIの違いは何ですか?
- SMILESは柔軟で人間が読めるライン表記であり、1つの分子に対して複数の有効な形式を持つ可能性がありますが、InChIは構造ごとに単一の一意の文字列を与えるように設計された標準化された標準識別子です。
- 分子フィンガープリントとは何ですか?
- これは、構造的特徴またはフラグメントの存在をエンコードするビットベクトルであり、単純なセットベースの尺度を使用して分子間の高速な類似性比較を可能にします。