article

SMILES記法(すまいるすきほう、Simplified molecular input line entry specification syntax)とは、分子化学構造ASCII符号の英数字で文字列化した構造の曖昧性の無い表記方法である。SMILES文字列は多くの種類の分子エディターににおいてインポート可能で、二次元の図表あるいは三次元のモデルとして表示することができる。

SMILES表記は1980年代の終わりにDavid Weiningerにより開発され、その後に多数の人の手で変更あるいは拡張がなされてきた。中でもDaylight Chemical Information Systems社の貢献が大きい。他の線形な同様な表記法としてはWiswesser Line Notation (WLN), ROSDAL そして SLN (Tripos社)が挙げられる。

グラフ理論に基づいた記法の定義


SMILESはグラフ理論に基づいたコンピューター処理に付けられた用語で、化学構造を表すグラフ構造で3つの方向に伸びるグラフ(枝、あるいは結合)と各分岐点(節、あるいは原子)を印刷可能な符号を割り当てることで、化学構造を文字列で表したコードである。化学構造グラフは、最初に目的の構造の水素原子のついた枝(結合)を取り払い、環を形成してるところは切り開いてグラフをグラフ理論でいうところのスパニング木(spanning tree)に変換する。環を開いたところは、番号の前置辞でラベル付けして、連結されていた節同士を明示している。角括弧(Bracket)は木構造が分枝している場所を表すのに使用する。

発展


SMARTS記法はSMILES記法を変更したものとみなされており、SMILESの文法要素に任意合致原子と任意合致結合を付け加えている。SMARTSは構造検索に特化しており、化学データベース検索プログラム中で使用される。この拡張により、SMILES文字列とSMARTS文字列とが合致するか否かでコンピューター的に化学部分構造検索を実装できるとかの様な、広範囲な人々に対して誤解を生み出した。それ故、SMILES表現形で再構築されたグラフについて部分グラフの同形問題が影響を及ぼすので、プログラムではより厳密にコンピューター検索するようにしている。

SMILESは3分木として生成されるので、節の出現順をどうするかと同様に、どの節を根本として選択するかで、文字列が全く変わってしまう。SMILESの重要な機能拡張として立体化学に関する情報を格納するように発展させるというものがある。固有にしたり、基準とする為のSMILES表現は、木表現にする前処理としてルールを適用してから発生させる必要がある。多くのプログラムでは固有にしたSMILESが2つの構造の完全一致をとり、データベースに格納された分子が二重登録されないようにするのに使用される。

特徴


SMILES記法の長所は化学構造を、少ないバイト長で表現できることと、ルールが簡単なので人間が文字列に変換する際に複雑な演算が不必要な点にある。

一方、欠点としては元の構造式の向きや置換基が張り出す方向などの構造式を目で見たときの印象が完全に失われる点がある。ほかにも、標準SMILE記法では相対配置も絶対配置も表現することができない。また、前述したように文字列のパターンマッチングでは構造の部分一致を意味しないので、小規模の化学データベース以外ではSMILESを内部表現に採用しているデータベースシステムは見られない。

近年のCPUパワーのコストパフォーマンス増大と通信媒体の大容量化は目を見張るものがあり、ネットワーク端末で直接3次元モデリングを処理することも可能になり、SMILE記法が持っていた長所は急速に色あせてきている。

実例


構造式中の原子元素記号で表現され、の場合はhref="http://articles.gourt.com/ja/水酸化物">水酸化物イオンは[OH-の様に表される。そして「有機化学サブセット」の元素、C, N, O, P, S, Br, Cl, Iの場合は角括弧は省略し、それ以外の全ての元素は角括弧で括らなくてはならない。角括弧を省略した原子は、暗黙の水素原子が適宜付いているとみなされる。つまりSIMLESではは単に'O'と表され、エタノールは'CCO'と表される。二重結合を持つ二酸化炭素は'O=C=O'の様に表され、三重結合を持つシアン化水素は'C#N'と表される。シクロヘキサンを表す'C1CCCCC1'の二つの'1'の数字は分子の同一の位置で繋がっていて、炭素の6員環を形成していることを表す。分岐は括弧で表され、'CCC(=O)O'はプロピオン酸を表し、'FC(F)F'ないしは'C(F)(F)F'は、フルオロホルムを表している。

外部リンク


  • SMILES の教本, http://www.daylight.com/smiles/smiles-intro.html
  • SMILES文字列を2次元画像に変換機能を持ったWebを使ったアプリケーション
    • http://www.daylight.com/daycgi/depict
    • http://cactus.nci.nih.gov/services/gifcreator/ 種々の調節項目を持ったコンバーター
  • SMILESを生成する機能を持った分子エディター・アプレット, http://www.molinspiration.com/jme/index.html
  • SMILES文法チェック, http://www.dalkescientific.com/writings/diary/archive/
  • SMILES変換フリーウェア, http://www.acdlabs.com/download/chemsk.html
  • SMILES用三次元分子ビューアー, http://jmol.sourceforge.net/
  • Happy Atom: このプロジェクトでは、 正規化圧縮距離のアイデアをSSMILES言語 と SMILES言語に使って開発している。
  • E-BABEL OpenBabel に基づく分子の相互転換

関連項目


化学

SMILES | SMILES | Simplified molecular input line entry specification | SMILE | SMILES | SMILES | SMILES | SMILES | SMILES

 

This article is licensed under the GNU Free Documentation License. It uses material from the "SMILES記法".

Home Pageartsbusinesscomputersgameshealthhospitalshomekids & teensnewsphysiciansrecreationreferenceregionalscienceshoppingsocietysportsworld