SMILES () — система правил (спецификация) однозначного описания состава и структуры молекулы химического вещества с использованием таблицы компьютерных символов ASCII. Название является аббревиатурой от английского выражения Simplified Molecular Input Line Entry Specification (спецификация упрощенного представления молекул в строке ввода). Название в английском языке имеет неоднозначность, являясь омонимом к слову smiles (улы́бки), однако пишется только прописными буквами. В русском языке однозначного аналога не имеет, рекомендуется употребление на языке оригинала. Произносится: сма́йлз.
Строка символов, составленная по правилам SMILES, может быть преобразована многими молекулярными редакторами в двухмерную или трёхмерную структурную формулу молекулы.
Первоначальный вариант спецификации SMILES был разработан Артуром Вейнингером (Arthur Weininger) и Дэвидом Вейнингером (David Weininger) в конце 1980-х. Он был модифицирован и расширен, в основном усилиями компании Daylight Chemical Information Systems Inc.
Other 'linear' notations include the Wiswesser Line Notation (WLN), ROSDAL and SLN (Tripos Inc). Recently, the IUPAC has introduced the InChI as a standard for formula representation. SMILES is generally considered to have the advantage of being slightly more human-readable than InChI; it also has a wide base of software support with extensive theroretical (eg, graph theory) backing.
Атомы записываются стандартными обозначениями химических элементов в парных квадратных скобках, например для золота. Гидроксильный анион записывается [OH-. Скобки могут быть опущены для «органических элементов» - B, C, N, O, P, S, F, Cl, Br, и I. Все остальные элементы должны заключаться в скобки. Если скобки опущены, то водородные атомы не записываются. Например, формула SMILES для воды - просто O, а для этанола - CCO.
Двойная связь, например, в двуокиси углерода записывается O=C=O. Тройная связь, например в синильной кислоте записывается C#N.
Разветвления записываются с помощью парных круглых скобок, например CCC(=O)O для пропионовой кислоты, и C(F)(F)F for фтороформа. Последний может быть записан в неканонической форме как FC(F)F.
Циклогексан записывается как C1CCCCC1, правило заключается в том, что два номера 1 обозначают одинаковое положение атомов в молекуле и таким образом представляется цикл из шести атомов углерода.
Ароматичность углеродного цикла, атомы кислорода, серы и азота записываются строчными буквами 'c', 'o', 's' и 'n' соответственно. Связи в ароматическом цикле редко указываются явным образом, за исключением варианта SMARTS. Так, формула бензола записывается c1ccccc1.
SMARTS – модификация SMILES, которая позволяет использовать неупорядоченную структуру атомов и связей. Широко используется в системах поиска в базах данных о веществах. Практика применения вызвала распространённое заблуждение, что в компьютерном поиске структур производится сравнение записей-цепочек, в то время как производится гораздо более производительное сравнение графов, построенных на основании формул SMILES.
Формула SMILES может быть преобразована в двухмерною структурную формулу при помощи алгоритма (Structure Diagram Generation algorithms), разработанного Хелсоном (Helson, 1999). Преобразование не всегда даёт однозначный результат. Преобразование в трехмерную структурную формулу производится с использованием принципа минимальной энергии образования вещества.
SMILES | SMILES | Simplified molecular input line entry specification | SMILE | SMILES | SMILES | SMILES記法 | SMILES | SMILES | SMILES | SMILES