Из-за огромного объема связанных с этим работ часто ограничиваются созданием узкоспециализированного банка данных, ориентированного на решение определенного класса частных задач; в последнее время, однако, предприняты успешные попытки создания более универсальных банков данных. Это очень сложно организованные службы (обычно международные), занятые обработкой существующей и сбором постоянно поступающей новой информации о биологической активности химических соединений.
Но, допустим, все эти, в сущности, технические трудности позади. Решены все языковые проблемы, создан банк данных, можно приступать наконец к анализу связи «структура– активность».
Наиболее универсальные подходы к решению задач подобного рода базируются на теории распознавания образов.
Предположим, идете вы по осеннему лесу, помахивая корзиной, в которой лежат две-три сыроежки, и жадно шарите взором по траве. Стоп – шляпка! Наклонившись, срезали. Осмотрели – типичная свинушка. Как вам удалось это установить? Все очень просто, ответит специалист по теории распознавания образов. Каждый гриб можно описать с помощью некоторого набора признаков: пластинчатый или губчатый, цвет шляпки, форма шляпки и ножки, глянцевитая или матовая поверхность, цвет «мяса» и т.п. Обучаясь различению грибов, вы рассматривали представителей различных их видов, причем знающий человек («учитель») вам говорил: вот это, мол, подберезовик, то – волнушка, а вон то – опенок. Иногда он специально указывал на какой-то отличительный признак – скажем, характерным образом подогнутые края шляпки, иногда вы просто полагались на зрительную память. Таким образом, вы вырабатывали для себя решающее правило, с помощью которого теперь уже без помощи учителя сумеете определить вид вновь найденного гриба, то есть отнести его к соответствующему классу подлежащих распознаванию объектов.
Не всегда вы сможете это правило сформулировать вполне четко. Есть признаки, совершенно однозначно определяющие вид (скажем, белые бородавки на ярко-красной шляпке), присущие многим видам (выпуклая форма шляпки) или практически бесполезные при определении вида (размер). Некоторые комбинации признаков, характерных для данного вида, мы часто воспринимаем «на глаз», и если нас спросят, почему мы решили, что это именно опенок, а не шампиньон или (чур, чур!) бледная поганка, объяснить будет трудно, хотя, положив рядом опенок и шампиньон, мы в конце концов сможем указать вполне конкретные различия в отдельных признаках или их комбинациях. Это – так называемая задача обучения распознаванию образов. Если же вы, к примеру, попали на обитаемый остров, где произрастают разные виды грибов, то, будучи человеком наблюдательным, рано или поздно сами создали бы для себя определенную их классификацию (таксономию), необязательно, конечно, совпадающую с общепринятой научной. Это случай так называемого самообучения.
Если описание объекта можно легко формализовать – например, в качестве признаков используются числа, наличие или отсутствие какого-либо элемента и т.п. – почему бы не поручить задачу распознавания вычислительной машине?
Пусть, для простоты, признаков только два, и оба – числа. Например, имеются результаты обследования ребятишек в детском саду; выяснилось, до скольких ребенок умеет считать (признак a) и измерялся его рост (признак b). Представим графически данные, относящиеся к двум группам, старшей и младшей, откладывая по оси абсцисс признак a, а по оси ординат – признак b, так что каждому объекту (ребенку) будет соответствовать точка. Окончив эту работу, мы убедимся, что точки располагаются на графике двумя «роями» – один поближе к началу координат, другой – подальше от него; если же при построении мы наносили разными цветами точки, соответствующие объектам младшей (зеленые) и старшей (красные) групп, мы обнаружим, что совершенно очевидно первый рой образован почти исключительно зелеными точками, второй – красными.
Вычислим средние значения признаков a и b для двух групп и пометим соответствующие точки на графике (центры групп). Можно предложить следующее решающее правило: данный объект принадлежит той группе, ближе к центру которой расположена соответствующая ему точка. Это – пример так называемой геометрической интерпретации задачи распознавания образов. Если теперь нам предстоит определить на основании параметров a и b, к младшей или старшей группе принадлежит данный курносый объект, нам достаточно нанести на график соответствующую точку, измерить расстояния до центров первой и второй групп и сравнить их между собой. ЭВМ, разумеется, такую процедуру выполняет безо всяких графиков, расчетным путем. Обучение в данном случае заключалось в вычислении средних для двух групп.
Внимательно исследовав еще раз график, мы обнаружим, что принятое нами решающее правило срабатывает не всегда: пара зеленых точек расположена ближе к «красному» центру, чем к своему, «зеленому», и наоборот. Действительно, может иногда встретиться в младшей группе вундеркинд, считающий, скажем, до тысячи, а если он к тому же и ростом заметно обогнал сверстников – наша процедура неминуемо совершит ошибку и отнесет его к старшей группе. Причем такие случаи вовсе не являются следствием несовершенства решающего правила: полностью безошибочная классификация на основании только значений параметров a и b здесь невозможна в принципе, а полученное указание на принадлежность объекта именно этой группе следует трактовать таким образом, что он с большей вероятностью относится к ней, чем к другой. (Вспоминается консилиум у постели Буратино: «Пациент скорее жив, чем мертв».)
Существует много способов вычисления этой вероятности; ясно, что такого рода оценку можно сделать уже на основании величин расстояний от рассматриваемой точки до двух центров. На нашем графике нетрудно провести прямую, точки которой в равной степени удалены от каждого из них, и если точка, соответствующая некоторому объекту, расположится именно на ней, мы с помощью нашего решающего правила вообще ничего не сможем сказать о принадлежности объекта той или иной группе.
Очень, конечно же, большое значение имеет выбор параметров, на основании которых происходит распознавание. В рассмотренном примере этот выбор был удачным в том отношении, что параметры a и b независимы (рост и умственное развитие ребенка в данном возрасте необязательно взаимосвязаны). Кроме того, что еще важнее, оба параметра являются существенными, то есть действительно в среднем различны в двух группах, или, как еще говорят, несут информацию о принадлежности объекта одной из групп.
Что же случается, если избранные параметры не удовлетворяют этим требованиям? Проиллюстрируем это на примерах. Пусть мы вначале решаем нашу задачу, используя всего один параметр – рост. Соответствующие различным объектам точки и центры групп располагаются в этом случае на прямой. Мы убедимся, что качество классификации ухудшится. В самом деле, если какой-то мальчуган из старшей группы ростом не вышел, он будет отнесен неправильно (на прямой соответствующая точка расположится, не доходя середины отрезка между двумя центрами); при классификации же на основании двух параметров расстояние до «неправильного» центра окажется уже большим в силу сдвига соответствующей точки по второй оси, параметру a, поскольку по умственному развитию наш объект находится вполне на уровне своего возраста.
Что произойдет, если в качестве второго параметра мы возьмем не независимое от роста умение считать, а величину, связанную с ростом, – например, вес? Точки на нашем графике расположатся узкой восходящей полоской, причем у верхнего ее конца сосредоточатся красные, у нижнего – зеленые. Качество классификации почти не улучшится: второй параметр несет мало дополнительной информации, чаще всего у ребят большего роста окажется и больший вес.
Выбор для описания объекта взаимозависимых (коррелированных) параметров, однако, ошибка не самая страшная; это лишь затрудняет вычисления, но не оказывает отрицательного влияния на результат. В отличие от этого введение несущественных параметров, значения которых не зависят от того, какой группе принадлежит объект, очень сильно сказывается на качестве распознавания, часто делая процедуру вообще неработоспособной.