Прогноз: клинический или статистический?
Теперь, когда нам известно о существовании тенденций к хиндсайту и к поиску информации, подтверждающей диагноз, нас не должно удивлять то, что большинство клиницистов и интервьюеров больше доверяют своим интуитивным оценкам, чем статистическим данным (например, использованию для прогнозирования успеха в аспирантуре или в профессиональной школе [Профессиональная школа — учебное подразделение третьего цикла в составе университета. — Примеч. перев.] прошлых оценок академической успеваемости или результатов тестирования способностей). Тем не менее, когда исследователи «вызывают на ринг» прогнозы, основанные на интуиции, и прогнозы, основанные на статистике, победа, как правило, достается последним. Правы те, кто считает статистику ненадежной основой для прогнозов, но человеческая интуиция — даже интуиция специалистов — ещё менее надежна (Faust & Zuskin, 1988; Meehl, 1954; Swets et al., 2000).
Спустя три десятилетия после того, как было доказано превосходство статистических прогнозов перед интуитивными, Пол Мил нашел ещё более убедительное свидетельство в пользу первых.
«Никто из представителей социальной науки не оспаривает результатов исследований, демонстрирующих такое единообразие и такую стабильность, как эти… Если вы, проведя 90 исследований, связанных с прогнозированием самых разных вещей, от результата футбольного матча до диагноза болезни печени, с трудом набираете полдюжины работ, содержащих хотя бы слабый намек на правоту клинициста, самое время сделать практический вывод…»
(Meehl, 1986).
Рассмотрим три примера.
— В своей книге «Карточный домик: психология и психотерапия, основанные на мифе» Робин Доуз доказывает несостоятельность претензий «клинической интуиции» (House of Cards: Psychology and Psychotherapy Built on Myth, Dawes, 1994). Так, в 1970-е гг. Медицинская школа Университета штата Техас в Хьюстоне ежегодно принимала по 150 студентов, отобранных из 800 наиболее квалифицированных абитуриентов на основании оценок интервьюеров. Когда же законодательный орган штата неожиданно потребовал принять на 50 человек больше, были приняты те, кто оказался в тот момент «под рукой», — те, кому интервьюеры выставили невысокие оценки. И что же? Чем успеваемость одних отличалась от успеваемости других? Ничем. В обеих группах, в одну из которых входили 150 обладателей самых высоких оценок, а в другую — 50 обладателей самых низких оценок, оказалось одинаковое относительное количество выпускников, получивших степени магистра (82 %) и награды. Уже на втором году обучения обе группы демонстрировали одинаковые успехи. Вывод, не делающий чести интервьюерам: одни из них справляются со своими обязанностями лучше, чем другие.
— Группа исследователей из Министерства юстиции Канады обобщила результаты изучения 64 выборок, в которые вошли более 25 000 человек с нарушениями психики, обвинявшихся в совершении уголовных преступлений. На основании чего был сделан наиболее точный прогноз относительно их криминального будущего? На основании их криминального прошлого, т. е. на основании того же, что прогнозирует и поведение преступников с нормальной психикой. На основании чего был сделан наименее точный прогноз? На основании таких клинических прогностических параметров, как суждения клиницистов (Bonta et al., 1998).
«Чтобы подытожить влияние работ Мила на клиническую практику психиатров, достаточно одного-единственного слова — ноль. Его окружили почетом — избрали президентом [Американской психологической ассоциации] в очень молодом возрасте (в 1962 г.), а недавно — и членом Национальной Академии наук, и больше о нем никто не вспоминает. Робин М. Доуз, 1989»
— К такому же выводу пришла и группа исследователей из Университета штата Миннесота, выполнившая метаанализ (обзор) результатов 134 исследований, посвященных прогнозированию поведения людей, а также психологическим или медицинским диагнозам и прогнозам (Grove et al., 2000). Лишь в 8 исследованиях, большинство из которых проведены в условиях медицинских, психиатрических или образовательных учреждений, клинические прогнозы оказались более точными, чем «механические» (т. е. сделанные на основании статистики). Исследований, свидетельствующих о превосходстве статистических прогнозов, оказалось в 8 раз больше (63 публикации); по результатам остальных исследований статистический и клинический прогнозы фактически равноценны. Но может быть, клинические прогнозы будут другими, если клиницистам предоставить возможность самим проводить интервью? На этот вопрос исследователи отвечают утвердительно: когда у клиницистов есть такая возможность, они прогнозируют значительно хуже. «Справедливости ради следует сказать, что сейчас “мяч находится на стороне поля клиницистов”, — заключают авторы обзора. — Учитывая то, что в целом прогнозы клиницистов значительно уступают в точности механическим прогнозам, груз доказательства обратного (большей точности и экономичности клинических прогнозов) лежит на их адвокатах».
{Лучшее, что могут сделать члены Комиссии по досрочному освобождению и помилованию заключенных штата Алабама, — решать вопрос об освобождении заключенного не на основании собственных впечатлений, а на основании статистических данных, прогнозирующих риск рецидива}
А что, если объединить статистические прогнозы и интуицию клиницистов? Что, если мы снабдим профессиональных клиницистов статистическими прогнозами о чьей-либо будущей академической успеваемости, вероятности нарушения условий досрочного освобождения из тюрьмы или самоубийства и попросим их «отшлифовать» или усовершенствовать их? Увы, результаты тех немногих исследований, авторы которых предприняли подобные попытки, свидетельствуют о том, что прогнозы оправдывались лучше, если все «усовершенствования» игнорировались (Dawes, 1994).
«Заклинаю тебя, ради Христа, подумай о том, что ты можешь ошибаться. Будь моя воля, я написал бы эти слова над входом в каждую церковь, в каждую школу, в каждый зал суда и — да простятся мне эти слова! — в каждый законодательный орган США.
Судья Ученый Муж, 1951. Подражание обращению Оливера Кромвеля к шотландской церкви, 1650»
Почему же в таком случае многочисленная армия клиницистов продолжает интерпретировать тесты Роршаха с чернильными пятнами и прочие интуитивные прогнозы относительно заключенных, освобожденных условно (под подписку о невыезде и т. п.), риска самоубийства или вероятности сексуального насилия в детстве? По мнению Мила, отчасти по причине полнейшего невежества, а отчасти — «из-за превратного толкования понятия “этика”«:
«Если я стараюсь дать какой-либо важный прогноз относительно студента колледжа, преступника или пациента, страдающего депрессией, и пользуюсь для этого средствами, которые скорее неэффективны, чем эффективны, одновременно заставляя этого человека или налогоплательщика тратить в 10 раз больше денег, чем мне понадобилось для составления более точного прогноза, вряд ли подобную практику можно назвать безупречной с точки зрения этики. А то, что мне как составителю прогноза так удобнее, спокойнее и комфортнее, ничуть меня не оправдывает.»
Шокирующие слова. Неужели Мил и другие исследователи недооценивают нашу интуицию? Чтобы убедиться в том, что их мнение справедливо, рассмотрим оценку человеческого потенциала теми интервьюерами, от которых зависит прием в аспирантуру. Доуз объяснил, почему при прогнозировании определенных результатов, например успешности обучения в аспирантуре, статистический прогноз так часто оказывается более точным, чем прогноз, который делает на основании своей интуиции интервьюер (Dawes, 1976):
«Почему мы думаем, что успешнее справимся со своей задачей, если будем отбирать студентов, полагаясь на получасовую беседу с ними, а не на такие собранные воедино релевантные (стандартизированные) переменные, как средний балл и глюкокортикоидный показатель студента выпускного курса, а возможно, и рейтинги рекомендательных писем? Лично мне наиболее правдоподобным кажется такое объяснение: мы слишком переоцениваем свою когнитивную способность. Так оно и есть: все дело в когнитивной заносчивости. Рассмотрим, к примеру, что стоит за средним баллом. Поскольку для большинства претендентов на аспирантуру средний балл — результат обучения как минимум в течение трех с половиной лет, он представляет собой композитный критерий, в котором учтены оценки не менее чем по 28 курсам, а возможно, и по всем 50, если учесть растущую популярность деления курсов на 4 части… Тем не менее от вас или от меня ждут, что мы, просмотрев папку с документами претендента или побеседовав с ним в течение получаса, сформируем более правильное впечатление о нем, чем человек, который примет во внимание кумулятивную оценку, «заработанную» претендентом за три с половиной года у 30–40 разных педагогов… И последнее. Если мы действительно намерены игнорировать средний балл, то объяснение этому может быть только одно: мы заведомо считаем претендента исключительно одаренным, даже если его или её отметки этого и не доказывают. Но что может лучше свидетельствовать об этой одаренности, чем результат тестирования по тщательно разработанному тесту способностей? Неужели мы действительно думаем, что способны лучше справиться с этой задачей, чем Служба тестирования в образовании (Educational Testing Service) со всеми присущими ей недостатками?»