Если ученые не могут прийти к консенсусу о том, что является ошибкой коллайдера, а что – нет, вероятно, нечестно требовать от журналистов и читателей разбираться в этом. Но стоит помнить о том, что корреляция может сбивать с толку самыми разными способами, даже если в исследовании приняты все меры для контролирования других факторов. Иногда их контролирование может даже усугубить проблему.
Глава 22
Закон Гудхарта
В апреле 2020-го Великобритания, которая не слишком успешно боролась с ковидом, отчаянно стремилась внедрить систему тестирования.
Трудно сказать, почему у одних стран все получалось, а у других – нет; возможно, в будущем мы доберемся до истины. Но одно было заметно: многие государства, сумевшие на начальном этапе ограничить распространение инфекции, обладали эффективными системами тестирования. Великобритания в этом вопросе долгое время отставала.
Поэтому в начале апреля министр здравоохранения Мэттью Хэнкок объявил, что к концу месяца в стране будет делаться 100 000 тестов ежедневно. На тот момент их проводилось примерно 10 000.
И тогда все закрутилось странным образом. Политические журналисты, привыкшие, что при голосовании в парламенте или на выборах пересечение магического порога между «недостаточно» и «достаточно» играет важную роль, начали «внимательно следить за цифрами». К 20 апреля до заветного показателя было весьма далеко. Но 1 мая – как по мановению волшебной палочки – Хэнкок в прямом телеэфире объявил (тут у нас идет барабанная дробь), что «вчера, в последний день апреля, было проведено 122 347 тестов». «Я знаю, это дерзкая цель, – добавил он, – но мы нуждались в дерзкой цели, поскольку тестирование чрезвычайно важно, для того чтобы Британия снова прочно встала на ноги».
Все хорошо, что хорошо кончается, так? Ну, не совсем. Оказалось, что залихватское число 122 347 скрывает ворох проблем.
Во-первых, изначально ставилась цель проводить 100 000 тестов в день. Но к концу апреля министры говорили о возможности их проводить, а Хэнкок рассылал электронные письма своим консервативным сторонникам, уговаривая их записаться на тестирование.
Это уже само по себе было плохо. Но что еще хуже, число 122 347 включало почти 40 000 тестов, разосланных по почте и совсем необязательно использованных. Позже оказалось (как было безжалостно подтверждено документами в программе «Более-менее» канала BBC Radio 4), что в заявленное правительством число включались и тесты на антитела, которые определяют, переболел ли человек ковидом. Это тоже важные тесты, но они отличаются от ПЦР-тестов, выявляющих, болен ли человек сейчас и нуждается ли в изоляции. Сюда же включали и людей, которым сделали несколько тестов в один и тот же день, потому что первый тест не получился. Так что реальное число оказалось намного ниже 100 000, и еще много майских дней оставалось на том же уровне. В итоге британскому правительству его собственный статистический контрольный орган дважды сделал выговор за манипуляции с количеством выполненных тестов.
Что же пошло не так? Как может такое простое число – количество проведенных тестов – вызвать такую путаницу и неразбериху?
В экономике есть старая поговорка – закон Гудхарта, названный в честь бывшего экономического советника Банка Англии Чарльза Гудхарта: «Как только экономический показатель становится целевой функцией, он перестает работать». Формулировка может показаться абстрактной, но сам закон имеет серьезные последствия, и, разобравшись в нем, вы станете замечать примеры его действия повсюду. Он означает, что, какие бы параметры ни применялись для оценки деятельности в той или иной сфере, всегда найдется способ уйти из-под контроля.
Классический пример – образование. Представим, что некоторые ученики из некоторых школ достигают в жизни больших успехов, чем ученики других школ; они чаще поступают в университеты, чаще находят работу и вообще процветают и становятся высокообразованными гражданами. Вы присматриваетесь и замечаете, что ученики процветающих школ получают более высокий процент оценок от C до A* на экзамене GCSE (или еще каком-нибудь), чем остальные.[34][35]
Прекрасно, думаете вы. Вот показатель, по которому можно оценивать работу школ. Вы начинаете ранжировать их по проценту учеников, которые получают эти более высокие оценки. Школы с более высоким процентом будут награждаться; к школам с более низким процентом будут применяться специальные меры – увольнение директоров или другие наказания.
Вскоре вы видите, что школы массово повысили долю оценок от C до A*. И это хорошо! Но еще вы замечаете, что выпускники этих школ – несмотря на свои блестящие аттестаты – не кажутся такими высокообразованными гражданами, какими вы надеялись их увидеть.
Нетрудно догадаться, что произошло. Директора и органы управления образованием надавили на учителей, требуя увеличения процента высоких оценок. Несомненно, большинство педагогов искренне пытались подтягивать отстающих, но поняли, что невыполнение целевых показателей плохо скажется на их карьерном росте.
Тогда некоторые учителя постарались найти самый быстрый и простой способ достижения необходимых значений. А самый быстрый и простой способ – это не всесторонне развивать учеников в духе Аристотеля, обеспечивая здоровый дух в здоровом теле, поощряя любознательность и опираясь на сильные стороны каждого. Самый быстрый и простой способ – дать ученикам сотни примеров из экзаменов прошлых лет и объяснить, к чему готовиться. Самый быстрый и простой способ – обмануть систему.
Это гипотетический пример, но что-то похожее произошло и в реальной жизни. Как отмечала исследовательница в сфере образования Дейзи Христодулу, в 2013 году, когда в Великобритании количество оценок от C до A* стало целевым показателем, учителя стали хитрить, уделяя особое внимание ученикам с оценками между С и D, – ведь именно с их помощью можно было сильнее всего повысить показатели.
Подобные примеры есть и в области здравоохранения. В Орегоне рейтинги медучреждений учитывают среди прочего внутрибольничную смертность, то есть процент умерших среди госпитализированных. Но в 2017-м врачи пожаловались, что больничная администрация отказывается принимать некоторых тяжелобольных из опасения, что они умрут и тем самым испортят статистику. В 2006-м американская система Medicare начала проводить программу снижения повторной госпитализации, подсчитывая, сколько больных с сердечной недостаточностью были снова госпитализированы в течение 30 дней после выписки. Проведенное в 2018 году исследование показало, что на самом деле эта программа привела к повышению смертности, поскольку больницы, по-видимому, откладывали госпитализацию на 31-й день, стараясь не испортить свою статистику [36].
Мы уже обсуждали другой пример: принцип научной карьеры – «публикация или смерть», когда ценность ученого определяется числом опубликованных им статей, – и связанная с ним практика, когда вероятность публикации существенно ниже, если в ней не достигнута статистическая значимость (и не получен положительный результат). Это приводит к тому, что ученые изо всех сил стараются опубликовать свои статьи, даже если это бесполезный хлам, и манипулируют статистикой для получения p < 0,05, а если результат оказался нулевым, то просто не спешат обнародовать рабочие материалы. Одна работа выявила, что ученые часто фальсифицируют показатели