о том, насколько высоко они оценивают преподавание и исследования в 200 различных учебных заведениях. Поскольку большинство респондентов не посетили ни одной лекции в большинстве из этих вузов, многое тут будет основано лишь на догадках. Поэтому рейтинги университетов весьма волатильны. Например, Манчестерский университет, в котором учился Дэвид, занимает 27-е место в мировом рейтинге, но 40-е – в рейтинге британских университетов по версии
The Guardian. Это, конечно, смешно: если в одной Великобритании 39 университетов лучше Манчестерского, то в мире их наверняка больше 26, раз мир содержит Великобританию. С Королевским колледжем Лондона, где Том был аспирантом, та же история: 63-й в Великобритании и 31-й в мире.
Эти противоречивые результаты объясняются выбором факторов, включаемых в оценку, и весами этих факторов: если решить, что удовлетворенность студентов важнее научной репутации, то результаты будут иными. Выбор того, что именно стоит принимать во внимание, сильно меняет положение. Это не означает, что рейтинги неверны, просто не стоит воспринимать их как истину в последней инстанции.
Вернемся к рейтингам PISA. На чем они основаны? Много ли от них пользы?
Прежде всего отметим, что они не столь субъективны, как рейтинги университетов. Баллы присуждаются по результатам стандартизированных экзаменов для 15-летних школьников, которые проводятся во всех участвующих в рейтинге странах; вопросы касаются математики, естествознания и навыков чтения. И похоже, что эти тесты значимы и в реальной жизни: дети, получившие высокие баллы на экзаменах PISA, в дальнейшем лучше учатся и имеют больше шансов найти работу, чем те, кто сдал экзамены хуже. Следовательно, на экзаменах PISA проверяется нечто действительно важное, поэтому данные рейтинги не то чтобы совсем бессмысленны.
Но рейтинги PISA базируются на баллах PISA, и в большинстве наиболее богатых развитых демократических стран (таких как Британия) эти баллы разнятся мало. Посмотрим, например, на чтение: в Соединенном Королевстве средний балл – 504, как и в Японии, на один выше, чем в Австралии, и на один ниже, чем в США. В целом баллы колеблются в диапазоне от 555 (в четырех китайских провинциях) до 320 (в Мексике и на Филиппинах); 20 стран – почти все из них богатые, развитые и демократические – набрали баллы от 493 до 524. Даже маленькое, статистически несущественное уменьшение приведет к тому, что Великобритания опустится на несколько позиций. Фактически рейтинг PISA показывает, что баллы Великобритании статистически неотличимы от баллов Швеции (506), Новой Зеландии, США, Японии, Австралии, Тайваня, Дании, Норвегии и Германии (498). Теоретически некая страна может прыгнуть с 20-го на 11-е место без каких-либо реальных изменений. (Рейтинг Великобритании по математике повысился с 27-го до 18-го места, и это очевидно было статистически значимо.)
Опять-таки это не значит, что рейтинги бессмысленны. Но это значит, что сами по себе они не очень полезны: все зависит от того, какие баллы лежат в их основе и из чего эти баллы складываются. Вам важно, что ваша футбольная команда обогнала соперников на одно очко, но может быть совершенно не важно, что ВВП вашей страны на 1 % меньше ВВП Индии.
Глава 14
Как результаты нового исследования соотносятся с другими публикациями?
Вот это да! Хорошая новость! «Исследование показало, что небольшой бокал красного вина в день может помочь избежать возрастных заболеваний – диабета, Альцгеймера, сердечных болезней».
Хотя постойте-ка! «Бокал красного НЕ полезен для сердца. Ученые развенчивают миф, что умеренное потребление алкоголя полезно для здоровья».
Хм-м.
И снова хорошая новость! «Один бокал богатого антиоксидантами красного вина в день снижает риск рака простаты у мужчин более чем на 10 %».
Опять постойте-ка… «Даже один бокал вина в день повышает вероятность развития рака: тревожное исследование показывает связь выпивки по меньшей мере с СЕМЬЮ формами заболевания».
Да, пить красное вино и читать Daily Mail – всё равно что кататься на американских горках. И дело не в том, что Mail что-то выдумывает (или что только у них одних есть подобные публикации): все эти заголовки опираются на реальные исследования, проведенные в последние пять лет. Так что же в итоге? Красное вино – эликсир вечной жизни или смертельный яд?
Вспомним главу 3, где мы говорили о размерах выборки, и главу 5, где обсуждали p-значения. Если вы проводите исследование, или опрос общественного мнения, или еще что-нибудь, пытаясь с помощью выборок выяснить что-то – сколько избирателей готовы проголосовать за лейбористов или насколько эффективно лекарство, – полученные данные необязательно будут точно отражать истину. Даже если вы взяли несмещенную выборку и правильно организовали исследование, результат может по чистой случайности оказаться выше или ниже реального значения.
Из этого следует очевидное. Предположим, что поедание рыбных палочек слегка уменьшает вероятность храпа. (Маловероятный сценарий, но предположить-то можно все?)
Допустим, что для изучения влияния палочек на храп ученые провели кучу исследований. И пускай, хотя некоторые из них были совсем небольшими, проведены они были превосходно и без публикационного сдвига (см. главу 15), p-подгонки (глава 5) или еще каких-нибудь статистических выкрутасов. (В такое тоже трудно поверить, но будем держаться выбранного пути.)
Можно ожидать, что в среднем исследования покажут: любители рыбных палочек храпят чуть меньше. Но результат любого отдельного исследования может слегка отличаться. Если исследования по-настоящему непредвзятые, то их результаты должны подчиняться нормальному распределению (о котором мы говорили в главе 3) с пиком в точке реального эффекта. Результаты некоторых будут выше, некоторых – ниже, у большинства – почти точные.
Поэтому, если проведено много исследований связи между рыбными палочками и храпом, то часть из них дадут не соответствующие реальности результаты. Они могут недооценивать или переоценивать эффект; могут показать, что эффекта нет вовсе; и даже прийти к выводу, что рыбные палочки вызывают храп. И снова: это вовсе не значит, что с исследованиями или с публикациями что-то не то. Всё это – просто следствия случайности.
Разумно постараться определить, вокруг какой точки концентрируются результаты всех исследований, то есть чему равен средний результат. Вот почему в начале научной статьи обычно дается обзор литературы – чтобы поместить ее результаты в общий контекст исследований. Иногда исследователи публикуют метаанализ – научную статью, где анализируются все имеющиеся публикации с целью объединить их результаты. Если исследований достаточно много и если не было никакого систематического смещения ни в исследованиях, ни в публикациях (это два очень серьезных «если», как мы уже упоминали), то объединенный результат даст довольно точное представление об истинной величине эффекта.
Именно так развивается наука, по крайней мере в теории. Каждое новое исследование добавляется к стопке предыдущих. Теперь это новый набор данных, который, можно надеяться, в среднем приблизит общенаучное представление к реальности.
А теперь представьте, что публикуется новое исследование и ученые вместо того, чтобы сказать: «Это исследование уточняет, а возможно, слегка изменяет наше