седых волос и тем медленнее он бегает.
Если вы сделаете поправку на возраст, зависимость может исчезнуть. Подобные искажающие переменные способны спутать результаты: если вы не будете их учитывать, ваши результаты, скорее всего, окажутся преувеличенными или приуменьшенными. В итоге могут обнаружиться выдуманные связи вроде той, что седые волосы заставляют бежать медленнее.
Это можно отобразить на диаграмме – направленном ациклическом графе. Укажем направление стрелок причинно-следственной связи: искажающая переменная служит причиной двух других: независимой, которую вы выбираете (седые волосы), и зависимой, на которую, по вашему мнению, может оказывать влияние независимая (скорость бега). Нас интересует, влияет ли седина на скорость бега – черная стрелка на нижней диаграмме. Однако, несмотря на корреляцию между этими переменными, на самом деле на обе – как показывают белые стрелки – влияет третий фактор: возраст.
Контроль искажающих переменных необходим – он входит в кодекс чести статистиков. Но это не значит, что нужно контролировать как можно больше переменных, предполагая, что все они искажающие: это не всегда верно. Иногда после добавления в анализ дополнительной переменной две переменные покажутся связанными, хотя на деле это не так.
Вот один пример. Предположим, что актерский талант и физическая привлекательность не связаны; талантливый актер не с большей (и не с меньшей вероятностью) красив, чем любой другой человек. Одна характеристика не дает вам никакой информации о другой.
А теперь представьте, что тот, кто обладает красотой или актерским талантом, может сделать карьеру. Например, стать знаменитым голливудским артистом. Некрасивым и бесталанным вряд ли это удастся, так что большинство знаменитых актеров должны обладать либо красотой, либо талантом, либо и тем и другим.
Но если рассматривать голливудских актеров и только их, то обнаружится интересная закономерность: наиболее привлекательные из них обычно менее талантливы, чем менее привлекательные, хотя среди населения в целом эти характеристики не связаны.
Это происходит потому, что знаменитые актеры выбираются на основании этих двух характеристик. Если вы потрясающе привлекательны, от вас не требуют выдающегося таланта, и наоборот. Таким образом все непривлекательные плохие актеры удаляются из выборки немедленно, и диаграмма выглядит так, как на следующей странице.
Похожая ситуация с поступлением в американские колледжи, куда зачисляются способные ученики или хорошие спортсмены. Среди населения в целом эти характеристики не связаны или связаны очень слабо. Но поскольку для поступления в колледж достаточно одного из этих свойств, среди американских студентов спортивные таланты отрицательно связаны со способностями к учебе. (Отсюда стереотипы о тупых качках.)
Эти примеры объясняются выбором данных: вы рассматриваете только голливудских актеров или только американских студентов. Но то же самое произойдет, если вы рассмотрите все данные, а потом проконтролируете их по этим переменным. Например, если у ребенка температура, он мог отравиться или простудиться. (Возможны и другие причины, но мы ограничимся этими двумя.) Будем считать, что эти две болезни совершенно не связаны: если ребенок заболел одной из них, нет никаких оснований считать, что он с большей вероятностью заболеет и другой.
Но если бы вы проводили исследование в поисках зависимости между пищевым отравлением и гриппом, контролируя наличие у человека температуры, то могло бы показаться, что дети с пищевым отравлением с меньшей вероятностью больны гриппом и что отравление как-то защищает от гриппа.
Это напоминает ситуацию с красивыми-или-талантливыми-но-редко-теми-и-другими актерами: возможно, если у вас температура, то у вас либо пищевое отравление, либо грипп, но, вероятно, не оба вместе. В данном случае смещение происходит не от того, что мы смотрим на определенную группу людей (на голливудских актеров). Тут проблема в том, что исследователь думает, будто контролирует искажающую переменную, чтобы устранить смещение, а на самом деле вводит переменную-коллайдер и случайно создает его.
Такой коллайдер – противоположность искажающей переменной: если искажающая переменная является причиной обеих переменных, которые вы рассматриваете, то тут они обе являются причиной коллайдера. Поэтому если контролирование искажающей переменной устраняет смещение, то контролирование коллайдера (или выбор по нему) может внести смещение. (Название «коллайдер» объясняется тем, что стрелки в нем сталкиваются.) Мы снова можем показать это на направленном ациклическом графе: помните, черная стрелка – это то, что мы пытаемся исследовать, а белые стрелки показывают, что на что влияет:
Реальные примеры коллайдеров в здравоохранении были впервые обнаружены в 1978 году, а с тех пор появлялись еще несколько раз.
Происходит ли что-то подобное с ковидом и курением? Возможно. В мае 2020-го вышел препринт, где рассматривался вопрос о том, каким образом ошибка коллайдера может искажать наше понимание пандемии коронавируса. Там отмечалось, что, несмотря на значительное число наблюдений, исследуемые пациенты не всегда отражали состав населения в целом, потому что их отбирали по вполне определенным причинам.
В случае с курением, отмечалось в статье, на раннем этапе пандемии тестировали не случайных людей. Часто это были медицинские работники. А медицинские работники курят меньше, чем население в целом.
Но другая категория часто тестируемых – люди с серьезными симптомами. Таким образом, тест на ковид делали медицинским работникам и людям с тяжелым течением ковида, и в случае положительного результата их госпитализировали. Но свойство «быть медицинским работником» связано со свойством «не курить», поэтому среди тех, кто получил положительный результат теста на ковид, был выявлен большой процент некурящих медицинских работников.
Помните пример с привлекательными или талантливыми актерами? Это очень похожая ситуация. Только теперь мы отбираем не тех, кто «стал известным актером», а тех, кто «получил положительный тест на ковид». Для получения положительного теста вам надо или 1) иметь очевидные симптомы ковида, или 2) быть медицинским работником (а потому, вероятно, некурящим). Если вы не обладаете ни тем, ни другим свойством, то останетесь без теста, поэтому, рассматривая только тех, кому сделали тест, можно сделать вывод, что эти два свойства связаны, даже если это не так.
В препринте демонстрировалось, что даже если между некурением и тяжестью ковида нет никакой связи, некоторые реалистичные предположения о доле курящих среди населения в целом и их доле среди тестируемых групп могут создать впечатление о значительной корреляции. В настоящий момент нет уверенности, что курение не предохраняет от ковида, но поскольку это звучит не слишком правдоподобно, следует отнестись к этой гипотезе с большим подозрением.
Выявить ошибку коллайдера очень сложно. Например, некоторые ученые утверждают, что парадокс ожирения (тот факт, что страдающие ожирением реже умирают от диабета, чем люди с нормальным весом) объясняется именно ошибкой коллайдера, а другие ученые это опровергают. В настоящее время об этом идут большие споры.