уровень может не соответствовать особенностям вашей отрасли. Кроме того, этот уровень может быть установлен вашим специалистом по работе с данными, который умолчал об этом изменении, сообщив вам лишь о том, что результат оказался статистически значимым. В худшем случае кто-то может провести тест и выбрать уровень значимости задним числом, – это все равно что бросить дротик, а затем передвинуть в нужное место мишень. Например, кто-то может провести статистический тест, получить
p-значение 0,11, а затем задать уровень значимости 0,15, чтобы результат оказался статистически значимым.
Вот почему всегда важно спрашивать: «Каков уровень значимости?»
С практической точки зрения понижение уровня значимости, скажем, с 5 до 1 % сокращает количество ложноположительных заключений. Это задает более высокую планку для отклонения нулевой гипотезы. В этом случае данные должны быть более экстремальными (или, по крайней мере, убедительными), чтобы вы отвергли нулевую гипотезу. Звучит не так уж и плохо, правда? Однако обратная сторона этого – увеличение числа ложноотрицательных заключений. Достичь компромисса в данном случае непросто, и какой-то универсальной рекомендации дать нельзя. Достижение правильного баланса зависит от конкретной проблемы и вашей способности справляться с последствиями ошибок, связанных с ложноотрицательными и ложноположительными заключениями.
Сколько тестов вы проводите?
После выяснения уровня значимости спросите своих специалистов по работе с данными, сколько тестов они проводят. Поскольку они смотрят на данные по-разному, они могут провести десятки, а то и сотни неформальных статистических тестов с уровнем значимости в 5 %. Например, предположим, что исследователь тестирует большой набор данных о больных раком и типах пищевых продуктов, которые они едят, пытаясь выявить те продукты, которые могут быть связаны с более высокими показателями выживаемости. При наличии в базе данных 100 различных видов продуктов питания и использовании уровня значимости в 5 %, 5 продуктов покажутся статистически значимыми в борьбе с раком, даже если ни один из них не оказывает реального эффекта[67].
Каковы доверительные интервалы?
Ранее мы уже немного поговорили о доверительных интервалах и некоторых их компонентах. Пришло время собрать все фрагменты вместе.
Что мы подразумеваем под словом «доверие»? Как и в случае с понятием «значимость», смысл этого слова в статистике несколько отличается от повседневного. В статистике значимость и доверие неразрывно связаны. На самом деле между уровнем значимости и уровнем доверия существует симметрия – уровень значимости в 5 % соответствует уровню доверия в 95 %. Если более формально, то уровень доверия = 1 – уровень значимости. Поэтому вместо фразы «Мы отвергли нулевую гипотезу на уровне значимости 5 %» вы можете услышать фразу: «Мы отвергли нулевую гипотезу на уровне доверия 95 %».
Теперь давайте разберемся, почему человеку, анализирующему статистические результаты, следует запрашивать доверительные интервалы. Как говорилось ранее, доверительный интервал должен содержат истинное значение интересующего вас параметра популяции. В примере с опросом, который рассматривался ранее в главе, 95 % доверительный интервал при размере выборки N = 1000 составлял (62,5 %, 68,5 %). Предположим, что вместо 1000 студентов нам удалось опросить только 100, и 65 % из них сказали «да». В данном случае 95 % доверительный интервал составляет (54,8 %, 74,2 %). Данный интервал намного шире исходного из-за гораздо меньшего размера выборки. В связи с этим мы допускаем больший диапазон значений, которому, по нашему мнению, должна принадлежать интересующая нас доля популяции. Однако по мере увеличения размера выборки N доверительный интервал сокращается. Больше данных – больше доказательств и меньше неопределенности. Логично, не правда ли? Если вам удастся собрать данные обо всей популяции, то необходимость в доверительном интервале отпадет: вы найдете истинное значение интересующего вас параметра популяции.
Доверительные интервалы также позволяют оценить размер эффекта в статистическом тесте[68]. Предположим, вы хотите узнать, совпадает ли рост у баскетболисток из США и Европы. Первым делом вы формулируете нулевую и альтернативную гипотезы:
– H0: Средний рост американских баскетболисток = Среднему росту европейских баскетболисток.
– Ha: Средний рост американских баскетболисток ≠ Среднему росту европейских баскетболисток.
Теперь представьте, что ваш аналитик собирает данные и вычисляет p-значение для сравнения с уровнем значимости в 5 %. Согласно результатам этого сравнения p-значение меньше уровня значимости. У баскетболисток из США и Европы разный рост, и результаты являются статистически значимыми[69].
Однако не кажется ли вам, что вы что-то упускаете? Иногда мы рассматриваем статистическую значимость как некое подтверждение. О, ваши результаты статистически значимы? Это означает, что они на 100 % верны. Однако статистические тесты проводятся для обнаружения любой разницы, независимо от степени ее важности. Вот почему вам никогда не стоит довольствоваться p-значениями. Вернемся к примеру с баскетболистками и предположим, что средний рост игроков из США и Европы составляет 72 дюйма (183 см) и 71,5 дюйм (182 см) соответственно, а 95 % доверительный интервал для этой разницы составляет 0,5 +/– 0,4 дюйма (1 см).
Имеет ли размер эффекта в полдюйма (1 см) практическое значение и представляет ли он вообще какой-либо интерес?
Имеет ли это практическое значение?
Крайне небольшие эффекты могут быть обнаружены при исследовании большой выборки. Если вы видите только p-значения, а не доверительные интервалы, то можете подумать, что обнаружили большой эффект, хотя на самом деле выявили лишь незначительное различие, не имеющее практической ценности. Итак, глядя на доверительные интервалы, спросите себя, является ли то, что вы видите, практически значимым эффектом.
Предполагаете ли вы наличие причинно-следственной связи?
Вы уже почти забыли о стажере. Вам интересно, привела ли его работа к повышению уровня удовлетворенности клиентов в этом квартале по сравнению с предыдущим. Чтобы представить вам доказательства улучшения, стажер сформулировал нулевую и альтернативную гипотезы следующим образом:
– H0: Уровень рекомендаций в этом квартале ≤ Уровню рекомендаций в прошлом квартале.
– Ha: Уровень рекомендаций в этом квартале > Уровня рекомендаций в прошлом квартале.
В конце каждого квартала проводился опрос с использованием выборки, состоящей из 100 клиентов. В предыдущем квартале о своей готовности рекомендовать компанию сообщили 50/100 клиентов, а в этом квартале – 65/100. Являются ли результаты статистически значимыми при уровне 5 %?
С помощью статистического теста[70] стажер вычисляет p-значение. Оно равно 0,02, то есть меньше 0,05, что позволяет вам отклонить нулевую гипотезу и признать то, что разница в результатах двух кварталов является статистически значимой. Стажер очень радуется и чувствует, что ему удалось компенсировать свое плохое выступление на баскетбольной площадке. «Похоже, мне удалось повысить уровень удовлетворенности клиентов».
Но так ли это? Корреляция не доказывает наличие причинно-следственной связи. Уровень удовлетворенности клиентов мог повыситься благодаря целому ряду факторов, и если только