Nice-books.net
» » » » «Руководство скептика по Вселенной»: Как отличить реальность от вымысла в мире, который тонет в фальши. - Steven Novella

«Руководство скептика по Вселенной»: Как отличить реальность от вымысла в мире, который тонет в фальши. - Steven Novella

Тут можно читать бесплатно «Руководство скептика по Вселенной»: Как отличить реальность от вымысла в мире, который тонет в фальши. - Steven Novella. Жанр: Зарубежная образовательная литература год 2004. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте Nice-Books.Ru (NiceBooks) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:
побеждает робот, который теряет голову.) Затем итоговый отчет можно «причесать» так, чтобы всё выглядело абсолютно корректно. Это то, что мы называем «пытать данные, пока они не признаются».

Проблема с p-значениями

Существует множество вещей, которые могут пойти не так в научном исследовании, но, пожалуй, главным из них является «p-хакинг». Этот термин происходит от статистического показателя, известного как p-значение. P-значение — это лишь один из способов оценки научных данных. Сначала принимается определенная нулевая гипотеза (например: между этими двумя переменными нет взаимосвязи), а затем задается вопрос: какова вероятность получить данные, по меньшей мере столь же экстремальные, как имеющиеся, если нулевая гипотеза верна? P-значение, равное 0,05 (типичный порог для признания результатов «статистически значимыми»), указывает на 5-процентную вероятность того, что полученные данные обусловлены случайностью, а не реальным эффектом.

Вот только на самом деле это не так. Именно так большинство людей интерпретирует p-значение, но в действительности оно говорит совсем о другом. P-значения не учитывают множество других важных переменных, таких как априорная вероятность, величина эффекта, доверительные интервалы и альтернативные гипотезы. Например, если мы спросим: «Какова вероятность того, что новые данные воспроизведут результаты исследования с p-значением 0,05?», мы получим совершенно другой ответ.

В своем комментарии к этой проблеме для журнала Nature Реджина Нуццо пишет:

Это непростые для понимания концепции, но некоторые статистики попытались предложить ориентировочные правила пересчета (см. раздел «Вероятная причина»). Согласно одному широко используемому расчету, P-значение, равное 0,01, соответствует вероятности ложной тревоги не менее 11% (в зависимости от базовой вероятности существования реального эффекта); P-значение, равное 0,05, повышает эту вероятность как минимум до 29%. Таким образом, вероятность того, что открытие Мотила окажется ложной тревогой, превышала один шанс из десяти. Точно так же вероятность воспроизведения его первоначального результата составляла вовсе не 99%, как предположило бы большинство, а была ближе к 73% — или всего 50%, если бы он хотел получить еще один «крайне значимый» результат. Иными словами, то, что ему не удалось воспроизвести результат, удивительно примерно так же, как если бы при подбрасывании монетки он загадал орла, а выпала решка.

Переформулирую: исследование с p-значением 0,01 при точном воспроизведении может иметь всего лишь 50-процентный шанс снова выдать p-значение 0,01 (а вовсе не 99-процентный, как подумало бы большинство).

Иными словами, люди (даже опытные ученые) склонны относиться к p-значению как к прогностическому показателю, но это не так. Оно никогда для этого не предназначалось. Это всего лишь экспресс-проверка, позволяющая понять, представляют ли данные хоть какой-то интерес или это просто случайный шум.

Вот пример из медицины, который я часто привожу на своих лекциях. Допустим, 1% сорокалетних женщин больны раком груди. Допустим также, что чувствительность маммографии составляет 80% (то есть в 80% случаев она дает положительный результат у пациенток, действительно страдающих раком груди). Ее специфичность составляет 90% (то есть в 90% случаев она дает отрицательный результат у здоровых пациенток). Для скринингового теста это очень хорошие показатели.

Теперь вопрос: какова прогностическая ценность положительного результата маммографии у сорокалетней женщины, или какова вероятность того, что она действительно больна раком груди, если тест оказался положительным? При специфичности в 90% у вас может возникнуть соблазн ответить «90%», но это будет ошибкой. Правильный ответ — 7,5%. Дело в том, что 99 из 100 сорокалетних женщин здоровы, поэтому при 10-процентной вероятности ложноположительного результата около 10 женщин из 100 получат положительный результат теста, не будучи больными. И только около 0,8 из той одной женщины на сотню, которая действительно больна, получат положительный тест.

Таким образом, из 100 женщин 9,9 получат положительный результат теста, будучи здоровыми, а 0,8 — будучи больными. Следовательно, если вы сорокалетняя женщина и ваш тест оказался положительным, вероятность того, что это ложноположительный результат, гораздо выше (0,8 истинно положительных / 10,7 общего числа положительных × 100 = 7,5%).

Эта ситуация аналогична ситуации с p-значением. То, что p-значение равно 0,05, означает 95-процентную вероятность истинности гипотезы ничуть не больше, чем положительный результат маммографии у сорокалетней женщины означает 90-процентную вероятность того, что у нее рак груди.

Как и в случае с раком груди, необходимо знать базовый уровень. Мы также называем это априорной вероятностью. В случае с научной гипотезой под этим часто понимают ее научное правдоподобие. Чем ниже правдоподобие гипотезы (точно так же, как и доля больных раком в популяции), тем меньший процент положительных или статистически значимых исследований окажется истинно положительным.

Из этого следует, что мы не можем узнать вероятность истинности гипотезы, основываясь лишь на p-значении одного-единственного исследования. Нам необходимо понимать степень правдоподобия самой гипотезы, а также знать, что показали все остальные релевантные исследования.

Мы называем это байесовским подходом: вы берете новую информацию, объединяете ее с уже имеющейся априорной информацией и получаете новую вероятность того, что идея верна. И хотя о степени правдоподобия гипотезы можно спорить, ясно одно: p-значения (статистическая значимость) значат далеко не так много, как думает большинство людей. Даже исследование со значимыми результатами не так уж сильно меняет априорную вероятность. Чтобы мы могли с уверенностью утверждать, что гипотеза, скорее всего, верна, требуется согласованность результатов множества исследований и нескольких независимых цепочек доказательств.

Если мы применим это рассуждение к научной литературе, как это сделал статистик и профессор медицины Джон П. А. Иоаннидис, то обнаружим, что большинство опубликованных положительных исследований ошибочны, и так оно и должно быть. Как он показал в своем основополагающем исследовании 2005 года, если предположить, что 80 процентов новых гипотез в науке неверны (а это консервативная оценка), и использовать p-значение, равное 0,05, то только за счет случайности 25 процентов положительных исследований окажутся ложноположительными. Этот процент резко возрастает по мере снижения априорной вероятности.

Априорная вероятность — не единственный фактор, обостряющий проблему ложноположительных результатов. Эрик Локен и Эндрю Гельман отмечают, что погрешность измерений также значительно усугубляет ее. Вот почему в научных исследованиях всегда учитывают отношение сигнал/шум для любого измеряемого показателя. В «зашумленной» среде погрешности измерений увеличиваются, а прогностическая ценность p-значения стремительно падает. «Зашумленные» данные именно таковы: это похоже на прослушивание радиостанции с таким количеством помех (шума), что вы едва можете разобрать голос диктора (сигнал). Это может просто означать, что естественная изменчивость данных гораздо выше, чем эффект, который вы пытаетесь обнаружить.

P-хакинг

Проблема кроется еще глубже, и именно здесь на сцену выходит p-хакинг. Расчеты Иоаннидиса предполагают, что протоколы исследований разработаны и выполнены идеально — что все играют по правилам, — но мы знаем, что это не так.

В исследовании 2011 года Джозеф Симмонс, Лейф Нельсон

Перейти на страницу:

Steven Novella читать все книги автора по порядку

Steven Novella - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки Nice-Books.Ru.


«Руководство скептика по Вселенной»: Как отличить реальность от вымысла в мире, который тонет в фальши. отзывы

Отзывы читателей о книге «Руководство скептика по Вселенной»: Как отличить реальность от вымысла в мире, который тонет в фальши., автор: Steven Novella. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор Nice-Books.


Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*