Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Особый престиж исследованиям придают публикации в авторитетных журналах, таких как Nature или Science, имеющих значительный коэффициент влиятельности, или импакт-фактор. Это показатель, основанный на количестве цитирований журнальных статей, то есть характеризующий степень уделенного им внимания. Исследователи с большей вероятностью предоставят престижным журналам впечатляющие «прорывные» результаты, чем результаты более скромные, но не менее важные просто потому, что понимают их предпочтения (DD-тип 4: самоотбор). Это, в свою очередь, означает, что журналы, как правило, выделяют и публикуют наиболее захватывающие достижения из предложенных к публикации, что еще выше поднимает и без того высокий престиж впечатляющих результатов (DD-тип 11: искажения обратной связи и уловки). Но такие выдающиеся результаты будут, скорее всего, невоспроизводимы по причине возврата к среднему значению, о чем мы уже говорили. Кроме того, подобная ситуация провоцирует некоторых исследователей подгонять результаты своей работы, чтобы увеличить шансы на публикацию в журналах с высоким импакт-фактором (как мы увидим позже, зачастую честный выбор значений от выбора мошеннического отделяет очень тонкая грань). Вследствие этого, более престижные журналы, скорее всего, будут публиковать менее достоверные результаты.

Как ни странно, но информация, публикуемая в ведущих научных журналах, с меньшей вероятностью оказывается истинной. Однако, похоже, именно к такому выводу сегодня приходят авторы. Так, Феррик Фанг и его коллеги сообщают, что ими «была обнаружена значимая корреляция между импакт-фактором журнала и частотой отзыва научных статей из-за допущенных ошибок, намеренного искажения результатов или подозрений на это»[121].

Ирония заключается в том, что следует избегать публиковаться в источниках, которые имеют высокий уровень ложных результатов. Иначе говоря, сторониться наиболее престижных журналов?.. Да, все это крайне запутанно! Но не стоит забывать, что причинно-следственные связи порой бывает довольно сложно установить. Чем влиятельнее журнал, тем по определению шире круг его читателей, а значит, публикуемые в нем статьи подвергаются более тщательному анализу, который подразумевает, что сомнительные выводы с высокой вероятностью будут обнаружены, даже если их уровень не выше, чем в других журналах.

Частичное решение проблемы состоит в том, чтобы публикации новых результатов основывались на более чем одном исследовании, то есть независимые воспроизведения должны проводиться до момента публикации (вспомним «негласное правило» Брюса Бута). Так уже делается, например в фармацевтическом секторе, где лекарства, представленные на одобрение регулирующими органами, должны иметь подтверждение нескольких клинических испытаний. Но в других контекстах, особенно в академических исследовательских кругах, приоритет публикаций является ключевым показателем эффективности, и исследователи не хотят рисковать, давая другим возможность застолбить открытие (вспомните стремление Лайнуса Полинга опубликовать свою статью о структуре нуклеиновых кислот). Они предпочитают поскорее объявить об открытии, которое может стать крупным прорывом, даже если существует риск признания его ошибочным.

Стремление сделать эффектное открытие привело к практике препарирования данных бесконечным множеством методов и реконфигурирования наборов данных до тех пор, пока не будет найдено что-то существенное. Например, сравнивая две группы пациентов, мы можем измерить 100 характеристик каждого пациента, а затем сравнить средние значения двух групп по каждой из них. Было бы удивительно, если бы при этом не обнаружилось хотя бы несколько существенных отличий между группами – исключительно из-за случайных ошибок измерения. Такую манипуляцию иногда называют p-хакингом. Этот любопытный термин пришел из статистики и описывает явление, с которым стоит разобраться.

Для начала нужно признать тот факт, что если мы изучаем данные (особенно большие наборы данных) многочисленными и отличающимися друг от друга методами, то, по сути, это говорит о нашей убежденности в том, что необычные закономерности могут случайно выявляться даже тогда, когда реальные данные не имеют таких взаимосвязей. Например, если задействовано много переменных, то какие-то их пары в конечном наборе данных могут иметь высокую корреляцию, даже если реальные базовые значения никак не коррелируют, – просто в силу случайности или ошибок измерения. Применительно к исследованиям, в которые вовлечено много объектов (например, людей), это означает, в частности, наличие небольших групп, которые так же случайно будут удивительно похожи друг на друга по тем или иным признакам.

Для наглядности представим, что мы случайным образом сгенерировали строку из 1000 цифр. Вот первые 30 из них:

Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Похожие книги

Все жанры