Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Существуют и другие, возможно, более серьезные проблемы, связанные с сетевыми данными. Например, алгоритм поиска Google постоянно обновляется, становясь все более эффективным, но детали этих изменений остаются непрозрачными для всех, кроме разработчиков. Например, к последним изменениям относятся введение показателя качества веб-страницы при ранжировании, понижение рейтинга сайтов, которые считаются манипулятивными, обработка запросов на естественном языке для лучшего понимания их цели, повышение рейтинга страниц, оптимизированных для мобильных устройств, и идентификация сайтов, нарушающих правила Google. Все эти изменения кажутся разумными и полезными, но дело в том, что они постоянно меняют природу собираемых данных; проще говоря, затруднительно сравнивать данные, собранные до и после изменения (DD-тип 7: данные, меняющиеся со временем). В частности, показатели экономического и социального благополучия могут меняться не потому, что изменилась базовая реальность, а потому, что изменились собираемые данные об этой реальности – так называемый сдвиг показателей. Именно темные данные лежат в основе этих изменений.

Мы имели возможность убедиться, что целая череда успешных историй основана на связывании наборов данных, их комбинировании, дублировании и объединении данных из разных источников. Потенциальная мощь таких методов несомненна, поскольку разные источники, вероятно, содержат разную информацию о тех или иных аспектах изучаемого предмета. Чаще всего этим предметом оказываются люди, и очевидно, что такие проекты могут быть чрезвычайно полезны, например для укрепления здоровья граждан и повышения благополучия общества. Но риски темных данных при связывании баз остаются всегда. Генеральные совокупности в базах данных часто не совпадают полностью (одна может включать какие-то случаи, другая нет), а во время сопоставления могут возникнуть несоответствия в силу различных способов хранения данных (является ли Джон Смит тем же человеком, что и Джон В. Смит или Дж. В. Смит?). Не говоря уже о дубликатах записей.

Эта книга в первую очередь о том, как темные данные водят за нос людей (а во вторую – что людям с этим делать). Но проблема несколько шире: темные данные могут вводить в заблуждение не только людей, но и машины. По мере того, как машинное обучение и искусственный интеллект становятся все более распространенными, следует ожидать, что будет появляться все больше сообщений о том, как темные данные обманули машину или даже привели к ее аварии. В области машинного обучения и компьютерного зрения существует концепция, которую иногда называют «Умный Ганс». Вот поучительная история ее появления.

Умным Гансом звали коня, принадлежавшего школьному учителю арифметики Вильгельму фон Остену. Умный Ганс был настолько умным, что умел складывать, вычитать, умножать и делить числа, определять время и даже читать и понимать по-немецки. Фон Остен задавал Гансу вопрос (письменно или устно), и, поскольку Ганс не мог ни говорить, ни писать (видимо, для него это было не так умно), он отвечал, постукивая копытом нужное количество раз.

В 1907 г. этот феномен исследовал биолог и психолог Оскар Пфунгст. По его выводу, хотя никаких уловок со стороны хозяина не предпринималось, сказать, что Ганс производит вычисления, было нельзя. Смышленый конь улавливал подсознательные сигналы своего хозяина, который и производил вычисления. Интересно, что сам фон Остен не отдавал себе отчета в том, что подает какие-то сигналы. В этом есть определенное сходство с рассказами игроков в покер.

Для нас важно, что Умный Ганс на самом деле не отвечал на те вопросы, на которые, как полагали зрители, он отвечает. То же самое может случиться и с машинами: их анализ, классификация, решения могут основываться на непредвиденных аспектах входных данных, в том числе на таких, о которых вы даже не подозреваете. В некоторых случаях «едва различимые незначительные отклонения для правильно классифицированного входного изображения [могут означать], что оно перестает классифицироваться правильным образом»[168]. Используя эту слабость автоматических алгоритмов, исследователи из Университета Карнеги – Меллона разработали фигурную оправу для очков, которая для нас выглядит привычно, но при этом начисто сбивает с толку искусственный интеллект и не позволяет ему определить носителя очков[169]. К сожалению, исследователи обнаружили, что путаница не ограничивается конкретным алгоритмом нейронной сети, а представляет собой общую проблему для этого класса алгоритмов. Очевидно, что машины видят вещи совершенно иначе, чем мы, и также ясно, что их видение – это не то, что нас интересует.

Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Похожие книги

Все жанры