Читаем Broken Code: Inside Facebook and the Fight to Expose Its Harmful Secrets полностью

Broken Code: Inside Facebook and the Fight to Expose Its Harmful Secrets

Отдельное направление работы по машинному обучению было посвящено выяснению того, какой контент на самом деле содержится в постах, рекомендованных Facebook. Известные как классификаторы, эти системы искусственного интеллекта были обучены распознаванию образов на огромных массивах данных. За много лет до создания Facebook классификаторы доказали свою незаменимость в борьбе со спамом, позволив поставщикам электронной почты выйти за рамки простых фильтров по ключевым словам, которые блокировали массовые письма, скажем, о "Ви@гре". Получив и сравнив огромную коллекцию писем - некоторые из них были помечены как спам, а некоторые как не спам, - система машинного обучения могла разработать свой собственный рубрикатор для их различения. После того как этот классификатор будет "обучен", его можно будет пустить в свободное плавание, анализируя входящую почту и предсказывая вероятность того, что каждое сообщение будет отправлено во входящие, в папку нежелательной почты или прямиком в ад.

К тому времени, когда в Facebook начали появляться эксперты по машинному обучению, список вопросов, на которые пытались ответить классификаторы, вышел далеко за рамки "Это спам?", во многом благодаря таким людям, как ЛеКун. Цукерберг был уверен в будущем прогрессе этой технологии и ее применении в Facebook. В 2016 году он предсказывал, что в ближайшие пять-десять лет классификаторы превзойдут человеческие способности к восприятию, распознаванию и пониманию, что позволит компании закрывать от неправильного поведения и совершать огромные скачки в соединении мира. Это предсказание оказалось более чем оптимистичным.

Даже по мере совершенствования методов, увеличения массивов данных и ускорения обработки данных один недостаток машинного обучения сохранялся. Алгоритмы, которые создавала компания, упорно отказывались объяснять сами себя. Инженеры могли оценить успешность классификатора, протестировав его, чтобы узнать, какой процент его суждений был точным (его "точность") и какую часть вещей он обнаружил (его "отзыв"). Но поскольку система сама учила себя определять что-то на основе логики собственного дизайна, когда она ошибалась, не было никакой понятной человеку причины.

Иногда ошибки казались бессмысленными. В других случаях они были систематическими и отражали человеческий фактор. Артуро Бежар вспоминает, что в самом начале работы Facebook над классификатором для выявления порнографии система регулярно пыталась отсеять изображения кроватей. Вместо того чтобы научиться определять людей, занимающихся сексом, модель научилась распознавать мебель, на которой они чаще всего занимаются сексом.

Проблема легко решалась: инженерам нужно было просто обучить модель на большем количестве матрасных сцен с рейтингом PG. Это стало хорошей шуткой - если не принимать во внимание, что форма машинного обучения, которую только что испортили инженеры, была одной из самых простых, которые использовал Facebook. Подобные фундаментальные ошибки продолжали происходить, даже когда компания стала полагаться на гораздо более продвинутые методы ИИ для принятия гораздо более весомых и сложных решений, чем "порно или не порно". Компания полностью перешла на искусственный интеллект, как для определения того, что должны видеть люди, так и для решения любых проблем, которые могут возникнуть.

Несомненно, компьютерная наука была ослепительной, а достижения - конкретными. Но скорость, широта и масштабы внедрения машинного обучения в Facebook обошлись без понятности. Почему алгоритм Facebook "Страницы, которые вам могут понравиться" так сосредоточен на рекомендациях определенных тем? Как видеофрагмент из компьютерной анимации о зубных имплантатах оказался просмотренным сто миллионов раз? И почему некоторые новостные издательства добивались вирусности, просто переписывая материалы других изданий?

Отвечая на эти вопросы, специалисты по связям с общественностью Facebook отмечали, что системы компании реагируют на поведение людей и не учитывают вкусы. Эти доводы было трудно опровергнуть. Они также скрывали неудобный факт: Facebook добивалась своего роста не совсем понятными способами.

Через пять лет после объявления о начале использования машинного обучения для рекомендации контента и таргетирования рекламы системы Facebook будут настолько сильно зависеть от искусственного интеллекта, способного к самообучению, что без этой технологии, с гордостью заявил Янн ЛеКун, от продуктов компании останется лишь "пыль".

Как и большинство членов продуктовых команд Facebook, Хоакин Киньонеро обладал тем, что он называл "инженерным мышлением". Успех заключался в определении проблемы, а затем в создании чего-то эффективного, мощного и широко используемого для ее решения. "Я явно не ожидал непредвиденных последствий интеграции упрощенного машинного обучения в продукт", - говорит он.

Перейти на страницу: