Последний тип атак известен как
За враждебным МО, несмотря на название, совсем не обязательно должны стоять чьи-то злые намерения, и оно не ограничивается лабораторными условиями. В настоящее время существуют проекты, целью которых является хакинг систем распознавания лиц, чтобы протестующие граждане да и любые другие люди могли собираться в общественных местах, не опасаясь быть опознанными полицией. Аналогичным образом можно представить себе будущее, в котором страховые компании будут использовать системы ИИ для принятия решений по претензиям. В этом случае врач может хакнуть такую систему методом враждебного МО, чтобы гарантировать одобрение страховки для пациента, который нуждается в определенном лекарстве или процедуре.
Другие успешные хаки подразумевают подачу в систему ИИ определенных входных данных, предназначенных ее изменить. В 2016 г. компания Microsoft представила в Twitter чат-бота по имени Tэй. Его разговорный стиль был смоделирован на основе речи девочки-подростка и должен был становиться все более сложным по мере взаимодействия с людьми и изучения их разговорных стилей. В течение 24 часов группа хакеров на дискуссионном форуме 4chan скоординировала свои ответы и наводнила систему расистскими, женоненавистническими и антисемитскими твитами, тем самым превратив Тэй в злобного шовиниста. Тэй честно учился на том материале, который ему подбрасывали, и, не понимая смысла своих реплик, словно попугай, вернул миру его уродство.
Системы ИИ – это компьютерные программы, поэтому нет оснований полагать, что они окажутся неуязвимыми для обычных компьютерных хаков. Исследования в области враждебного МО все еще находятся на ранних стадиях, поэтому мы не можем однозначно сказать, будут подобные атаки легкими или сложными и насколько эффективными будут контрмеры служб безопасности. Если опираться на историю компьютерного хакинга, то можно утверждать, что уже в обозримом будущем в системах ИИ появятся и будут обнаружены уязвимости. Системы ИИ встроены в те же социотехнические системы, которые мы обсуждали на протяжении всей книги, поэтому обязательно найдутся люди, которые захотят взломать их ради личной выгоды.
Хаки, которые я только что описал, объединяет наглядность результатов. Автомобили разбиваются. Черепаха классифицируется как винтовка. Тэй ведет себя как нацист-женоненавистник. Мы видим, что приводит к таким результатам, и – я надеюсь – сможем исправлять системы МО и восстанавливать их работу.
Однако меня больше беспокоят более тонкие атаки, результаты которых менее очевидны. Беспилотные автомобили могут не разбиваться, а просто начать двигаться чуть более хаотично. Чат-боты могут не превращаться в явных нацистов, а просто стать чуть более склонными к поддержке какой-то конкретной политической партии. Хакеры могут придумать формулировку, вставив которую в текст заявки на поступление в университет вы автоматически получите больше шансов. До тех пор, пока результаты неочевидны, а алгоритмы неизвестны, как можем мы знать, что система не взломана?
52
Проблема объяснимости
В книге «Автостопом по галактике» раса сверхразумных панпространственных существ создает самый мощный компьютер во вселенной – Думатель, Deep Thought («Глубокая мысль»), чтобы ответить на некий ключевой вопрос о жизни, вселенной и всем сущем. После 7,5 млн лет вычислений Думатель сообщает{219}, что ответ на главный вопрос бытия – «42». При этом он не в состоянии объяснить смысл этого ответа и даже не помнит, в чем, собственно, состоял сам вопрос.
Если в двух словах, то это и есть проблема объяснимости. Современные системы ИИ, по сути, являются «черными ящиками»: с одного конца в них поступают данные, с другого выходит ответ. Понять, как система пришла к тому или иному выводу, бывает невозможно, даже если вы являетесь ее разработчиком или имеете доступ к коду. Исследователи до сих пор не знают, как именно система классификации изображений ИИ отличает черепаху от винтовки, не говоря уже о том, почему она принимает одно за другое.