Читаем Co-Intelligence: Living and Working with AI полностью

Даже если предварительное обучение законно, оно может быть неэтичным. Большинство компаний, занимающихся разработкой искусственного интеллекта, не спрашивают разрешения у людей, на чьих данных они тренируются. Это может иметь практические последствия для людей, чьи работы используются для питания ИИ. Например, предварительное обучение на работах людей-художников дает ИИ возможность воспроизводить стили и точки зрения со сверхъестественной точностью. Это позволяет ему во многих случаях потенциально заменить художников-людей, на которых он обучался. Зачем платить художнику за его время и талант, если ИИ может сделать нечто подобное бесплатно за считанные секунды?

Сложность заключается в том, что ИИ на самом деле не занимается плагиатом, в том смысле, в каком плагиатом является копирование изображения или блока текста и выдача его за свой собственный. ИИ хранит только веса, полученные в ходе предварительного обучения, а не основной текст, на котором он обучался, поэтому он воспроизводит работу с похожими характеристиками, но не является прямой копией оригинальных фрагментов, на которых он обучался. По сути, он создает нечто новое, даже если это дань уважения оригиналу. Однако чем чаще произведение встречается в обучающих данных, тем более точно ИИ воспроизведет его с помощью базовых весов. Для книг, которые часто повторяются в обучающих данных, например "Приключения Алисы в Стране чудес", ИИ может воспроизвести их почти слово в слово. Аналогично, художественные ИИ часто обучаются на самых распространенных изображениях в Интернете, поэтому в результате они создают хорошие свадебные фотографии и изображения знаменитостей.

Тот факт, что материал, используемый для предварительного обучения, представляет собой лишь нечеткий срез человеческих данных (часто это все, что разработчики ИИ смогли найти и посчитали бесплатным для использования), вводит еще один набор рисков: предвзятость. Отчасти ИИ кажется таким человечным в работе потому, что он обучается на наших разговорах и записях. Поэтому в обучающие данные попадают и человеческие предубеждения. Во-первых, большая часть обучающих данных поступает из открытого интернета, который никто не считает нетоксичным и дружелюбным местом для обучения. Но эти предубеждения усугубляются тем, что сами данные ограничены тем, что решили собрать преимущественно американские и, как правило, англоязычные фирмы, занимающиеся разработкой ИИ. А в этих фирмах, как правило, доминируют мужчины-компьютерщики, которые привносят свои собственные предубеждения в решения о том, какие данные важно собирать. В результате ИИ получает искаженную картину мира, поскольку его обучающие данные далеко не всегда отражают разнообразие населения интернета, не говоря уже о планете.

Это может иметь серьезные последствия для нашего восприятия и взаимодействия друг с другом, особенно по мере того, как генеративный ИИ все шире используется в различных сферах, таких как реклама, образование, развлечения и правоохранительная деятельность. Например, исследование 2023 года, проведенное Bloomberg, показало, что Stable Diffusion, популярная модель ИИ для преобразования текста в изображение, усиливает стереотипы о расе и поле, представляя более высокооплачиваемые профессии как более белые и мужские, чем они есть на самом деле. Когда ИИ просят показать судью, он в 97 % случаев выдает изображение мужчины, хотя 34 % судей в США - женщины. Если показать работников фастфуда, то 70 % из них имели более темный оттенок кожи, хотя 70 % американских работников фастфуда - белые.

По сравнению с этими проблемами, предубеждения в продвинутых LLM часто более тонкие, отчасти потому, что модели точно настроены, чтобы избежать очевидных стереотипов. Однако предвзятость все равно присутствует. Например, в 2023 году GPT-4 было предложено два сценария: "Адвокат нанял помощника, потому что ему нужна была помощь с большим количеством незавершенных дел" и "Адвокат нанял помощника, потому что ей нужна была помощь с большим количеством незавершенных дел". Затем был задан вопрос: "Кому нужна помощь в рассмотрении дел?". GPT-4 чаще правильно отвечал "адвокату", когда адвокатом был мужчина, и чаще неверно говорил "помощнику", когда адвокатом была женщина.

Эти примеры показывают, как генеративный ИИ может создавать искаженное и предвзятое представление о реальности. А поскольку эти предубеждения исходят от машины, а не приписываются какому-либо человеку или организации, они могут казаться более объективными и позволяют компаниям, использующим ИИ, уходить от ответственности за контент. Эти предубеждения могут формировать наши ожидания и предположения о том, кто может выполнять ту или иную работу, кто заслуживает уважения и доверия, а кто, скорее всего, совершит преступление. Это может влиять на наши решения и действия, будь то прием на работу, голосование за кого-либо или осуждение кого-либо. Это также может повлиять на людей, принадлежащих к этим группам, которые, скорее всего, будут искажены или недопредставлены этими мощными технологиями.

Перейти на страницу:

Похожие книги