Предвзятость — частая проблема машинного обучения, в большинстве случаев возникающая из-за недостатков данных, на которых обучают алгоритмы. Как мы видели в предыдущей главе, алгоритмы распознавания лиц, созданные на Западе, часто необъективны по отношению к цветным людям, потому что в обучающих выборках слишком много фотографий представителей европеоидной расы. Проблема более общего характера заключается в том, что характер значительной части данных, используемых для обучения алгоритмов, напрямую зависит от поведения, решений и действий людей. Если люди, подбирающие данные, имеют ту или иную предвзятость, например в отношении расовой или гендерной принадлежности, то она автоматически будет встроена в обучающую выборку.
Возьмем, например, алгоритм машинного обучения, созданный для отбора резюме претендентов на вакансию в крупной компании. Такую систему нужно обучить на полных текстах всех резюме, поданных предыдущими кандидатами на аналогичные места, а также на решениях, принятых по каждому из этих резюме менеджерами. Алгоритм машинного обучения должен переработать все данные и сформировать представление о том, какие характеристики резюме нужны, чтобы пригласить кандидата на дополнительное собеседование, а какие приводят к отказу без лишних раздумий. Алгоритм, способный сделать это эффективно и составить обоснованный список самых перспективных кандидатов, сэкономит очень много времени отделу кадров, которому приходится иметь дело с сотнями или тысячами кандидатов. Поэтому подобные системы сортировки резюме приобретают популярность, особенно в крупных компаниях. Предположим, однако, что прошлые решения о найме, на которых обучается алгоритм, отражают в определенной мере явный или неосознанный расизм или сексизм кадровиков. Тогда система машинного обучения автоматически приобретет эту предвзятость в ходе нормального процесса обучения. Дело не в создателях алгоритма — предвзятость содержится в обучающих выборках. В результате получится система, сохраняющая или даже усиливающая предвзятость людей и откровенно несправедливая по отношению к цветным или женщинам.
Нечто подобное произошло в Amazon в 2018 году, когда компания остановила разработку системы машинного обучения, поскольку у нее обнаружилась предвзятость в отношении женщин при подборе кандидатов на должности технических специалистов. Оказалось, если в резюме встречалось слово «женский», например упоминались женские клубы, виды спорта или учеба в женском колледже, то система давала ему заниженный балл, ставя кандидаток-женщин в проигрышное положение. Даже после того, как разработчики из Amazon устранили обнаруженные проблемы, невозможно было гарантировать непредвзятость алгоритма, поскольку место гендерной принадлежности могли занять другие атрибуты[315]. Важно отметить, что речь необязательно идет об откровенном сексизме в предшествующих решениях о приеме на работу. Алгоритм мог приобрести предвзятость только из-за непропорционально малой доли женщин на технических должностях. По сообщениям Amazon, этот алгоритм так и не прошел далее этапа разработки и ни разу не использовался на практике для просмотра резюме. Однако если бы он был использован, то, безусловно, усилил бы непропорциональность представительства женщин на технических должностях.