Основным стержнем управления большими данными является гарантия того, что мы продолжим судить других, принимая во внимание их индивидуальную ответственность, а не «объективно» обрабатывая числа, чтобы определить, являются ли те или иные лица преступниками. Только в таком случае мы будем относиться к ним по-человечески — как к людям, которые имеют свободу выбора своих действий и право быть судимыми за них. Это не что иное, как последствие наступления эпохи больших данных для нынешней презумпции невиновности.
Вскрытие «черного ящика»
Современные компьютерные системы принимают решения на основе явно запрограммированных правил, которым они должны следовать. Таким образом, если что-то пошло не так, а это неизбежно случается, мы можем вернуться и выяснить, почему компьютер принял то или иное решение. («Почему система автопилота подняла самолет на пять градусов выше, когда внешний датчик определил внезапное повышение влажности?») Сегодня компьютерный код можно открыть и проверить, а основания для решений системы независимо от их сложности — сделать понятными хотя бы для тех, кто разбирается в коде.
При использовании анализа больших данных отследить это станет гораздо сложнее. Основа прогнозов алгоритма зачастую может быть непосильной для человеческого понимания.
Когда компьютеры были явно запрограммированы следовать набору инструкций, как это было с одной из первых программ компании IBM для перевода с русского на английский (1954 год), человеку было легко понять, почему одно слово заменялось другим. Когда компания Google объединяет миллиарды страниц переводов, чтобы судить о том, почему английское слово light выводится на французском как lumière, а не léger (имеется в виду яркость, а не отсутствие тяжести), невозможно точно объяснить причину выбора: основа прогнозирования влечет за собой огромные объемы данных и обширные статистические вычисления.
Масштабы работы с большими данными выйдут далеко за рамки привычного для нас понимания. Так, корреляция, определенная компанией Google между несколькими условиями поиска и гриппом, стала результатом проверки 450 миллионов математических моделей. С другой стороны, Синтия Рудин первоначально разработала 106 прогностических факторов того, что канализационный люк может загореться, и сумела объяснить менеджерам компании Con Edison, почему ее программа выстроила места проверки именно в таком приоритетном порядке. «Объясняемость», как говорят в кругах исследования искусственного интеллекта, имеет большое значение для нас, смертных, которые, как правило, хотят знать не только факты, но и их причину. А что если бы вместо 106 прогностических факторов система автоматически создала 601, подавляющее большинство из которых имеют очень низкий вес, но вместе взятые повышают точность модели? Основа для любого прогноза была бы невообразимо сложной. Что тогда Синтия сказала бы руководителям, чтобы убедить их перераспределить свой скудный бюджет?
В таких случаях мы видим риск того, что прогнозы больших данных, а также алгоритмы и наборы данных, стоящие за ними, станут «черными ящиками», которые не дают ни малейшей прозрачности, подотчетности, прослеживаемости или уверенности. Для того чтобы предотвратить это, необходимы отслеживание и прозрачность больших данных, а также новые виды специальных знаний и учреждения, которые бы ими занимались. Эти новые игроки окажут поддержку в многочисленных областях, где общество должно внимательно изучить прогнозы и дать возможность пострадавшим требовать возмещения.
В обществе такое происходило и раньше, когда при резком увеличении сложности и специализации определенной области возникала острая необходимость в специалистах для управления новыми техническими средствами. Профессии, связанные с юриспруденцией, медициной, бухгалтерским учетом и инженерией, подверглись таким преобразованиям более ста лет назад. Не так давно появились консультанты по компьютерной безопасности и конфиденциальности. Они следят за тем, чтобы деятельность компании соответствовала передовой практике, определяемой такими органами, как Международная организация по стандартизации (созданная ввиду возникшей необходимости в разработке правил в этой области).
В эпоху больших данных потребуются люди, которые взяли бы на себя эту роль. Назовем их алгоритмистами. Они могли бы выступать как представители независимых органов, которые работают вне организаций, и как специалисты самих организаций, аналогично тому как компании нанимают и штатных бухгалтеров, и внешних аудиторов, которые проверяют их работу.
Вильям Л Саймон , Вильям Саймон , Наталья Владимировна Макеева , Нора Робертс , Юрий Викторович Щербатых
Зарубежная компьютерная, околокомпьютерная литература / ОС и Сети, интернет / Короткие любовные романы / Психология / Прочая справочная литература / Образование и наука / Книги по IT / Словари и Энциклопедии