Проблема заключалась в том, что банк хотел получить модель, позволяющую делать прогнозы в отношении
На самом деле проблема была еще глубже, поскольку имелось несколько слоев темных данных. Необходимо было учесть следующее.
●
●
●
Вместе эти слои делали совершенно непонятным то, как можно использовать полученные от банка данные для решения поставленной задачи – создания модели оценки новых заявок. Несколько слоев темных данных могли означать, что имеющаяся у меня выборка со всеми известными хорошими/плохими исходами кардинально отличается от той совокупности, к которой банк хотел применить модель. А вы уже знаете, что игнорирование темных данных может иметь катастрофические последствия. (Впрочем, замечу, что банк все еще существует – видимо, моя модель оказалась не так уж плоха!)
Административные данные вездесущи. Только представьте себе все те базы данных, в которых хранится информация о вашем образовании, работе, здоровье, интересах, покупках, финансовых транзакциях, ипотеке, страховании, путешествиях, поисковых запросах, активности в социальных сетях и т. д. Вплоть до недавнего времени подобные данные сохранялись автоматически, без вашего ведома и учета мнения. Общий регламент по защите данных Евросоюза (GDPR) изменил ситуацию – теперь, как вы наверняка заметили, сайты просят вас поставить галочки, подтверждающие, что вы осознанно даете разрешение на использование персональных данных. Встречаются и другие способы давать или не давать свое согласие, например в США, где конфиденциальность персональных данных регулируется как федеральными законами, так и законами штатов, в зависимости от сектора экономики.
В 2013 г. Национальная служба здравоохранения Великобритании (NHS) запустила программу, предполагающую ежемесячное копирование медицинских данных из отчетов семейных врачей и объединение их с учетными записями больниц в Национальном информационном центре здравоохранения и социальной защиты (HSCIC). Потенциальная ценность таких объединенных наборов данных огромна. Собрав информацию о состоянии здоровья и методах лечения миллионов людей, мы сможем извлекать данные, чтобы лучше не только изучать сами заболевания и пути повышения качества их профилактики, мониторинга и эффективности лечения, но и понимать, насколько эффективна система медицинской помощи в целом и где ее необходимо усовершенствовать. Конфиденциальность при этом обеспечивается системой псевдонимизации, в которой имена, номер медицинской страховки и другие идентификаторы заменяются кодом, а коды сохраняются в файле, никак не связанном с фактическими данными.