Однако на уровне персональных данных тенденция развивается в обратном направлении – в сторону защиты конфиденциальности или, с точки зрения этой книги, к затемнению отдельных данных. В русле этой тенденции 25 мая 2018 г. вступил в силу Общий регламент ЕС по защите данных (GDPR), упомянутый в главе 2. Он налагает обязательства на организации, которые хранят и используют персональные данные, и дает людям более широкие права на свои данные и способы их использования. Персональные данные – это данные, относящиеся к живому человеку, по которым он может быть идентифицирован. GDPR требует, чтобы организации объясняли, с какой целью они собирают и используют данные, и делали это только с однозначного и свободного согласия (или предоставляя особые обоснования, такие как судебное требование или спасение чьей-то жизни). Люди имеют право доступа к своим данным и право требования их исправления, удаления или передачи другому оператору. Стоит также отметить, что такого рода юридические требования создают значительные бюрократические препоны для предприятий, которые обрабатывают большие объемы персональных данных.
Обратите внимание, что я использовал слово «прозрачность» в том смысле, в котором оно обычно используется, когда люди говорят о прозрачности данных, – то есть обозначая возможность доступа. Но сам феномен прозрачности может быть интерпретирован и по-другому – как нечто прозрачное, что позволяет видеть сквозь себя и что, возможно, вы даже не замечаете. Окна и линзы очков тоже прозрачны. И неприятный факт заключается в том, что многие из наиболее эффективных мошенничеств и афер основаны именно на такой интерпретации прозрачности, когда все происходит незаметно для вас и выглядит достоверно, но ровно до тех пор, пока вы вдруг не замечаете какие-то несоответствия. В этом смысле «прозрачность» имеет сходство с «темнотой», во всяком случае в том, что касается данных.
В этой главе мы говорили о том, как распознать проблему темных данных и, возможно, решить ее, в частности, в контексте научных исследований. Мы рассмотрели идею сопоставления теории с данными, ошибки, допускаемые из-за их недостатка, мошенническое использование данных, фальшивые данные, выбор экстремальных значений в наборе, проблему направленного поиска аномалий и предположение, что «большинство научных открытий ошибочно». Мы также познакомились с принципом проверки достоверности источника, заключенном в простом вопросе: «Кто вам такое сказал?»
Первая часть книги была посвящена способам, которыми темные данные могут создавать проблемы. Во второй части мы рассмотрим методы обнаружения темных данных, их учета и узнаем то, как они могут быть использованы.
Часть II
Освещение и использование темных данных
Глава 8
Принцип работы с темными данными
Надежда!
Мы убедились, что темные данные могут возникать по многим причинам. Даже если мы допускаем возможность ошибочности наших данных, то можем просто не осознавать, что видим далеко не все. Мы также убедились, что подобное неведение чревато очень серьезными последствиями: от финансовых крахов до гибели людей. Картина не самая радужная.