Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Математик — это францисканский монах Лука Пачоли. В 1494 году он опубликовал учебник по коммерческой математике, рассчитанный на непрофессионалов в этой области. Благодаря своей популярности книга, по сути, являлась в то время учебником по математике. Кроме того, она стала первой книгой, полностью построенной на арабских цифрах, тем самым способствуя их укоренению в Европе. Наиболее долгосрочным вкладом была часть книги, посвященная бухгалтерии, где Пачоли четко объяснял систему двойного бухгалтерского учета. В течение последующих десятилетий часть, посвященную бухгалтерскому учету, отдельно издали на шести языках, и веками она оставалась настольной книгой по этому предмету.

Что касается купеческой семьи, это были знаменитые венецианские торговцы и меценаты — Медичи. В XVI веке они стали самыми влиятельными банкирами в Европе, в значительной степени благодаря тому, что использовали улучшенный способ записи данных — систему двойной записи. Учебник Пачоли и успех Медичи в его применении утвердили победу двойной бухгалтерии в качестве стандартной записи данных и с того момента закрепили использование арабских цифр.

Параллельно с достижениями в области записи данных развивалась идея измерения окружающего мира, которая подразумевала обозначения времени, расстояния, площади, объема и веса. Стремление познать природу через количественные категории определило развитие науки в XIX веке: ученые изобрели новые инструменты и агрегаты для измерения и регистрации электрических токов, атмосферного давления, температуры, частоты звука и т. п. Это была эпоха всеобщего определения, разграничения и обозначения. Увлечение этими процессами дошло до измерения черепа человека и его умственных способностей для выявления закономерностей между ними. К счастью, эта лженаука («френология») уже практически исчезла. Но желание все количественно измерить только усилилось.

Измерение объектов и явлений реального мира, а также запись получаемых данных процветали благодаря сочетанию подходящих инструментов и восприимчивого мышления. На этой благодатной почве и выросла датификация в ее современном понимании. Все составляющие датификации были готовы к использованию, однако в аналоговом мире этот процесс все еще оставался трудоемким и дорогостоящим. В большинстве случаев требовалось обладать бесконечным терпением или же посвятить этому делу всю жизнь. Примером тому служат тщательные ночные наблюдения за небесными телами, которые проводил астроном Тихо Браге[78] в 1500-х годах. В аналоговую эпоху случаи удачной датификации были редкостью. Как правило, им способствовало счастливое стечение обстоятельств (как в истории коммодора Мори, который был вынужден заниматься офисной работой, но имел в своем распоряжении целый склад журналов). Всякий раз результатом датификации исходной информации оказывались огромная ценность и потрясающие открытия.

Появление компьютеров повлекло за собой внедрение цифровых устройств для измерения и хранения данных, которые значительно повысили эффективность датификации, а также сделали возможным математический анализ данных для раскрытия их скрытой ценности. Проще говоря, оцифровка стала катализатором датификации, но никак не ее заменой. Процесс оцифровки (преобразование аналоговой информации в формат, считываемый компьютером) сам по себе не является датификацией.

<p>Когда слова становятся данными</p>

Разница между оцифровкой и датификацией данных станет очевидной, если посмотреть на домен, где происходит и то и другое, и сравнить последствия. Рассмотрим такой пример. В 2004 году компания Google объявила невероятно смелый план — полностью оцифровать все книги, которые находятся в ее распоряжении (насколько это возможно с учетом законов об авторском праве), и дать возможность людям по всему миру искать и бесплатно просматривать книги через интернет. Чтобы совершить этот подвиг, компания объединилась с несколькими крупнейшими и наиболее престижными научными библиотеками мира и разработала машины для сканирования, которые могли бы автоматически перелистывать страницы, делая сканирование миллионов книг не только реализуемым, но и финансово жизнеспособным.

Первый текст, оцифрованный компанией Google, выглядел так. Каждую страницу отсканировали и записали в виде файла цифрового изображения в высоком разрешении, сохраненного на серверах Google. Страницы были преобразованы в цифровые копии, которые любой мог легко получить через интернет из любой точки мира. Однако при этом требовалось точно знать, какая книга содержит нужную информацию, иначе приходилось много читать, чтобы найти правильный отрывок. Текст невозможно было найти по словам или анализировать, поскольку его не датифицировали. Все, чем располагала Google, — это изображения, которые только люди могли превратить в полезную информацию.

Перейти на страницу:

Похожие книги