Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Несмотря на масштабы исследования, информация не была ни беспорядочной, ни неточной: оба набора данных составлялись с учетом строгих стандартов качества для медицинских и коммерческих целей. Информация собиралась в условиях, исключающих отклонения, несколькими годами ранее и по причинам, которые не имели ничего общего с целью этого исследования. Самое главное, что оно проводилось не на основе выборки, а близко к условию «N = всё»: учитывались почти каждый случай рака и почти каждый пользователь мобильного телефона (что в целом составило 3,8 миллиона человеко-лет владения мобильными телефонами). Благодаря тому что исследование охватывало почти все случаи, ученые могли контролировать подгруппы, например курящих.

В результате не было обнаружено, что увеличение риска развития рака связано с использованием мобильного телефона. Поэтому эти выводы вряд ли произвели фурор в средствах массовой информации, когда данные были опубликованы в британском медицинском журнале BMJ в октябре 2011 года. А вот если бы такая связь всплыла, о ней бы писали в первых полосах газет по всему миру, тем самым ознаменовав триумф методологии «искусственно созданных данных».

При анализе больших данных совокупность важнее отдельных частей, а при перекомпоновке совокупностей нескольких наборов данных получается еще более удачная совокупность. Современные интернет-пользователи знакомы с основными «мэшапами» — службами, которые по-новому объединяют несколько источников данных. Сайт недвижимости Zillow.com накладывает информацию о недвижимости и ценах на карту окрестностей в США, а также обрабатывает наборы данных о последних деловых операциях в районе и характеристиках объектов недвижимости, чтобы спрогнозировать стоимость конкретных домов в определенном районе.

Полученный результат полезен, поскольку наглядное представление данных делает их более понятными. Но это довольно упрощенный пример. В конце концов, не так уж трудно додуматься взять информацию относительно местоположения и наложить ее на карту. С большими данными мы можем пойти гораздо дальше. И датское исследование рака показывает, какие перспективы перед нами открываются.

Расширяемые данные

Повторное использование данных нетрудно обеспечить, если продумать их расширяемость с самого начала. Это получается не всегда (ведь мысль о том, что можно выжать из данных, иногда приходит намного позже, чем они были собраны), однако способствовать многократному потреблению одного и того же набора данных можно разными способами. Некоторые розничные торговцы устанавливают в магазинах камеры наблюдения таким образом, чтобы не только обнаруживать магазинных воров, но и отслеживать передвижение клиентов по магазину и места, где они останавливаются, чтобы присмотреться. Такая информация полезна для разработки лучшей выкладки товаров в магазине, а также для оценки эффективности маркетинговых кампаний. Ранее камеры видеонаблюдения служили только для обеспечения безопасности и рассматривались не более чем статья расходов. Теперь они рассматриваются как инвестиции, которые могут увеличить доход.

Как ни странно, одной из компаний, которые достигли наибольшего успеха в сборе данных с учетом расширяемости, является Google. Ее автомобили Street View, вызывающие неоднозначную реакцию общества, разъезжают по улицам, не только делая снимки домов и дорог, но и собирая данные GPS, проверяя картографическую информацию и даже попутно захватывая названия Wi-Fi-сетей (а также, вероятно, на незаконных основаниях, контент, доступный в открытых беспроводных сетях). За одну поездку автомобиль Google Street View накапливает множество потоков дискретных данных. Расширяемость обеспечивается тем, что Google применяет данные и для первичного использования, и для целого ряда вторичных. Например, данные GPS не только улучшили картографическую службу компании Google, но и были незаменимы для работы ее самоуправляемых автомобилей.[103]

Дополнительные расходы на сбор нескольких потоков данных или намного большего числа точек данных в каждом потоке, как правило, невелики, поэтому имеет смысл собирать как можно больше данных, а также делать их расширяемыми, изначально рассматривая потенциальные виды вторичного использования. Благодаря этому увеличивается альтернативная ценность информации. Суть в том, чтобы искать наборы «2 в 1», когда один и тот же набор данных, собранных определенным образом, можно применять в различных целях. Так эти сведения приобретают двойное назначение.

Обесценение данных

Поскольку стоимость хранения цифровых данных резко упала, компании получили сильный экономический стимул сохранять их для повторного использования в тех же или аналогичных целях. Однако полезность данных небезгранична.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии