Читаем О чем говорят цифры. Как понимать и использовать данные полностью

Неструктурированные данные в последнее время очень популярный предмет для обсуждения, поскольку слишком многие распространенные источники больших данных предоставляют их в неструктурированном виде. Но зачастую забывают об очень важном обстоятельстве: никакая аналитика не имеет дела напрямую с большими данными. Последние могут стать толчком к проведению анализа, но когда дело доходит до собственно аналитических процедур, то неструктурированные данные не обрабатываются. «Как же так?» – спросите вы. Позвольте объяснить.

Вот пример: отпечатки пальцев. Если вы любите сериалы вроде «CSI: полиция Майами», то постоянно видите, как эксперты идентифицируют их. Отпечатки пальцев представляют собой неструктурированные данные, причем довольно большого объема – если изображение высококачественное. Когда полицейские – в сериале или в жизни – сравнивают их, то есть ли смысл накладывать одно изображение на другое? Нет. Сначала они определяют несколько ключевых точек на каждом отпечатке. Затем по этим точкам формируется карта (многоугольник). Именно по этим картам производится сравнение. Особое значение имеет тот факт, что карта представляет собой структурированные данные, к тому же небольшого объема, даже если исходное изображение «весило» много. Как видите, хоть неструктурированные данные и необходимы для начала анализа, но в самом процессе обрабатываются не они, а полученные из них структурированные данные.

Всем понятный пример такого рода – анализ текстов. В общедоступных средствах массовой информации в последнее время принято вести смысловой анализ множества сообщений. Но можно ли непосредственно анализировать твиты, посты в Facebook и прочие посты и комментарии в соцсетях на предмет их смысловой оценки?

В действительности – нет. Текст необходимо разбить на фразы или слова. Затем определенным фразам и словам присваивается определение «положительный» или «отрицательный». В простом случае фразе или слову, определенному как «положительное», присваивается значение 1, «отрицательному» – 1, а «нейтральному» – 0. Смысл сообщения оценивается по сумме значений входящих в него слов или фраз. Таким образом, оценка ведется на основе структурированных количественных данных, полученных из первоначально неструктурированного источника – текста. Любой дальнейший анализ тенденций или стандартных моделей полностью основывается на структурированном, количественном выражении текста, но не на самом тексте.

Перейти на страницу:

Похожие книги

100 абсолютных законов успеха в бизнесе
100 абсолютных законов успеха в бизнесе

Почему одни люди преуспевают в бизнесе больше других? Почему одни предприятия процветают, в то время как другие терпят крах? Известный лектор и писатель по вопросам бизнеса нашел ответы на эти очень трудные вопросы. В своей книге он представляет набор принципов, или `универсальных законов`, которые лежат в основе успеха деловых людей всего мира. Практические рекомендации Трейси имеют вид 100 доступных для понимания и простых в применении законов, относящихся к важнейшим сферам труда и бизнеса. Он также приводит примеры из реальной жизни, которые наглядно иллюстрируют, как работает каждый из законов, а также предлагает читателю упражнения по применению этих законов в работе и жизни.

Брайан Трейси

Деловая литература / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес