Читаем Разберись в Data Science полностью

На примере с Джорданом и его любимыми хот-догами легко увидеть недостаток метода мешка слов. Фраза из двух слов «любит хот-доги» по смыслу противоположна фразе «ненавидит хот-доги», однако при использовании метода мешка слов контекст и порядок слов игнорируются. В данном случае могут помочь N-граммы. N-грамма – это последовательность из N-слов, поэтому 2-граммы (формально называемые биграммами) для фразы «Джордан любит хот-доги, но ненавидит гамбургеры» будут такими: {Джордан любит: 1, любит хот-доги: 1, ненавидит гамбургеры: 1, но ненавидит: 1, хот-доги, но: 1}.

Данное расширение метода мешка слов добавляет контекст, необходимый для различения фраз из одинаковых слов, но расположенных в разном порядке. Токены биграмм часто добавляются в мешок слов, что еще сильнее увеличивает размер и разреженность матрицы «документ-термин». С практической точки зрения это означает необходимость хранить большую (широкую) таблицу, содержащую относительно небольшой объем информации. Мы добавили несколько биграмм в табл. 11.1 и получили табл. 11.2.

О том, следует ли отфильтровывать биграммы со стоп-словами, ведутся споры, поскольку такой подход может привести к потере контекста. В некоторых программах слова «мой» и «ваш» считаются стоп-словами, однако смысл биграммных фраз «мое предпочтение» и «ваше предпочтение» при отбрасывании стоп-слов полностью исчезает. Это еще одно решение, которое должны принять ваши специалисты при анализе текстовых данных. (Вероятно, вы уже начинаете понимать, насколько сложна текстовая аналитика.)

Табл. 11.2. Пополнение «мешка слов» биграммами. Получившаяся в результате матрица «документ-термин» является очень большой

Однако после такой подготовки обобщение текста можно произвести путем простого подсчета. Такие веб-сайты, как Tripadvisor.com, применяют эти подходы и предоставляют пользователям возможность быстро находить отзывы по часто упоминаемым словам или фразам. Например, на сайте вашего местного стейк-хауса среди предлагаемых поисковых запросов вы можете встретить такие биграммы, как «запеченный картофель» или «идеально приготовленный».

<p><emphasis>Векторное представление слов</emphasis></p>

С помощью метода мешка слов и N-грамм можно обнаружить сходства между документами. Если несколько документов содержат похожие наборы слов или N-грамм, вы можете предположить, что предложения связаны между собой (в разумных пределах, конечно: помните о любви/ненависти Джордана к хот-догам). В этом случае строки в матрице «документ-термин» будут численно похожи.

Но как можно численно определить то, какие слова в словаре – не документы, а именно слова – связаны между собой?

В 2013 году компания Google проанализировала миллиарды пар слов (два слова, находящихся в непосредственной близости друг от друга в предложении) в своей огромной базе данных статей Google News[110]. Проанализировав частоту встречаемости пар слов, – например, (вкусная, говядина) и (вкусная, свинина) встречались чаще, чем (вкусная, корова) и (вкусная, свинья), – специалисты компании смогли сгенерировать так называемое векторное представление слов, то есть представление слов в виде списка чисел (или векторов). Если слова «говядина» и «свинина» часто сопровождаются словом «вкусная», то математически они будут представлены как похожие в том элементе вектора, который связан с вещами, обычно описываемыми как «вкусные», то есть с тем, что мы, люди, называем едой.

Чтобы объяснить, как это работает, мы будем использовать небольшое количество пар слов (компания Google использовала миллиарды). Представьте, что при просмотре статьи в местной газете мы обнаруживаем следующие пары слов: (вкусная, говядина), (вкусный, салат), (корм, корова), (говядина, корова), (свинья, свинина), (свинина, салат), (салат, говядина), (есть, свинина), (корова, ферма) и так далее. (Придумайте еще несколько пар слов по аналогии.) Каждое слово попадает в словарь: {говядина, корова, вкусный, ферма, корм, свинья, свинина, салат}[111].

Слово «корова», например, может быть представлено в виде вектора, длина которого соответствует длине приведенного выше словаря, со значением 1 на месте слова «корова» и значением 0 на месте всех остальных слов: (0, 1, 0, 0, 0, 0, 0, 0). Этот вектор представляет собой входные данные для алгоритма контролируемого обучения и сопоставляется с соответствующим выходным вектором (длина которого также соответствует длине словаря). В нем содержатся вероятности появления других слов из словаря рядом с входным словом. Таким образом, входному слову «корова» может соответствовать выходной вектор (0,3, 0, 0, 0,5, 0,1, 0,1, 0, 0), говорящий о том, что слово «корова» сопровождалось словом «говядина» в 30 % случаев, словом «ферма» – в 50 % случаев, а словами «корм» и «свинья» – в 10 % случаев.

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных