Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Посмотрим, что сделала Google. Эта компания имеет, пожалуй, наиболее полное из современных средств проверки правописания практически для всех языков мира. Система постоянно совершенствуется и непрерывно добавляет новые слова — это результат ненамеренной деятельности людей, ежедневно использующих поисковую систему. Сделали опечатку в слове iPad? Не страшно, система и так поймет. Ввели Obamacare? Запрос принят! Это важнее, чем может показаться. Золотое правило поисковиков звучит так: 10% запросов вводятся с ошибкой. (Поскольку средство проверки правописания Google постоянно совершенствуется, люди не обращают особого внимания на правильный ввод поисковых запросов, ведь Google в любом случае прекрасно справится с их обработкой.)

Компания Google получила свое средство проверки правописания практически «даром». Оно основано на опечатках, которые вводятся в окне поиска среди трех миллиардов запросов, обрабатываемых ежедневно. Продуманная обратная связь указывает системе, что пользователь на самом деле имел в виду. Пользователи могут непосредственно «сообщить» поисковой системе Google ответ на вопрос, отображаемый в верхней части страницы результатов (например: «Вы имели в виду эпидемиология?»), выбрав новый поиск с правильным термином. Или же веб-страница, на которую переходит пользователь, неявно сигнализирует о правильном написании, так как она, вероятно, сильнее коррелирует с правильно написанным словом, чем неправильным.

Система проверки правописания Google демонстрирует, что «плохие», «неправильные» или «дефектные» данные могут быть очень полезными. Интересно, что компания Google не первая загорелась этой идеей проверки правописания. Примерно в 2000 году Yahoo увидела возможность создания средства проверки правописания по опечаткам в запросах пользователей. Но идея не была реализована. Данные старых поисковых запросов рассматривались по большей части как балласт. Популярные когда-то поисковые системы Infoseek и Alta Vista в свое время тоже располагали наиболее полной базой данных слов с ошибками, но недооценили ее значимость. Их системы в ходе процесса, невидимого пользователям, рассматривали опечатки как «связанные термины» и выполняли поиск. Но эти системы были основаны на словарях (которые явно указывали системе, что правильно), а не на живом, динамичном взаимодействии с пользователем.

Только Google удалось разглядеть в отрывочных данных о взаимодействии пользователей поистине золотой песок, который можно было собрать и превратить в драгоценный слиток. Как считает один из ведущих инженеров Google, их средство проверки правописания работает на порядок лучше, чем средство Microsoft (хотя при некотором давлении инженер признал, что не проводил надлежащего исследования). Он высмеял идею «бесплатной» разработки. «Сырье (опечатки), возможно, и дается даром, но у Google на разработку системы ушло наверняка намного больше средств, чем у Microsoft», — сказал он, широко улыбаясь.

Разные подходы двух компаний чрезвычайно показательны. Корпорация Microsoft видела ценность средства проверки правописания только в одном — обработке текстов. Google, напротив, ясно понимала его значение. Используя опечатки, она не только разработала передовое в мире средство проверки правописания, чтобы улучшить поиск, но и применила его ко многим другим службам, таким как «автозаполнение» в поисковой системе, Gmail, Google Диск и даже собственная система машинного перевода.

Для описания цифрового следа, который пользователи оставляют на сайте, был придуман специальный термин — «выбросы данных». Под ним подразумевается побочный продукт взаимодействия пользователей в интернете: где и что они нажимают, как долго смотрят на страницу, где проводят курсором мыши, что печатают и т. д. Многие компании разрабатывают собственные системы, для того чтобы собирать выбросы данных и перерабатывать их для улучшения существующей службы или разработки новой. В этом отношении, как ни странно, лидирует Google. Она применяет принцип рекурсивного «обучения на основе данных» во многих своих службах. Каждое действие пользователя считается «сигналом», который Google анализирует и передает обратно в систему.

Google четко знает, сколько раз пользователи искали тот или иной термин, а также другие связанные с ним термины или же переходили по ссылке, после чего (не найдя ничего ценного) возвращались на страницу поиска, чтобы начать заново. Компания знает, по каким ссылкам переходил пользователь (будь то восьмая ссылка на первой странице или первая ссылка на восьмой странице) и отказался ли он от поиска в целом. Возможно, Google и не была первой, у кого возникла такая идея, зато она реализовала ее с необычайной эффективностью.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии