Читаем Google. Прорыв в духе времени полностью

В середине 1990-х годов Бхарат, докторант Технического университета Джорджии, задумал создать газету нового формата. Его замысел заключался в следующем: робот-«паук», подобно пылесосу, собирает на информационных сайтах новости и доставляет их в один веб-узел, где эти сообщения можно классифицировать по темам и разместить на веб-страницах. «Эта идея возникла у меня вскоре после того, как я начал бродить по Интернету в поисках новостей, – говорит он. – Новостийных сайтов в то время было очень мало». Бхарат, обладающий умением находить и классифицировать любую информацию, хотел разработать электронную газету, материалы которой были бы структурированы с учетом интересов и привычек конкретного читателя. «Изначально я задался целью усовершенствовать структуру подачи новостей. Я знаю, как представлять материалы в соответствии с потребностями конкретного пользователя. Новости на сайтах размещались таким образом, что, для того чтобы прочитать все сообщение, нужно было щелкнуть по ссылке, а после – вернуться на главную страницу. Я сказал себе: «Я могу создать более совершенную структуру». Затем понял: следует понаблюдать за тем, как люди подходят к чтению новостей. Надеюсь, мы сможем создать газету завтрашнего дня, информация в которой будет располагаться с учетом предпочтений конкретного пользователя».

Одиннадцатого сентября все сошлось воедино: юношеские годы «пожирателя новостей», изучение прессы в докторантуре, гутловское правило 20% для работы над инновациями… В день, когда так важно было получить достоверную информацию, он всерьез задумался над тем, как интернет-пользователи (и, в частности, журналисты) могли бы оперативно узнавать, что пишут и говорят о том или ином событии в мире. Его память хранила образ деда, слушающего радио ВВС. «В мире столько всего происходило, и было столько точек зрения на происходящее: точка зрения Америки, мирового сообщества, Афганистана, Европы… Все это было невероятно увлекательно. Я обнаружил, что всесторонне изучать интересующую вас тему с помощью Интернета не слишком удобно, – говорит Бхарат. – Редакторы интернет-версий газет оперативно выкладывали сообщения, но у них не было времени (или желания) снабжать свои статьи ссылками на другие статьи по этой же теме. Скажем, корреспондент Washington Post при всем желании не мог оперативно отыскать в Сети другие статьи на интересующую его тему. Поисковые системы тогда тоже не помогали. Чтобы узнать, что другие написали о событии – особенно таком, как 11 сентября, когда высказывается столько различных мнений, – нужно было потратить уйму времени. Я решил, что мне стоит заняться этой проблемой – в результате выиграют и читатели, и журналисты».

В течение нескольких месяцев Бхарат работал над решением проблемы, столь остро вставшей перед ним 11 сентября. Ему предстояло решить много вопросов. Основная задача состояла в создании системы математических уравнений, которая работала бы как опытный редактор газет, отбирающий статьи и структурирующий новостную полосу. Используя метод кластеризации, Бхарат сортировал новости по категориям: «В мире», «Политика», «Бизнес», «Спорт» и др., а потом определял, какие шаги предпринял бы редактор в отношении каждого конкретного сообщения. Затем он стал присваивать сообщениям ранг исходя из их источников: больший вес имели новости, написанные корреспондентами ведущих американских газет и информационных агентств – The New York Times, The Washington Post, The Associated Press, Reuters. Вместе с тем важно было охватить как можно больше источников, поэтому независимо от того, насколько крупным и авторитетным был тот или иной источник, Бхарат старался включить его в свой перечень.

Программа Бхарата учитывала значимость обновленных вариантов новостей, а также то, что они поступают в режиме реального времени – она увеличивала ранг более свежих сообщений. «Ранг конкретного сообщения необходимо определять снова и снова. Это операция реального времени», – отмечает он. Создавая версии, предназначенные для пользователей других стран, Бхарат учел и фактор релевантности тех или иных текстов. К примеру, при прочих равных условиях статья из американской газеты представляет для интернет-пользователей из США больший интерес, нежели статья из канадской газеты, и наоборот. Значимость этого фактора стала очевидной, когда заработали первые версии проекта Бхарата, получившего название Google News.

К началу 2002 года он создал первый вариант программы Story Rank, «двоюродной сестры» PageRank, определявшей степень релевантности результатов поиска Google. Одних только заголовков сообщений, рассудил он, будет недостаточно, поэтому при помощи других программистов Бхарат разработал для новостей функцию поиска. Новостей всегда больше, чем умещается на главной странице, поиск же по слову (словосочетанию) позволит пользователю получить только те сообщения, которые представляют для него интерес.

Перейти на страницу:

Похожие книги

Веб-аналитика: анализ информации о посетителях веб-сайтов
Веб-аналитика: анализ информации о посетителях веб-сайтов

Компании в веб-пространстве тратят колоссальные средства на веб-аналитику и оптимизацию своих веб-сайтов, которые, в свою очередь, приносят миллиарды долларов дохода. Если вы аналитик или работаете с веб-данными, то эта книга ознакомит вас с новейшими точками зрения на веб-аналитику и то, как с ее помощью сделать вашу компанию весьма успешной в веб. Вы изучите инструментальные средства и показатели, которые можно использовать, но что важнее всего, эта книга ознакомит вас с новыми многочисленными точками зрения на веб-аналитику. Книга содержит много советов, приемов, идей и рекомендаций, которые вы можете взять на вооружение. Изучение веб-аналитики по этой уникальной книге позволит познакомиться с проблемами и возможностями ее современной концепции. Написанная практиком, книга охватывает определения и теории, проливающие свет на сложившееся мнение об этой области, а также предоставляет поэтапное руководство по реализации успешной стратегии веб-аналитики.Эксперт в данной области Авинаш Кошик в присущем ему блестящем стиле разоблачает укоренившиеся мифы и ведет по пути к получению действенного понимания аналитики. Узнайте, как отойти от анализа посещаемости сайта, почему основное внимание следует уделять качественным данным, каковы методы обретения лучшего понимания, которое поможет выработать мировоззрение, ориентированное на мнение клиента, без необходимости жертвовать интересами компании.- Изучите все преимущества и недостатки методов сбора данных.- Выясните, как перестать подсчитывать количество просмотренных страниц, получить лучшее представление о своих клиентах.- Научитесь определять ценность показателей при помощи тройной проверки "Ну и что".- Оптимизируйте организационную структуру и выберите правильный инструмент аналитики.- Изучите и примените передовые аналитические концепции, включая анализ SEM/PPC, сегментацию, показатели переходов и др.- Используйте решения с быстрым началом для блогов и электронной торговли, а также веб-сайтов мелкого бизнеса.- Изучите ключевые компоненты платформы экспериментирования и проверки.- Используйте анализ конкурентной разведки для обретения понимания и принятия мер.Здесь также находятся:- Десять шагов по улучшению веб-аналитики.- Семь шагов по созданию управляемой данными культуры в организации.- Шесть способов замера успеха блога.- Три секрета создания эффективной веб-аналитики.- Десять признаков великого веб-аналитика.

Авинаш Кошик

ОС и Сети, интернет