Читаем Google. Прорыв в духе времени полностью

В середине 1990-х годов Бхарат, докторант Технического университета Джорджии, задумал создать газету нового формата. Его замысел заключался в следующем: робот-«паук», подобно пылесосу, собирает на информационных сайтах новости и доставляет их в один веб-узел, где эти сообщения можно классифицировать по темам и разместить на веб-страницах. «Эта идея возникла у меня вскоре после того, как я начал бродить по Интернету в поисках новостей, – говорит он. – Новостийных сайтов в то время было очень мало». Бхарат, обладающий умением находить и классифицировать любую информацию, хотел разработать электронную газету, материалы которой были бы структурированы с учетом интересов и привычек конкретного читателя. «Изначально я задался целью усовершенствовать структуру подачи новостей. Я знаю, как представлять материалы в соответствии с потребностями конкретного пользователя. Новости на сайтах размещались таким образом, что, для того чтобы прочитать все сообщение, нужно было щелкнуть по ссылке, а после – вернуться на главную страницу. Я сказал себе: «Я могу создать более совершенную структуру». Затем понял: следует понаблюдать за тем, как люди подходят к чтению новостей. Надеюсь, мы сможем создать газету завтрашнего дня, информация в которой будет располагаться с учетом предпочтений конкретного пользователя».

Одиннадцатого сентября все сошлось воедино: юношеские годы «пожирателя новостей», изучение прессы в докторантуре, гутловское правило 20% для работы над инновациями… В день, когда так важно было получить достоверную информацию, он всерьез задумался над тем, как интернет-пользователи (и, в частности, журналисты) могли бы оперативно узнавать, что пишут и говорят о том или ином событии в мире. Его память хранила образ деда, слушающего радио ВВС. «В мире столько всего происходило, и было столько точек зрения на происходящее: точка зрения Америки, мирового сообщества, Афганистана, Европы… Все это было невероятно увлекательно. Я обнаружил, что всесторонне изучать интересующую вас тему с помощью Интернета не слишком удобно, – говорит Бхарат. – Редакторы интернет-версий газет оперативно выкладывали сообщения, но у них не было времени (или желания) снабжать свои статьи ссылками на другие статьи по этой же теме. Скажем, корреспондент Washington Post при всем желании не мог оперативно отыскать в Сети другие статьи на интересующую его тему. Поисковые системы тогда тоже не помогали. Чтобы узнать, что другие написали о событии – особенно таком, как 11 сентября, когда высказывается столько различных мнений, – нужно было потратить уйму времени. Я решил, что мне стоит заняться этой проблемой – в результате выиграют и читатели, и журналисты».

В течение нескольких месяцев Бхарат работал над решением проблемы, столь остро вставшей перед ним 11 сентября. Ему предстояло решить много вопросов. Основная задача состояла в создании системы математических уравнений, которая работала бы как опытный редактор газет, отбирающий статьи и структурирующий новостную полосу. Используя метод кластеризации, Бхарат сортировал новости по категориям: «В мире», «Политика», «Бизнес», «Спорт» и др., а потом определял, какие шаги предпринял бы редактор в отношении каждого конкретного сообщения. Затем он стал присваивать сообщениям ранг исходя из их источников: больший вес имели новости, написанные корреспондентами ведущих американских газет и информационных агентств – The New York Times, The Washington Post, The Associated Press, Reuters. Вместе с тем важно было охватить как можно больше источников, поэтому независимо от того, насколько крупным и авторитетным был тот или иной источник, Бхарат старался включить его в свой перечень.

Программа Бхарата учитывала значимость обновленных вариантов новостей, а также то, что они поступают в режиме реального времени – она увеличивала ранг более свежих сообщений. «Ранг конкретного сообщения необходимо определять снова и снова. Это операция реального времени», – отмечает он. Создавая версии, предназначенные для пользователей других стран, Бхарат учел и фактор релевантности тех или иных текстов. К примеру, при прочих равных условиях статья из американской газеты представляет для интернет-пользователей из США больший интерес, нежели статья из канадской газеты, и наоборот. Значимость этого фактора стала очевидной, когда заработали первые версии проекта Бхарата, получившего название Google News.

К началу 2002 года он создал первый вариант программы Story Rank, «двоюродной сестры» PageRank, определявшей степень релевантности результатов поиска Google. Одних только заголовков сообщений, рассудил он, будет недостаточно, поэтому при помощи других программистов Бхарат разработал для новостей функцию поиска. Новостей всегда больше, чем умещается на главной странице, поиск же по слову (словосочетанию) позволит пользователю получить только те сообщения, которые представляют для него интерес.

Перейти на страницу:

Похожие книги

1001 совет по обустройству компьютера
1001 совет по обустройству компьютера

В книге собраны и обобщены советы по решению различных проблем, которые рано или поздно возникают при эксплуатации как экономичных нетбуков, так и современных настольных моделей. Все приведенные рецепты опробованы на практике и разбиты по темам: аппаратные средства персональных компьютеров, компьютерные сети и подключение к Интернету, установка, настройка и ремонт ОС Windows, работа в Интернете, защита от вирусов. Рассмотрены не только готовые решения внезапно возникающих проблем, но и ответы на многие вопросы, которые возникают еще до покупки компьютера. Приведен необходимый минимум технических сведений, позволяющий принять осознанное решение.Компакт-диск прилагается только к печатному изданию книги.

Юрий Всеволодович Ревич

Программирование, программы, базы данных / Интернет / Компьютерное «железо» / ОС и Сети / Программное обеспечение / Книги по IT
Wi-Fi: Все, что Вы хотели знать, но боялись спросить
Wi-Fi: Все, что Вы хотели знать, но боялись спросить

Жизнь современного человека — это движение. Мобильность для нас становится одним из самых важных моментов для работы, для общения, для жизни. Многие из нас сейчас уже не представляют жизнь без сотовых телефонов, которые из средства роскоши превратились в предмет, без которого жизнь современного человека стала просто немыслима. Многие уже оценили все преимущества Bluetooth, GPRS. Эти устройства превратили наши телефоны из средств связи в незаменимых помощников в работе. К сожалению, один из самых главных недостатков этих беспроводных технологий — малый радиус действия и низкая скорость передачи данных, что сейчас становится очень важным фактором для всех нас. Поэтому к нам на помощь приходит активно развивающийся во всем мире и в России стандарт Wi-Fi. Особенно радует, что в крупных городах России, особенно в Москве и Санкт-Петербурге, начинается массовое внедрение беспроводных сетей Wi-Fi в публичных местах (так называемых Hot Spot) — отелях, аэропортах, ресторанах, торговых центрах и кафе.Что же такое Wi-Fi? Очередной мыльный пузырь IT-индустрии, который изо всех сил надувают производители и поставщики телекоммуникационного оборудования или новая технология, призванная в очередной раз изменить наш привычный мир, как это случилось когда-то с появлением Интернет и сотовой связи?

А К Щербаков , А. К. Щербаков

Компьютерное 'железо' (аппаратное обеспечение), цифровая обработка сигналов / Интернет / Компьютерное «железо» / Книги по IT