В середине 1990-х годов Бхарат, докторант Технического университета Джорджии, задумал создать газету нового формата. Его замысел заключался в следующем: робот-«паук», подобно пылесосу, собирает на информационных сайтах новости и доставляет их в один веб-узел, где эти сообщения можно классифицировать по темам и разместить на веб-страницах. «Эта идея возникла у меня вскоре после того, как я начал бродить по Интернету в поисках новостей, – говорит он. – Новостийных сайтов в то время было очень мало». Бхарат, обладающий умением находить и классифицировать любую информацию, хотел разработать электронную газету, материалы которой были бы структурированы с учетом интересов и привычек конкретного читателя. «Изначально я задался целью усовершенствовать структуру подачи новостей. Я знаю, как представлять материалы в соответствии с потребностями конкретного пользователя. Новости на сайтах размещались таким образом, что, для того чтобы прочитать все сообщение, нужно было щелкнуть по ссылке, а после – вернуться на главную страницу. Я сказал себе: «Я могу создать более совершенную структуру». Затем понял: следует понаблюдать за тем, как люди подходят к чтению новостей. Надеюсь, мы сможем создать газету завтрашнего дня, информация в которой будет располагаться с учетом предпочтений конкретного пользователя».
Одиннадцатого сентября все сошлось воедино: юношеские годы «пожирателя новостей», изучение прессы в докторантуре, гутловское правило 20% для работы над инновациями… В день, когда так важно было получить достоверную информацию, он всерьез задумался над тем, как интернет-пользователи (и, в частности, журналисты) могли бы оперативно узнавать, что пишут и говорят о том или ином событии в мире. Его память хранила образ деда, слушающего радио ВВС. «В мире столько всего происходило, и было столько точек зрения на происходящее: точка зрения Америки, мирового сообщества, Афганистана, Европы… Все это было невероятно увлекательно. Я обнаружил, что всесторонне изучать интересующую вас тему с помощью Интернета не слишком удобно, – говорит Бхарат. – Редакторы интернет-версий газет оперативно выкладывали сообщения, но у них не было времени (или желания) снабжать свои статьи ссылками на другие статьи по этой же теме. Скажем, корреспондент Washington Post при всем желании не мог оперативно отыскать в Сети другие статьи на интересующую его тему. Поисковые системы тогда тоже не помогали. Чтобы узнать, что другие написали о событии – особенно таком, как 11 сентября, когда высказывается столько различных мнений, – нужно было потратить уйму времени. Я решил, что мне стоит заняться этой проблемой – в результате выиграют и читатели, и журналисты».
В течение нескольких месяцев Бхарат работал над решением проблемы, столь остро вставшей перед ним 11 сентября. Ему предстояло решить много вопросов. Основная задача состояла в создании системы математических уравнений, которая работала бы как опытный редактор газет, отбирающий статьи и структурирующий новостную полосу. Используя метод кластеризации, Бхарат сортировал новости по категориям: «В мире», «Политика», «Бизнес», «Спорт» и др., а потом определял, какие шаги предпринял бы редактор в отношении каждого конкретного сообщения. Затем он стал присваивать сообщениям ранг исходя из их источников: больший вес имели новости, написанные корреспондентами ведущих американских газет и информационных агентств – The New York Times, The Washington Post, The Associated Press, Reuters. Вместе с тем важно было охватить как можно больше источников, поэтому независимо от того, насколько крупным и авторитетным был тот или иной источник, Бхарат старался включить его в свой перечень.
Программа Бхарата учитывала значимость обновленных вариантов новостей, а также то, что они поступают в режиме реального времени – она увеличивала ранг более свежих сообщений. «Ранг конкретного сообщения необходимо определять снова и снова. Это операция реального времени», – отмечает он. Создавая версии, предназначенные для пользователей других стран, Бхарат учел и фактор релевантности тех или иных текстов. К примеру, при прочих равных условиях статья из американской газеты представляет для интернет-пользователей из США больший интерес, нежели статья из канадской газеты, и наоборот. Значимость этого фактора стала очевидной, когда заработали первые версии проекта Бхарата, получившего название Google News.
К началу 2002 года он создал первый вариант программы Story Rank, «двоюродной сестры» PageRank, определявшей степень релевантности результатов поиска Google. Одних только заголовков сообщений, рассудил он, будет недостаточно, поэтому при помощи других программистов Бхарат разработал для новостей функцию поиска. Новостей всегда больше, чем умещается на главной странице, поиск же по слову (словосочетанию) позволит пользователю получить только те сообщения, которые представляют для него интерес.