Читаем Google. Прорыв в духе времени полностью

– Ссылка в Интернете сродни ссылке в научной литературе, – пояснил Пейдж. – Но если вы просто будете подсчитывать количество ссылок в Сети, что делает большинство поисковых систем, у вас возникнут проблемы. Всемирная паутина – это не научная литература, здесь создать веб-страницы может любой желающий.

Программа PageRank – это, в принципе, модель пользования Интернетом. Скажем, у нас есть пользователь, который просто бродит по Сети. Он немного смахивает на обезьяну: сидит часами перед компьютером и тупо кликает на ссылки. Знакомая картина, не правда ли?

Аудитория дружно хохотнула.

– PageRank говорит: если какой-то значимый сайт указывает на тебя, ты получаешь частицу его значимости, – продолжил Пейдж. – Предположим, что на тебя указывает какой-то действительно стоящий сайт. Он для тебя намного ценнее любой «левой» веб-страницы. К примеру, если па главной странице Yahoo! есть на тебя ссылка, это просто здорово. Наличие на главной странице сайта Yahoo ссылки на твою веб-страницу говорит о том, что либо ты заплатил кому-то кучу денег, либо твоя страница действительно хороша. А вот наличие ссылки на твою веб-страницу на главной странице моего веб-сайта никому ни о чем не говорит. – И Пейдж разъяснил, как он разработал рецепт получения ранжированных результатов поиска. – Мы присвоили всем веб-страницам числа, примерно соответствующие степени их важности. Ранг отдельно взятой страницы – это сумма показателей всех веб-страниц, на которых есть ссылки на нее.

Но существует серьезная проблема. Некоторые, пытаясь обмануть поисковые механизмы, делают так, чтобы адреса их веб-сайтов располагались в списках результатов как можно выше. Поисковая система должна выиграть эту кибервойну: она должна стать «умнее» всех этих «хитрых» веб-сайтов.

– Доводилось ли вам сталкиваться с адресами порносайтов па страницах с результатами поиска? Те, кому доводилось, поднимите руки! – предложил Пейдж. – О, некоторые признались. На самом деле это большая проблема для поисковиков. Дельцов, стремящихся заработать любой ценой, мало волнует, какую информацию вы ищете, их вообще мало что волнует. Они просто хотят, чтобы на их веб-страницы заходило как можно больше пользователей.

Сформулировав проблему, Пейдж заметил, что он уже работает над возможными путями ее решения. Наиболее эффективным из них представляется разработка программы определения степени важности веб-сайтов, которая не позволит их операторам манипулировать поисковой системой. Google, ориентированная исключительно на пользователя, обеспечит наличие только релевантных адресов на страницах с результатами поиска.

Пейдж не преминул пустить пару критических стрел в адрес других поисковых систем:

– Поисковые механизмы функционируют отнюдь не блестяще. Если вы наберете, скажем, слово «AltaVista» в строке запроса другой поисковой системы, получите ли вы адрес главной страницы сайта AltaVista? Скорее всего, нет. А вот на Google вы гарантированно получите его в числе первых результатов. Всю соответствующую работу мы делаем сами. Объемы очень большие.

Ключевым принципом разработчиков Google стало разбиение сложных задач на отдельные подзадачи, которыми можно было бы заниматься параллельно. С помощью соответствующих математических уравнений и множества компьютеров ребята создали что-то вроде производственной линии для сбора, занесения в индекс и представления информации, руководствуясь при этом законом Мура, что позволяло приобретать компьютерное оборудование с меньшими затратами.

– Мы ползаем по Всемирной паутине – то есть заходим туда и загружаем весь Интернет. Мы загружаем приблизительно по сто страниц в секунду, – сообщил Пейдж. – Процесс этот довольно сложен. Все загруженные копии веб-страниц мы сохраняем на жестких дисках компьютеров, они нам нужны для анализа. Веб-страницы хранятся почти на всех компьютерах в нашей комнате.

Ларри рассказал о новшестве, обеспечившем Google превосходство над другими поисковыми машинами. Профессора и студенты Стэнфорда не пропускали ни слова.

– Когда в строке запроса набрано не одно слово, а словосочетание, наша система анализирует расстояние между словами <на скопированной веб-странице>. Для этого в соответствующую программу мы ввели систему уравнений. В другие поисковые системы заложен более примитивный подход, и потому они не в состоянии поспевать за темпами расширения Сети. На их фоне Google с ее программным обеспечением, позволяющим загружать веб-страницы максимально оперативно, явно выделяется. Если вы хотите набрать больше материала, вам просто нужно «ползать» по большему количеству сайтов. Как видите, все очень просто.

Ларри и Сергей раскрыли далеко не все технические подробности функционирования PageRank и Google: в аудитории вполне могли быть «шпионы» из других компаний, и ребятам, понятное дело, не хотелось, чтобы кто-либо воспользовался плодами их трудов.

Перейти на страницу:

Похожие книги

Веб-аналитика: анализ информации о посетителях веб-сайтов
Веб-аналитика: анализ информации о посетителях веб-сайтов

Компании в веб-пространстве тратят колоссальные средства на веб-аналитику и оптимизацию своих веб-сайтов, которые, в свою очередь, приносят миллиарды долларов дохода. Если вы аналитик или работаете с веб-данными, то эта книга ознакомит вас с новейшими точками зрения на веб-аналитику и то, как с ее помощью сделать вашу компанию весьма успешной в веб. Вы изучите инструментальные средства и показатели, которые можно использовать, но что важнее всего, эта книга ознакомит вас с новыми многочисленными точками зрения на веб-аналитику. Книга содержит много советов, приемов, идей и рекомендаций, которые вы можете взять на вооружение. Изучение веб-аналитики по этой уникальной книге позволит познакомиться с проблемами и возможностями ее современной концепции. Написанная практиком, книга охватывает определения и теории, проливающие свет на сложившееся мнение об этой области, а также предоставляет поэтапное руководство по реализации успешной стратегии веб-аналитики.Эксперт в данной области Авинаш Кошик в присущем ему блестящем стиле разоблачает укоренившиеся мифы и ведет по пути к получению действенного понимания аналитики. Узнайте, как отойти от анализа посещаемости сайта, почему основное внимание следует уделять качественным данным, каковы методы обретения лучшего понимания, которое поможет выработать мировоззрение, ориентированное на мнение клиента, без необходимости жертвовать интересами компании.- Изучите все преимущества и недостатки методов сбора данных.- Выясните, как перестать подсчитывать количество просмотренных страниц, получить лучшее представление о своих клиентах.- Научитесь определять ценность показателей при помощи тройной проверки "Ну и что".- Оптимизируйте организационную структуру и выберите правильный инструмент аналитики.- Изучите и примените передовые аналитические концепции, включая анализ SEM/PPC, сегментацию, показатели переходов и др.- Используйте решения с быстрым началом для блогов и электронной торговли, а также веб-сайтов мелкого бизнеса.- Изучите ключевые компоненты платформы экспериментирования и проверки.- Используйте анализ конкурентной разведки для обретения понимания и принятия мер.Здесь также находятся:- Десять шагов по улучшению веб-аналитики.- Семь шагов по созданию управляемой данными культуры в организации.- Шесть способов замера успеха блога.- Три секрета создания эффективной веб-аналитики.- Десять признаков великого веб-аналитика.

Авинаш Кошик

ОС и Сети, интернет