Прежде всего, стало очевидно, что поиск в вебе не может быть сколько-нибудь корректно выполнен, будучи основан на анализе (пусть даже сколь угодно глубоком, семантическом и т. п.) одного лишь текста документа. Ведь внетекстовые (off-page) факторы играют не меньшую, а порой и большую роль, чем текст самой страницы. Положение на сайте, посещаемость, авторитетность источника, частота обновления, цитируемость страницы и ее авторов — все эти факторы невозможно сбрасывать со счета.
Появились эти критерии не на пустом месте. Для научных трудов вопрос значимости был давно решен за счет применения
Однако индекс цитирования в том виде, как он здесь описан, не дает корректной оценки значимости. Хотя бы потому, что зачастую одна ссылка с известного и уважаемого сайта может значить намного больше, чем сотня ссылок с никому не известных страниц. Поэтому был предложен более сложный вариант индекса цитирования —
9.2. PageRank
Наиболее ярким примером такого индекса цитирования служит PageRank. Как описывает теорию индекса Google — "если Страница А ссылается на Страницу В, то Страница А считает, что Страница В — важная страница". Текст ссылки не используется при расчете этого индекса. Зато наоборот, PageRank оказывает влияние на важность ссылок на страницу. Если на страницу указывают многие важные ссылки, то ее ссылки на другие страницы также становятся более важными. Для PageRank важными ссылками считаются ссылки, ведущие на сайт из каталогов DMOZ и Yahoo!.
Базовая формула для расчета значения PageRank чаще всего в соответствующих статьях бывает представлена в следующем виде:
где:
Значение PR находится в пределах от 0 до 10 и представлено целыми числами. Именно это значение можно увидеть в установленной панели инструментов, хотя действительное значение PR совсем иное. Для удобства и упрощения представления индекса цитирования реальные значения были приведены к значениям для пользователей. Точные данные о том, каким образом было выполнено это приведение, отсутствуют, но в качестве примера можно воспользоваться следующими данными (табл. 9.1).
Отсюда можно сделать один вывод — увеличить значение PR от 1 до 2 значительно проще, чем подняться со значения 4 до значения 5. Средние по известности сайты, чаще всего, имеют значение PR, равное 4 или 5. Значение 6 имеют хорошо "раскрученные" сайты. 7 или 8 — у ведущих брендов.
Приведенная здесь формула не говорит о том, что расчеты выполняются строго в соответствии с ней. На самом деле происходит постоянное усложнение алгоритма расчета, примером чему может служить осуществленное в ноябре 2003 года специалистами Google изменение алгоритма вычисления PageRank. Это изменение среди англоговорящих вебмастеров получило название "Florida". Однако Google не сделал никаких официальных заявлений по поводу того, что за изменения были внесены. На этом работа над изменениями не остановилась, в компании постоянно ведутся научные работы по модификации алгоритма PageRank.
Вильям Л Саймон , Вильям Саймон , Наталья Владимировна Макеева , Нора Робертс , Юрий Викторович Щербатых
Зарубежная компьютерная, околокомпьютерная литература / ОС и Сети, интернет / Короткие любовные романы / Психология / Прочая справочная литература / Образование и наука / Книги по IT / Словари и Энциклопедии