Читаем SEO для Чайников полностью

Робот Googlebot обрабатывает каждую сканируемую страницу, чтобы составить полный индекс всех найденных слов, а также отметить, в какой части страницы они находятся. Кроме того, обрабатываются данные из основных тегов и атрибутов, например тегов Title и атрибутов ALT. Робот Googlebot способен обрабатывать многие (но не все) типы содержания. К примеру, обработке не поддается содержание некоторых файлов мультимедиа и динамически создаваемых страниц.

3.1.3 Предоставление результатов

Когда пользователь вводит поисковый запрос, система находит в индексе подходящие страницы и выдает наиболее релевантные результаты. Релевантность определяется различными факторами. Один из них – это рейтинг PageRank для конкретной страницы. PageRank является показателем "важности" страницы и определяется на основе входящих ссылок с других страниц. Проще говоря, каждая ссылка на страницу вашего сайта с другого сайта увеличивает PageRank вашего сайта. Не все ссылки равноценны. Google непрерывно совершенствуем алгоритмы оценки ссылок, чтобы отсеивать спам и другие данные, негативно влияющие на качество результатов поиска. Наибольший вес имеют ссылки, размещение которых связано с качеством содержания вашего сайта.

Для обеспечения адекватного рейтинга сайта на страницах результатов поиска важно, чтобы робот Google мог корректно сканировать и индексировать сайт.

3.2. Архитектура Google

По данным Comscore, за два последних месяца 2012 года этот поисковик обработал 114,7 млрд запросов — это соответствует 65,2% мирового рынка поиска. Показатели ближайшего конкурента, китайского Baidu, в восемь раз меньше. Да что там говорить, у психологов даже специальный термин есть — Google Effect: современным людям, оказывается, проще не запоминать факты, а в нужный момент отыскать их в интернете.

Такая популярность означает, что размеры поискового индекса Google не просто огромны: они трудновообразимы. Не все осознают, что когда мы вводим в поисковую строку насущный для нас запрос, то обращаемся к одному из самых крупных хранилищ данных в мире. Ещё поразительнее другое: для того чтобы отыскать в петабайтах информации ответ на наш запрос, Google хватает доли секунды.

Самым важным достижением Google является построение архитектурной пирамиды своего детища — аппаратно-программной структуры системы хранения и индексирования веб-контента, допускающей практически неограниченное масштабирование.

В основании пирамиды лежит кластерный массив, единичным узлом которого был недорогой и далеко не лучший по надёжности компьютер — сервер Google. Его архитектура была разработана в 2005 году. В то время как дорогостоящие отказоустойчивые кластеры использовали сложные системы резервного питания, каждый из серверов Google толщиной в 3,5 дюйма (2U в стоечной терминологии) имел собственную двенадцативольтовую батарейку.

Использование в качестве резервного источника питания не централизованной системы бесперебойного питания, а недорогих батарей, монтируемых прямо на сервере, многократно снизило затраты на аппаратную составляющую империи Google. Договориться с поставщиком материнских плат (на первых порах эту роль играла компания Gigabyte) о небольшой модификации блока распределения напряжения оказалось куда дешевле, чем городить отработанные кем-то решения по резервированию питания.

Google File System (GFS)— собственная файловая система, рассчитаная на работу в условиях, когда аппаратные и сетевые сбои являются нормой, а не чрезвычайной ситуацией. То есть они отказались от стандартных NFS и AFS.

MapReduce

- технология обработки данных на больших кластерах

Google

. Эффективно хранить в распределённой и склонной к отказам среде поступающий контент и получаемую на его основе индексную базу, конечно же, здорово, однако самая суть работы любого поисковика — быстрый и экономичный алгоритм создания индексной базы. Ведь, в конце концов, именно благодаря ему наши ключевые слова в строке поиска превращаются в ссылки на конкретные ресурсы.

3.3. Роботы Google

Поисковыми роботами принято называть любые программы (такие как роботы или пауки), которые автоматически обнаруживают и сканируют веб-сайты, переходя по ссылкам от страницы к странице. Основной поисковый робот Google называется Googlebot. В следующей таблице приведены сведения о популярных поисковых роботах Google, регистрируемых в журналах источников ссылок. Кроме того, показано, как задавать этих роботов в файле robots.txt, в метатегах robots и в командах X-Robots-Tag HTTP.

Поисковый робот

Перейти на страницу:

Похожие книги

Компьютерные сети. 6-е изд.
Компьютерные сети. 6-е изд.

Перед вами шестое издание самой авторитетной книги по современным сетевым технологиям, написанное признанным экспертом Эндрю Таненбаумом в соавторстве со специалистом компании Google Дэвидом Уэзероллом и профессором Чикагского университета Ником Фимстером. Первая версия этого классического труда появилась на свет в далеком 1980 году, и с тех пор каждое издание книги неизменно становилось бестселлером. В книге последовательно изложены основные концепции, определяющие современное состояние компьютерных сетей и тенденции их развития. Авторы подробно объясняют устройство и принципы работы аппаратного и программного обеспечения, рассматривают все аспекты и уровни организации сетей — от физического до прикладного. Изложение теоретических принципов дополняется яркими, показательными примерами функционирования интернета и компьютерных сетей различного типа. Большое внимание уделяется сетевой безопасности. Шестое издание полностью переработано с учетом изменений, произошедших в сфере сетевых технологий за последние годы, и, в частности, освещает такие технологии, как DOCSIS, 4G и 5G, беспроводные сети стандарта 802.11ax, 100-гигабитные сети Ethernet, интернет вещей, современные транспортные протоколы CUBIC TCP, QUIC и BBR, программно-конфигурируемые сети и многое другое.

Дэвид Уэзеролл , Ник Фимстер , Эндрю Таненбаум

Учебные пособия, самоучители