https://plus.google.com/u/0/110193533410016731852
https://twitter.com/DaveTaylor
http://www.amazon.com/Doctor-Who-Shada-Adventures-Douglas/
http://www.daveonfilm.com/
http://www.daveonfilm.com/about-me/
http://www.daveonfilm.com/author/d1taylor/
http://www.daveonfilm.com/category/film-movie-reviews/
Еще одно из возможных применений сценария — получение списка доменных имен, на которые ссылается указанный сайт. На этот раз воспользуемся стандартным инструментом Unix — командой wc, чтобы подсчитать общее количество найденных ссылок:
$ getlinks http://www.amazon.com/ | wc −l
219
На домашней странице сайта Amazon найдено 219 ссылок. Внушительное количество! А сколько разных доменных имен представлено в этих ссылках? Давайте отфильтруем список, запустив сценарий с флагом −d:
$ getlinks −d http://www.amazon.com/ | head -10
amazonlocal.com
aws.amazon.com
fresh.amazon.com
kdp.amazon.com
services.amazon.com
www.6pm.com
www.abebooks.com
www.acx.com
www.afterschool.com
www.alexa.com
Сайт Amazon не стремится уводить посетителей за свои пределы, но есть ряд партнерских сайтов, ссылки на которые все же присутствуют на главной странице. Конечно, не все придерживаются такой политики.
А что, если ссылки на странице Amazon разделить на абсолютные и относительные?
$ getlinks −a http://www.amazon.com/ | wc −l
51
$ getlinks −r http://www.amazon.com/ | wc −l
222
Вполне ожидаемо, что количество относительных ссылок на странице Amazon, ссылающихся на внутренние страницы, в четыре раза превышает количество абсолютных ссылок, уводящих на другие веб-сайты. Всякий коммерческий сайт должен стремиться удержать пользователей на своих страницах!
Усовершенствование сценария
Как видите, сценарий getlinks может быть очень полезным аналитическим инструментом. Далее в книге вы найдете один из вариантов его дальнейшего усовершенствования: сценарий № 69 в главе 9 помогает быстро проверить действительность всех гипертекстовых ссылок.
№ 55. Получение информации о пользователе GitHub
Сайт GitHub создавался как серьезное подспорье для индустрии открытого программного обеспечения и открытого сотрудничества людей по всему миру. Многие системные администраторы и разработчики посещают GitHub, чтобы получить исходный код какого-нибудь открытого проекта или оставить отчет о проблеме. Так как по сути GitHub — это социальная платформа для разработчиков, возможность быстро получить основную информацию о том или ином пользователе была бы весьма кстати. Сценарий в листинге 7.6 выводит некоторые сведения о заданном пользователе GitHub и позволяет познакомиться с очень мощным GitHub API.
Код
Листинг 7.6. Сценарий githubuser
··#!/bin/bash
··# githubuser — Получая имя пользователя GitHub, выводит информацию о нем.
··if [$# −ne 1]; then
····echo "Usage: $0
····exit 1
··fi
··# Флаг −s подавляет вывод дополнительной информации,
··#·· которую обычно··выводит curl.
·········· awk −F'"' '
·············· /\"name\":/ {
················ print $4" is the name of the GitHub user."
·············· }
·············· /\"followers\":/{
················ split($3, a, " ")
················ sub(/,/, "", a[2])
················ print "They have "a[2]" followers."
·············· }
·············· /\"following\":/{
················ split($3, a, " ")
················ sub(/,/, "", a[2])
················ print "They are following "a[2]" other users."
·············· }
·············· /\"created_at\":/{
················ print "Their account was created on "$4"."