Имя GitHub (https://github.com/) происходит от Git — распределенной системы управления версиями, которая позволяет программистам совместно трудиться над проектами. Пользователи Git управляют своим индивидуальным вкладом в проект, чтобы изменения, вносимые одним человеком, не конфликтовали с изменениями, вносимыми другими людьми. Когда вы реализуете новую возможность в проекте, Git отслеживает изменения, внесенные в каждый файл. Если новый код успешно работает, вы закрепляете внесенные изменения, и Git записывает новое состояние проекта. Если же вы допустили ошибку и хотите отменить внесенные изменения, Git позволяет легко вернуться к любому из предыдущих рабочих состояний. (За дополнительной информацией об управлении версиями с использованием Git обращайтесь к приложению Г.) Проекты GitHub хранятся в репозиториях, содержащих все ресурсы, связанные с проектом: код, информацию о других участниках, все проблемы или отчеты об ошибках и т.д.
Если проект нравится пользователям GitHub, то пользователи могут «поставить звезду», чтобы продемонстрировать свою поддержку и следить за проектами, которые могут им пригодиться. В этой главе мы напишем программу для автоматической загрузки информации о проектах Python с наибольшим количеством звезд на GitHub, а затем построим содержательную визуализацию таких проектов.
Запрос данных с использованием вызовов API
GitHub поддерживает API (программный интерфейс) для запроса разнообразной информации посредством вызовов API. Чтобы понять, как выглядит вызов API, введите следующий адрес в адресной строке своего браузера и нажмите Enter:
https://api.github.com/search/repositories?q=language:python&sort=stars
Этот вызов возвращает количество проектов Python, размещенных на GitHub в настоящее время, а также информацию о самых популярных репозиториях Python. Рассмотрим вызов подробнее: первая часть https://api.github.com/ передает запрос части сайта GitHub, отвечающей на вызовы API. Следующая часть, search/repositories, приказывает API провести поиск по всем репозиториям в GitHub.
Вопросительный знак после repositories означает, что мы собираемся передать аргумент. Символ q обозначает запрос (Query), а знак равенства начинает определение запроса (q=). Выражение language:python указывает, что запрашивается информация только по репозиториям, для которых основным языком указан Python. Завершающая часть, &sort=stars, сортирует проекты по количеству присвоенных им звезд.
В следующем фрагменте приведены несколько начальных строк ответа. Вероятно, по виду ответа вы уже поняли, что этот URL-адрес не предназначен для обычных пользователей.
{
"total_count": 713062,
"incomplete_results": false,
"items": [
. .{
. . "id": 3544424,
. . "name": "httpie",
. . "full_name": "jkbrzt/httpie",
. . ...
Как видно из второй строки вывода, на момент написания книги на GitHub было найдено 713 062 проектов Python. Значение "incomplete_results" равно false, а значит, запрос был обработан успешно (информация не является неполной). Если бы у GitHub возникли проблемы с полной обработкой запроса API, то в этом поле было бы возвращено значение true. Возвращаемые данные отображаются в списке "items" с информацией о самых популярных проектах Python на GitHub.
Установка пакета requests
Пакет requests предоставляет удобные средства для запроса информации с сайтов из программ Python и анализа полученных ответов. Чтобы установить requests, введите команду следующего вида:
$ pip install --user requests
Если вы еще не использовали pip, обратитесь к разделу «Установка пакетов Python с использованием pip» на с. 227. (Возможно, вам придется использовать другую версию команды в зависимости от конфигурации системы.)
Обработка ответа API
Теперь мы напишем программу, которая выдает вызов API для поиска на Github проектов Python с наибольшим количеством звезд:
python_repos.py
(1) import requests
# Создание вызова API и сохранение ответа.
(2)url = 'https://api.github.com/search/repositories?q=language:python &sort=stars'
(3)r = requests.get(url)
(4)print("Status code:", r.status_code)
# Сохранение ответа API в переменной.
(5)response_dict = r.json()
# Обработка результатов.
print(response_dict.keys())
В точке (1) импортируется модуль requests. В точке (2) URL-адрес вызова API сохраняется в переменной, после чего модуль requests используется для вызова (3). Мы вызываем метод get() и передаем ему URL, а объект ответа сохраняется в переменной r. Объект ответа содержит атрибут status_code, в котором хранится признак успешного выполнения запроса. (Код 200 — признак успешного ответа.) В точке (4) программа выводит значение status_code, чтобы вы могли убедиться в том, что вызов был обработан успешно.
API возвращает информацию в формате JSON, поэтому в программе используется метод json() (5) для преобразования информации в словарь Python. Полученный словарь сохраняется в переменной response_dict.