Оба системных вызова poll()
и select()
передают на проверку полный список файловых дескрипторов при каждом вызове. Каждый из этих дескрипторов должен быть обработан системным вызовом, даже если только один из них готов к чтению или записи. Когда проверяются десятки, сотни или тысячи файловых дескрипторов, эти системные вызовы превращаются в узкие места; ядро тратит много времени на выяснение того, какие именно файловые дескрипторы приложению необходимо проверить.
При использовании epoll
приложения обеспечивают ядро списком файловых дескрипторов для проверки с помощью одного системного вызова, а затем для проверки этих дескрипторов с помощью другого системного вызова. После создания списка ядро постоянно проверяет эти дескрипторы для событий, интересующих приложение[79], а затем сообщает о событии. Как только приложение запрашивает у ядра файловые дескрипторы, готовые для дальнейшей обработки, ядро предоставляет список без необходимости проверки каждого файлового дескриптора.
Преимущества в плане производительности epoll
требуют более сложного, чем у poll()
или select()
, интерфейса системных вызовов. В то время как poll()
использует массив struct pollfd
для предоставления набора файловых дескрипторов, a select()
с той же целью — три разных структуры fd_set
, epoll
перемещает эти наборы файловых дескрипторов в ядро, а не хранит их в адресном пространстве программы. На каждый из этих наборов ссылаются с помощью дескриптора epoll
, являющегося файловым дескриптором, который можно применять только для системных вызовов epoll
. Новые дескрипторы epoll распределяются системным вызовом epoll_create()
.
#include
int epoll_create (int numDescriptors);
Единственный параметр numDescriptors
— это наилучшее предположение программы о том, на какое количество файловых дескрипторов будет ссылаться заново созданный дескриптор epoll
. Это не жесткий предел, это просто подсказка ядру для более точной инициализации его внутренних структур. epoll_create()
возвращает дескриптор epoll
, а когда программа заканчивает работу с дескриптором, его следует передать close()
, чтобы позволить ядру освободить память, используемую этим дескриптором.
Хотя дескриптор epoll
является файловым дескриптором, его следует применять только с двумя системными вызовами.
#include
int epoll_ctl(int epfd, int op, int fd, struct epoll_event * event);
int epoll_wait(int epfd, struct epoll_event * events, int maxevents,
int timeout);
Большинство этих параметров используют структуру struct epoll_event
, которая определяется, как показано ниже.
#include
struct epoll_event {
int events;
union {
void * ptr;
int fd;
unsigned int u32;
unsigned long long u64;
} data;
};
Эта структура обслуживает три цели: определяет, какие типы событий следует проверять, определяет типы произошедших событий и ассоциирует отдельный элемент данных с файловым дескриптором. Поле events
предназначено для первых двух функций и является одной или несколькими перечисленными далее значениями, объединенными с помощью логического "ИЛИ"[80].
EPOLLIN | Определяет, что операция read() не блокируется; данные или уже готовы, или их уже не осталось для считывания. |
EPOLLOUT | Связанный файл готов для записи. |
EPOLLPRI | Файл имеет внешние данные, готовые для чтения. |
Второй элемент struct epoll_event, data
, представляет собой объединение, содержащее целое число (для хранения файлового дескриптора), указатель, а также 32- и 64-битные целые числа[81]. Этот элемент данных хранится в epoll
и возвращается в программу всякий раз, когда происходит событие подходящего типа. Элемент data
— это единственный способ, с помощью которого программе нужно выяснить, какой файловый дескриптор необходимо обслужить; интерфейс epoll
не передает файловый дескриптор программе, в отличие от poll()
и select()
(если data
не содержит файловый дескриптор). Этот метод обеспечивает дополнительную гибкость приложениям, которые отслеживают файлы как нечто, более сложное, чем простые файловые дескрипторы.
Системный вызов epoll_ctl()
добавляет файловые дескрипторы к набору, на который ссылается дескриптор epfdepoll
, и удаляет их из него.
Второй параметр, op
, описывает, каким образом следует модифицировать набор файловых дескрипторов, и является одним из перечисленных ниже.