pmatch[0]
описывает часть строки, соответствующую всему регулярному выражению. Участок от pmatch[1]
до pmatch[preg->re_nsub]
описывает ту часть, которая соответствует каждому вложенному выражению в скобках. (Таким образом, вложенные выражения нумеруются начиная с 1.) Элементы rm_so
и rm_eo
не используемых элементов массива pmatch
установлены в -1.
regexec()
заполняет не более nmatch-1
элементов pmatch
; поэтому следует убедиться, что имеется по крайней мере на 1 элемент больше, чем в preg->re_nsub
.
Наконец, флаг REG_NOSUB
для regcomp()
означает, что начальная и завершающая информация не нужна. Этот флаг следует использовать, когда эти сведения не нужны; это потенциально может довольно значительно повысить производительность regexec()
.
Другими словами, если все, что вам нужно знать, это «соответствует ли?», включите REG_NOSUB
. Однако, если нужно также знать, «где находится соответствующий текст?», этот флаг следует опустить.
В заключение, как regcomp()
, так и regexec()
возвращают 0, если они успешны, или определенный код ошибки, если нет. Коды ошибок перечислены в табл. 12.9.
Таблица 12.9. Коды ошибок regcomp()
и regexec()
Константа | Значение |
---|---|
REG_BADBR | Содержимое '\{...\} ' недействительно. |
REG_BADPAT | Регулярное выражение недействительно |
REG_BADRPT | Символу ? , + или * не предшествует действительное регулярное выражение. |
REG_EBRACE | Фигурные скобки ('\{...\} ') не сбалансированы |
REG_EBRACK | Квадратные скобки ('[...] ') не сбалансированы |
REG_ECOLLATE | В шаблоне использован недействительный элемент сортировки |
REG_ECTYPE | В шаблоне использован недействительный класс символов |
REG_EESCAPE | В шаблоне есть завершающий символ \ |
REG_EPAREN | Группирующие скобки ('(...) ' или '\(...\) ') не сбалансированы |
REG_ERANGE | Конечная точка в диапазоне не действительна |
REG_ESPACE | Функции не хватило памяти |
REG_ESUBREG | Цифра в '\ ' недействительна |
REG_NOMATCH | Строка не соответствует шаблону |
Для демонстрации регулярных выражений ch12-grep.c
предусматривает базовую реализацию стандартной программы grep
, которая отыскивает соответствие шаблону. Наша версия использует по умолчанию базовые регулярные выражения. Для использования вместо этого расширенных регулярных выражений она принимает опцию -E
, а для игнорирования регистра символов опцию -i
. Как и настоящая grep
, если в командной строке не указаны файлы, наша grep
читает со стандартного ввода, а для обозначения стандартного ввода, как и в настоящей grep
, может быть использовано имя файла '-
'. (Эта методика полезна для поиска в стандартном вводе наряду с другими файлами.) Вот программа:
1 /* ch12-grep.c - Простая версия grep, использующая функции POSIX */
2
3 #define _GNU_SOURCE 1 /* для getline)) */
4 #include
5 #include
6 #include
7 #include
8 #include
9
10 char *myname; /* для сообщений об ошибках */
11 int ignore_case = 0; /* опция -i: игнорировать регистр */
12 int extended = 0; /* опция -E: использовать расширенные регулярные выражения */
13 int errors = 0; /* число ошибок */
14
15 regex_t pattern; /* шаблон для поиска */
16
17 void compile_pattern(const char *pat);
18 void process(const char *name, FILE *fp);
19 void usage(void);
Строки 10–15 объявляют глобальные переменные программы. Первый набор (строки 10–13) для опций и сообщений об ошибках. Строка 15 объявляет pattern
, в которой хранится откомпилированный шаблон. Строки 17–19 объявляют другие функции программы.
21 /* main --- обработка опций, открывание файлов */
22
23 int main(int argc, char **argv)
24 {
25 int с;
26 int i;
27 FILE *fp;
28