Читаем Программирование на языке Ruby полностью

Программирование на языке Ruby

Хэл Фултон

pat3 = Regexp.compile("^foo", options)

pat4 = Regexp.compile(/bar/, Regexp::IGNORECASE)

Третий параметр, если он задан, включает поддержку многобайтных символов. Он может принимать одно из четырех значений:

"N" или "n" означает отсутствие поддержки

"Е" или "е" означает EUC

"S" или "s" означает Shift-JIS

"U" или "u" означает UTF-8

Литеральное регулярное выражение можно задавать и не вызывая метод new или compile. Достаточно заключить его в ограничители (символы косой черты).

pat1 = /^fоо.*/

pat2 = /bar$/i

Более подробная информация приводится в главе 4.

3.3. Экранирование специальных символов

Метод класса Regexp.escape экранирует все специальные символы, встречающиеся в регулярном выражении. К их числу относятся звездочка, вопросительный знак и квадратные скобки.

str1 = "[*?]"

str2 = Regexp.escape(str1) # "\[\*\?\]"

Синонимом является метод Regexp.quote.

3.4. Якоря

Якорь — это специальное выражение, соответствующее позиции в строке, а не конкретному символу или последовательности символов. Позже мы увидим, что это простой частный случай утверждения нулевой длины, то есть соответствия, которое не продвигает просмотр исходной строки ни на одну позицию.

Наиболее употребительные якоря уже были представлены в начале главы. Простейшими из них являются ^ и $, которые соответствуют началу и концу строки символов.

string = "abcXdefXghi"

/def/ =~ string # 4

/аbс/ =~ string # 0

/ghi/ =~ string # 8

/^def/ =~ string # nil

/def$/ =~ string # nil

/^аbс/ =~ string # 0

/ghi$/ =~ string # 8

Впрочем, я немного уклонился от истины. Эти якоря на самом деле соответствуют началу и концу не строки символов (string), а строки текста (line). Вот что произойдет, если те же самые образцы применить к строке, внутри которой есть символы новой строки:

string = "abc\ndef\nghi"

/def/ =~ string # 4

/abc/ =~ string # 0

/ghi/ =~ string # 8

/^def/ =~ string # 4

/def$/ =~ string # 4

/^abc/ =~ string # 0

/ghi$/ =~ string # 8

Однако имеются якоря \A и \Z, которые соответствуют именно началу и концу самой строки символов.

string = "abc\ndef\nghi"

/\Adef/ =~ string # nil

/def\Z/ =~ string # nil

/\Aabc/ =~ string # 0

/ghi\Z/ =~ string # 8

Якорь \z отличается от \Z тем, что последний устанавливает соответствие перед конечным символом новой строки, а первый должен соответствовать явно.

string = "abc\ndef\nghi"

str2 << "\n"

/ghi\Z/ =~ string # 8

/\Aabc/ =~ str2 # 8

/ghi\z/ =~ string # 8

/ghi\z/ =~ str2 # nil

Можно также устанавливать соответствие на границе слова с помощью якоря \b или с позицией, которая не находится на границе слова (\B). Примеры использования метода gsub показывают, как эти якоря работают:

str = "this is a test"

str.gsub(/\b/,"|") # "|this| |is| |a| |test|"

str.gsub(/\В/, "-") # "t-h-i-s i-s a t-e-s-t"

He существует способа отличить начало слова от конца.

3.5. Кванторы

Немалая часть аппарата регулярных выражений связана с обработкой необязательных элементов и повторений. Элемент, за которым следует вопросительный знак, необязателен; он может присутствовать или отсутствовать, а общее соответствие зависит от прочих частей регулярного выражения. (Этот квантор имеет смысл применять только к подвыражению ненулевой длины, но не к якорям.)

pattern = /ax?b/

pat2 = /а[xy]?b/

pattern =~ "ab" # 0

pattern =~ "acb" # nil

pattern =~ "axb" # 0

pat2 =~ "ayb" # 0

pat2 =~ "acb" # nil

Элементы часто повторяются неопределенное число раз (для формулировки этого условия служит квантор +). Например, следующий образец соответствует любому положительному числу:

pattern = /[0-9]+/

pattern =~ "1" # 0

pattern =~ "2345678" # 0

Еще один типичный случай — образец, повторяющийся нуль или более раз. Конечно, это условие можно выразить с помощью кванторов + и ?. Вот, например, как сказать, что после строки Huzzah должно быть нуль или более восклицательных знаков:

Перейти на страницу: