pat3 = Regexp.compile("^foo", options)
pat4 = Regexp.compile(/bar/, Regexp::IGNORECASE)
Третий параметр, если он задан, включает поддержку многобайтных символов. Он может принимать одно из четырех значений:
"N" или "n" означает отсутствие поддержки
"Е" или "е" означает EUC
"S" или "s" означает Shift-JIS
"U" или "u" означает UTF-8
Литеральное регулярное выражение можно задавать и не вызывая метод new
или compile. Достаточно заключить его в ограничители (символы косой черты).
pat1 = /^fоо.*/
pat2 = /bar$/i
Более подробная информация приводится в главе 4.
3.3. Экранирование специальных символов
Метод класса Regexp.escape
экранирует все специальные символы, встречающиеся в регулярном выражении. К их числу относятся звездочка, вопросительный знак и квадратные скобки.
str1 = "[*?]"
str2 = Regexp.escape(str1) # "\[\*\?\]"
Синонимом является метод Regexp.quote
.
3.4. Якоря
Наиболее употребительные якоря уже были представлены в начале главы. Простейшими из них являются ^
и $
, которые соответствуют началу и концу строки символов.
string = "abcXdefXghi"
/def/ =~ string # 4
/аbс/ =~ string # 0
/ghi/ =~ string # 8
/^def/ =~ string # nil
/def$/ =~ string # nil
/^аbс/ =~ string # 0
/ghi$/ =~ string # 8
Впрочем, я немного уклонился от истины. Эти якоря на самом деле соответствуют началу и концу не строки символов (string), а строки текста (line). Вот что произойдет, если те же самые образцы применить к строке, внутри которой есть символы новой строки:
string = "abc\ndef\nghi"
/def/ =~ string # 4
/abc/ =~ string # 0
/ghi/ =~ string # 8
/^def/ =~ string # 4
/def$/ =~ string # 4
/^abc/ =~ string # 0
/ghi$/ =~ string # 8
Однако имеются якоря \A
и \Z
, которые соответствуют именно началу и концу самой строки символов.
string = "abc\ndef\nghi"
/\Adef/ =~ string # nil
/def\Z/ =~ string # nil
/\Aabc/ =~ string # 0
/ghi\Z/ =~ string # 8
Якорь \z
отличается от \Z
тем, что последний устанавливает соответствие перед конечным символом новой строки, а первый должен соответствовать явно.
string = "abc\ndef\nghi"
str2 << "\n"
/ghi\Z/ =~ string # 8
/\Aabc/ =~ str2 # 8
/ghi\z/ =~ string # 8
/ghi\z/ =~ str2 # nil
Можно также устанавливать соответствие на границе слова с помощью якоря \b
или с позицией, которая не находится на границе слова (\B
). Примеры использования метода gsub
показывают, как эти якоря работают:
str = "this is a test"
str.gsub(/\b/,"|") # "|this| |is| |a| |test|"
str.gsub(/\В/, "-") # "t-h-i-s i-s a t-e-s-t"
He существует способа отличить начало слова от конца.
3.5. Кванторы
Немалая часть аппарата регулярных выражений связана с обработкой необязательных элементов и повторений. Элемент, за которым следует вопросительный знак, необязателен; он может присутствовать или отсутствовать, а общее соответствие зависит от прочих частей регулярного выражения. (Этот квантор имеет смысл применять только к подвыражению ненулевой длины, но не к якорям.)
pattern = /ax?b/
pat2 = /а[xy]?b/
pattern =~ "ab" # 0
pattern =~ "acb" # nil
pattern =~ "axb" # 0
pat2 =~ "ayb" # 0
pat2 =~ "acb" # nil
Элементы часто повторяются неопределенное число раз (для формулировки этого условия служит квантор +
). Например, следующий образец соответствует любому положительному числу:
pattern = /[0-9]+/
pattern =~ "1" # 0
pattern =~ "2345678" # 0
Еще один типичный случай — образец, повторяющийся нуль или более раз. Конечно, это условие можно выразить с помощью кванторов +
и ?
. Вот, например, как сказать, что после строки Huzzah должно быть нуль или более восклицательных знаков: