В двойных кавычках далее будут употребляться значения, выдаваемые регулярными выражениями, а в одинарных – синтаксис регулярных выражений.
В Perl метасимволы, которые вы хотите использовать не как таковые, а как собственно символы, должны быть прикрыты escape-символом , как в C++ (в других языках может быть иначе, например, в VB это не нужно). То есть, чтобы найти "[", нужно писать '['. Символ означает, что идущий за ним символ – это спецсимвол, константа и так далее. Например, 'n' означает букву "n". 'n' означает символ новой строки. Последовательность '\' соответствует "", а '(' соответствует "(".
Символ '.' соответствует любому символу, кроме 'n' (если не используется опция 's', увы, доступная только в Perl 5-совместимых реализациях). Чтобы найти любой символ, включая n, используйте что-нибудь вроде '[.n]'.
Искомые выраженияВыражением может быть один символ или последовательность символов, заключенных в круглые или квадратные скобки. Особенности использования скобок будут описаны ниже.
Классы символов (Character class)Используя квадратные скобки, можно указать группу символов (это называют классом символов) для поиска. Например, конструкция 'б[аи]ржа' соответствует словам «баржа» и «биржа», т.е. словам, начинающимся с «б», за которым следуют «а» или «и», и заканчивающимся на «ржа». Возможно и обратное, то есть, можно указать символы, которых не должно содержаться в найденной подстроке. Так, '[^1-6]' находит все символы, кроме цифр от 1 до 6. Следует упомянуть, что внутри класса символов 'b' обозначает символ backspace (стирания).
Квантификаторы, они же умножители (Quantifiers)Если неизвестно, сколько именно знаков должна содержать искомая подстрока, можно использовать спецсимволы, именуемые мудреным словом квантификаторы (quantifiers). Например, можно написать "hel+o", что будет означать слово, начинающееся с "He", со следующими за ним одно или несколько "l", и заканчивающееся на "о". Следует понять, что квантификатор относится к предшествующему выражению, а не отдельному символу.
Список квантификаторов вы можете найти в таблице 2.
Символ Описание * Соответствует 0 или более вхождений предшествующего выражения. Например, 'zo*' соответствует "z" и "zoo". + Соответствует 1 или более предшествующих выражений. Например, "zo+" соответтсвует "zo" and "zoo", но не "z". ? Соответствует 0 или 1 предшествующих выражений. Например, 'do(es)?' соответствует "do" в "do" or "does". {n} n – неотрицательное целое. Соответствует точному количеству вхождений. Например, 'o{2}' не найдет "o" в "Bob",но найдет два "o"' в "food". {n,} n – неотрицательное целое. Соответствует вхождению, повторенному не менее n раз. Например, 'o{2,}' не находит "o" в "Bob", зато находит все "o" в "foooood". 'o{1,}' эквивалентно 'o+'. 'o{0,}' эквивалентно 'o*'. {n,m} m и n – неотрицательные целые числа, где n <= m. Соответствует минимум n и максимум m вхождений. Например, 'o{1,3} находит три первые "o" в "fooooood". 'o{0,1}' эквивалентно 'o?'. Пробел между запятой и цифрами недопустим.
ЖадностьВажной особенностью квантификаторов '*' и '+' является их всеядность. Они находят все, что смогут – вместо того, что нужно. То есть,
$test = "hello out there, how are you";
$test =~ m/h.*o/
означает "искать 'h', за которым следует несколько произвольных символов, за которыми следует 'o'". В виду, наверное, имелось "hello", но найдено будет "hello out there, how are yo" – из-за жадности регулярного выражения, ищущего не первую, а последнюю "о". Излечить квантификатор от жадности можно, добавив '?'. То есть,
$test = "hello out there, how are you";
$test =~ m/h.*?o/
найдет именно "hello", что и было нужно, поскольку ищет 'h', за которым следует несколько произвольных символов, до первого встреченного 'o'".
Концы и начала строкПроверка начала или конца строки производится с помощью метасимволов ^ и $. Например, "^thing" соответствует строке, начинающейся с "thing". "thing$" соответствует строке, заканчивающейся на "thing". Эти символы работают только при включенной опции 's'. При выключенной опции 's' находятся только конец и начало текста. Но и в этом случае можно найти конец и начало строки, используя escape-последовательности A и Z. Все это относится только к Perl-совместимым реализациям. Остальные же будут искать только конец и начало текста. В .Net имеется еще и символ z, точный конец строки.
Граница словаДля задания границ слова используются метасимволы 'b' и 'B'.
$test =~ m/out/
соответствует не только "out" в "speak out loud", но и "out" в "please don't shout at me". Чтобы избежать этого, можно предварить образец маркером границы слова:
$test =~ m/bout/
Теперь будет найдено только "out" в начале слова. Не стоит забывать, что ВНУТРИ класса символов 'b' обозначает символ backspace (стирания).
Приведенные в Таблице 3 метасимволы не заставляют машину регулярных выражений продвигаться по строке или захватывать символы. Они просто соответствуют определенному месту строки. Например, ^ определяет, что текущая позиция – начало строки. '^FTP' возвращает только те "FTP", что находятся в начале строки.
Символ Значение ^ Начало строки. $ Конец строки, или перед n в конце строки (см. опцию m). A Начало строки (ignores the m option). Z Конец строки, или перед n в конце строки (игнорирует опцию m). z Точно конец строки (игнорирует опцию m). G Начало текущего поиска (Часто это в одном символе за концом последнего поиска). b На границе между w (алфавитно-цифровыми) и W (не алфавитно-цифровыми) символами. Возвращает true на первых и последних символах слов, разделенных пробелами. B Не на b-границе.
Вариации и группировкаСимвол '|' можно использовать для перебора нескольких вариантов. Использование этого символа совместно со скобками – '(…|…|…)' – позволяет создать группы вариантов. Скобки используются для "захвата" подстрок для дальнейшего использования и сохранения их во встроенных переменных $1, $2, …, $9.
Например,
$test = "I like apples a lot";
$test =~ m/like (apples|pines|bananas)/
сработает, поскольку "apples" – один из трех перечисленных вариантов. Скобки также поместят "apples" в $1 как обратную ссылку для дальнейшего использования. В основном это имеет смысл при замене, см. "Различия синтаксиса регулярных выражений".
Обратные ссылки, Lookahead– и Lookbehind-условия
Обратные ссылкиМы уже говорили об одной из важнейших возможностей регулярных выражений – способность сохранения части соответствий для дальнейшего использования. Кстати, избежать этого можно с помощью использования '?:'.
Например,
$test = "Today is monday the 18th.";
$test =~ m/([0-9]+)th/
сохранит "18" в $1, а
$test = "Today is monday the 18th.";
$test =~ m/[0-9]+th/
ничего не станет сохранять – из-за отсутствия скобок.
$test = "Today is monday the 18th.";
$test =~ m/(?:[0-9]+)th/
также ничего не станет сохранять благодаря использованию оператора '?:'.
Следующий пример демонстрирует, как можно использовать эту возможность в операции замены:
$test = "Today is monday the 18th.";
$test =~ s/ the ([0-9]+)th/, and the day is $1/
приведет к записи "Today is monday, and the day is 18." в переменную $test.
Можно ссылаться на подстроки, уже найденные данным запросом, используя 1, 2, …, 9. Следующее регулярное выражение удалит повторяющиеся слова:
$test = "the house is is big";
$test =~ s/b(S+)b(s+1b)+/$1/
записывает "the house is big" в $test.
Lookahead– и Lookbehind-условияИногда нужно сказать "найдите вот это, но только если перед ним не стоит вот этого", или "найдите вот это, но только если за ним не стоит вот этого". Пока речь идет об одиночном символе, достаточно воспользоваться [^…].
В более сложном случае придется использовать так называемые lookahead-условия или lookbehind-условия. Не путайте Positive lookahead с оптимистичным взглядом в будущее. Всего есть четыре типа таких условий:
• Положительное lookahead-условие '(?=re)'
Соответствует, только если за ним следует регулярное выражение re.
• Отрицательное lookahead-условие '(?!re)'
Соответствует, только если за ним не следует регулярное выражение re.
• Положительное lookbehind-условие '(?<=re)'
Соответствует, только если перед ним следует регулярное выражение re.
• Отрицательное lookbehind-условие '(?<!re)'
Соответствует, только если перед ним не следует регулярное выражение re.