В середине 1980-х институт инженеров электроники и электротехники (Institute of Electrical and Electronics Engineers, IEEE) начал разработку единого пакета стандартов, которые должны были определить особенности работы системы Unix (и Unix-подобных). Эти стандарты, формально известные как IEEE 1003, определяют прикладные программные интерфейсы (Application Programming Interface, API), командную оболочку и утилиты, которые должны присутствовать в стандартной Unix-подобной системе. Название POSIX, сокращенное от «Portable Operating System Interface» (интерфейс переносимой операционной системы, где буква X добавлена для лучшего звучания), было предложено Ричардом Столлманом (да, тем самым Ричардом Столлманом) — и принято IEEE.
Чередование
Первой особенностью расширенных регулярных выражений, которую мы обсудим, будет чередование (alternation, или выражение выбора) — оно позволяет выбирать совпадение с одним из нескольких выражений. Так же как выражения в квадратных скобках позволяют одному символу соответствовать множеству указанных символов, чередование позволяет находить совпадение с множеством строк или других регулярных выражений.
Для демонстрации воспользуемся комбинацией команд grep и echo. Сначала попробуем выполнить простое сопоставление строк:
[[email protected] ~]$ echo "AAA" | grep AAA
AAA
[[email protected] ~]$ echo "BBB" | grep AAA
[[email protected] ~]$
Достаточно простой пример, в котором мы передаем по конвейеру вывод команды echo на ввод grep и видим результат. Если обнаруживается совпадение, мы видим вывод; если совпадение отсутствует, ничего не выводится.
Теперь добавим чередование, обозначаемое метасимволом вертикальной черты:
[[email protected] ~]$ echo "AAA" | grep -E 'AAA|BBB'
AAA
[[email protected] ~]$ echo "BBB" | grep -E 'AAA|BBB'
BBB
[[email protected] ~]$ echo "CCC" | grep -E 'AAA|BBB'
[[email protected] ~]$
Здесь мы видим регулярное выражение 'AAA|BBB', которое означает «совпадение со строкой AAA или со строкой BBB». Так как это расширенная особенность, мы добавили в команду grep параметр -E (вместо этого можно было бы использовать программу egrep) и заключили регулярное выражение в кавычки, чтобы предотвратить интерпретацию командной оболочкой символа вертикальной черты как оператора конвейера. В чередовании может быть более двух вариантов:
[[email protected] ~]$ echo "AAA" | grep -E 'AAA|BBB|CCC'
AAA
Для объединения с другими элементами регулярного выражения чередование можно заключать в круглые скобки ():
[[email protected] ~]$ grep -Eh '^(bz|gz|zip)' dirlist*.txt
Этому выражению будут соответствовать имена файлов из наших списков, начинающиеся с bz, gz или zip. Если отбросить круглые скобки, смысл регулярного выражения изменится, и ему будут соответствовать имена, начинающиеся с bz или содержащие gz или zip:
[[email protected] ~]$ grep -Eh '^bz|gz|zip' dirlist*.txt
Квантификаторы
Расширенные регулярные выражения поддерживают несколько способов определения числа совпадений с элементом.
? — совпадение с элементом ноль или один раз
Этот квантификатор фактически означает: «совпадение с предыдущим элементом не обязательно». Представьте, что нужно проверить допустимость номера телефона, и предполагается, что номер допустим, если представлен в одной из двух форм: (nnn) nnn-nnnn или nnn nnn-nnnn, где n — это цифра. Для проверки можно было бы использовать следующее регулярное выражение:
^(?[0-9][0-9][0-9])? [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]$
В этом выражении за круглыми скобками следуют знаки вопроса, указывающие, что скобки могут либо отсутствовать, либо присутствовать один раз. И снова, поскольку круглые скобки считаются метасимволами (в ERE), мы экранировали их обратными слешами, чтобы они интерпретировались как литералы.
Попробуем применить это выражение:
[[email protected] ~]$ echo "(555) 123-4567" | grep -E '^(?[0-9][0-9][0-9])? [0-9][0-9][0-9]$'
(555) 123-4567
[[email protected] ~]$ echo "555 123-4567" | grep -E '^(?[0-9][0-9][0-9])? [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]$'
555 123-4567
[[email protected] ~]$ echo "AAA 123-4567" | grep -E '^(?[0-9][0-9][0-9])? [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]$'
[[email protected] ~]$
Здесь регулярному выражению соответствуют обе формы записи номера телефона, но ему не соответствует номер, содержащий нецифровые символы.
* — совпадение с элементом ноль или более раз
Подобно метасимволу ?, звездочка (*) обозначает необязательный элемент; однако, в отличие от знака вопроса (?), этот элемент может встречаться любое число раз, а не только единожды. Представьте, что нам нужно проверить, является ли строка предложением. Чтобы удовлетворять нашим требованиям строка должна начинаться с большой буквы, содержать любое число букв верхнего и нижнего регистра и пробелов и заканчиваться точкой. Для поиска совпадений с этим (очень приблизительным) определением предложения воспользуемся следующим регулярным выражением:
[[:upper:]][[:upper:][:lower:] ]*.
Выражение состоит из трех элементов: выражение в квадратных скобках с классом символов [:upper:], выражение в квадратных скобках с двумя классами символов, [:upper:] и [:lower:], и пробелом, и точка, экранированная обратным слешем. Второй элемент сопровождается метасимволом *, поэтому в нашем предложении ему может соответствовать любое число букв верхнего и нижнего регистра и пробелов, следующих за первой буквой верхнего регистра:
[[email protected] ~]$ echo "This works." | grep -E '[[:upper:]][[:upper:][:lower:] ]*.'
This works.
[[email protected] ~]$ echo "This Works." | grep -E '[[:upper:]][[:upper:][:lower:] ]*.'
This Works.
[[email protected] ~]$ echo "this does not" | grep -E '[[:upper:]][[:upper:][:lower:] ]*.'
[[email protected] ~]$
Первые два примера соответствуют выражению, а третье — нет, потому что в нем отсутствует обязательный первый символ верхнего регистра и завершающая точка.
+ — совпадение с элементом один или более раз
Метасимвол + действует почти так же, как *, но требует совпадения с предыдущим элементом не менее одного раза. Следующему регулярному выражению будут соответствовать только строки, состоящие из групп, насчитывающих один или несколько алфавитных символов и разделенных одиночными пробелами:
^([[:alpha:]]+ ?)+$
Опробуем его:
[[email protected] ~]$ echo "This that" | grep -E '^([[:alpha:]]+ ?)+$'
This that
[[email protected] ~]$ echo "a b c" | grep -E '^([[:alpha:]]+ ?)+$'
a b c
[[email protected] ~]$ echo "a b 9" | grep -E '^([[:alpha:]]+ ?)+$'
[[email protected] ~]$ echo "abc d" | grep -E '^([[:alpha:]]+ ?)+$'
[[email protected] ~]$
Как видите, этому выражению не соответствует строка "a b 9", потому что она содержит неалфавитный символ; точно так же ему не соответствует строка "abc d", потому что между символами c и d в ней присутствует больше одного пробела.
{ } — совпадение с элементом определенное число раз
Метасимволы { и } используются, чтобы выразить минимальное и максимальное число обязательных совпадений. Эти числа можно представить четырьмя возможными способами, как показано в табл. 19.3.
Таблица 19.3. Определение числа совпадений
Спецификатор
Значение
{n}
Предыдущий элемент соответствует, если встречается точно n раз
{n,m}
Предыдущий элемент соответствует, если встречается не менее n и не более m раз
{n,}
Предыдущий элемент соответствует, если встречается n или более раз
{,m}
Предыдущий элемент соответствует, если встречается не более m раз
Возвращаясь к примеру с телефонными номерами, мы воспользуемся этим методом определения повторений, чтобы упростить исходное регулярное выражение
^(?[0-9][0-9][0-9])? [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]$
до
^(?[0-9]{3})? [0-9]{3}-[0-9]{4}$
Опробуем его:
[[email protected] ~]$ echo "(555) 123-4567" | grep -E '^(?[0-9]{3})? [0-9]{3}-
[0-9]{4}$'
(555) 123-4567
[[email protected] ~]$ echo "555 123-4567" | grep -E '^(?[0-9]{3})? [0-9]{3}-[0-9]{4}$'
555 123-4567
[[email protected] ~]$ echo "5555 123-4567" | grep -E '^(?[0-9]{3})? [0-9]{3}-
[0-9]{4}$'
[[email protected] ~]$
Как видите, измененная версия регулярного выражения успешно справляется с проверкой номеров, с круглыми скобками и без них, и отвергает неправильно оформленные номера.
Практические примеры применения регулярных выражений
Рассмотрим несколько уже знакомых команд и посмотрим, как они могут использовать регулярные выражения.
Проверка списка телефонов с помощью grep
В предыдущем примере мы брали телефонные номера по одному и проверяли правильность их оформления. На практике же часто приходится проверять списки телефонов, поэтому давайте создадим такой список. Для этого воспользуемся волшебной магией командной строки. Магией, потому что мы еще не знакомы с большинством команд, привлеченных для решения поставленной задачи, но не волнуйтесь — мы рассмотрим их в последующих главах. Вот это волшебство:
[[email protected] ~]$ for i in {1..10}; do echo "(${RANDOM:0:3}) ${RANDOM:0:3}-${RANDOM:0:4}" >> phonelist.txt; done
Эта команда создаст файл с именем phonelist.txt, содержащий 10 телефонных номеров. Если повторить команду, она добавит в список еще 10 номеров. Также можно изменить число 10 ближе к началу команды, чтобы создать больше или меньше номеров. Однако если заглянуть в файл, можно заметить проблему:
[[email protected] ~]$ cat phonelist.txt
(232) 298-2265
(624) 381-1078
(540) 126-1980
(874) 163-2885
(286) 254-2860
(292) 108-518
(129) 44-1379