05/13/2008 Fedora 9
04/24/2008 Ubuntu 8.04
11/08/2007 Fedora 8
10/18/2007 Ubuntu 7.10
10/04/2007 SUSE 10.3
05/31/2007 Fedora 7
04/19/2007 Ubuntu 7.04
12/07/2006 SUSE 10.2
10/26/2006 Ubuntu 6.10
10/24/2006 Fedora 6
06/01/2006 Ubuntu 6.06
05/11/2006 SUSE 10.1
03/20/2006 Fedora 5
join — объединение строк из двух файлов по общему полю
Программа join действует подобно paste, в том смысле, что она добавляет колонки в файл, но делает это по-своему. Операция join у многих ассоциируется с реляционными базами данных, где она объединяет записи из нескольких таблиц по общему ключевому полю. Программа join выполняет ту же операцию. Она объединяет данные из множества файлов, опираясь на общее ключевое поле.
Чтобы понять, как действует операция join в реляционной базе данных, представьте очень маленькую базу данных с двумя таблицами, по одной записи в каждой. Первая таблица, с именем CUSTOMERS, имеет три поля: номер клиента (CUSTNUM), имя клиента (FNAME) и фамилия клиента (LNAME):
CUSTNUM FNAME LNAME
========= ====== ======
4681934 John Smith
Вторая таблица, с именем ORDERS, имеет четыре поля: номер заказа (ORDERNUM), номер клиента (CUSTNUM), количество (QUAN) и пункт заказа (ITEM):
ORDERNUM CUSTNUM QUAN ITEM
========== ========= ===== ====
3014953305 4681934 1 Blue Widget
Обратите внимание, что обе таблицы имеют общее поле CUSTNUM. Это важно, так как оно устанавливает отношение между таблицами.
Применив операцию join, мы сможем объединить поля из двух таблиц, чтобы получить желаемый результат, например, для подготовки накладной. Проверяя совпадение значений в полях CUSTNUM обеих таблиц, операция join выдаст следующий результат:
FNAME LNAME QUAN ITEM
====== ====== ===== ====
John Smith 1 Blue Widget
Для демонстрации программы join нам понадобится пара файлов с общим ключом. Возьмем в качестве отправной точки файл distros-by-date.txt и из него сконструируем два дополнительных файла. Первый будет содержать даты выпусков (которые в этом примере будут играть роль общего ключа) и названия дистрибутивов:
[[email protected] ~]$ cut -f 1,1 distros-by-date.txt > distros-names.txt
[[email protected] ~]$ paste distros-dates.txt distros-names.txt > distros-key-names.txt
[[email protected] ~]$ head distros-key-names.txt
11/25/2008 Fedora
10/30/2008 Ubuntu
06/19/2008 SUSE
05/13/2008 Fedora
04/24/2008 Ubuntu
11/08/2007 Fedora
10/18/2007 Ubuntu
10/04/2007 SUSE
05/31/2007 Fedora
04/19/2007 Ubuntu
И второй — даты выпусков и номера версий:
[[email protected] ~]$ cut -f 2,2 distros-by-date.txt > distros-vernums.txt
[[email protected] ~]$ paste distros-dates.txt distros-vernums.txt > distros-keyvernums.txt
[[email protected] ~]$ head distros-key-vernums.txt
11/25/2008 10
10/30/2008 8.10
06/19/2008 11.0
05/13/2008 9
04/24/2008 8.04
11/08/2007 8
10/18/2007 7.10
10/04/2007 10.3
05/31/2007 7
04/19/2007 7.04
Теперь у нас есть два файла с общим ключом (поле «дата выпуска»). Здесь важно отметить, что файлы должны быть отсортированы по ключевому полю, чтобы программа join выдала правильный результат.
[[email protected] ~]$ join distros-key-names.txt distros-key-vernums.txt | head
11/25/2008 Fedora 10
10/30/2008 Ubuntu 8.10
06/19/2008 SUSE 11.0
05/13/2008 Fedora 9
04/24/2008 Ubuntu 8.04
11/08/2007 Fedora 8
10/18/2007 Ubuntu 7.10
10/04/2007 SUSE 10.3
05/31/2007 Fedora 7
04/19/2007 Ubuntu 7.04
Отметьте также, что по умолчанию в качестве разделителя полей во входных данных join использует символы табуляции, а в выводе — пробел. Такое поведение можно изменить с помощью параметров. За дополнительными подробностями обращайтесь к странице справочного руководства (man) для join.
Сравнение текста
Довольно часто бывает необходимо сравнить версии текстовых файлов. Для системных администраторов и разработчиков программного обеспечения это особенно важно. Системному администратору, например, может понадобиться сравнить имеющийся конфигурационный файл с предыдущей версией, чтобы понять суть возникшей проблемы. Аналогично, программисту часто бывает необходимо увидеть изменения, происшедшие в программе с течением времени.
comm — построчное сравнение двух сортированных файлов
Программа comm сравнивает два текстовых файла, показывая, какие строки в них уникальные, а какие — одинаковые. Для демонстрации создадим с помощью cat два почти идентичных файла:
[[email protected] ~]$ cat > file1.txt
a
b
c
d
[[email protected] ~]$ cat > file2.txt
b
c
d
e
Затем сравним эти два файла с помощью comm:
[[email protected] ~]$ comm file1.txt file2.txt
a
b
c
d
e
Как видите, comm произвела вывод в три колонки. Первая колонка содержит уникальные строки из первого файла, вторая — уникальные строки из второго файла, третья — строки, одинаковые в обоих файлах. Программа comm поддерживает параметры в формате -n, где n может быть числом 1, 2 или 3. При использовании эти параметры определяют номера колонок, вывод которых следует подавить. Например, чтобы вывести только одинаковые строки, нужно подавить вывод колонок 1 и 2:
[[email protected] ~]$ comm -12 file1.txt file2.txt
b
c
d
diff — построчное сравнение файлов
Подобно программе comm, diff используется для выявления различий между файлами. Однако diff намного более сложный инструмент, поддерживающий вывод во множестве форматов и способный обрабатывать сразу огромные коллекции файлов. Программа diff часто используется разработчиками программного обеспечения для исследования различий между разными версиями исходного программного кода, потому что позволяет рекурсивно обходить каталоги, которые часто называют деревьями исходного кода (source trees). Часто программа diff применяется для создания diff-файлов, или заплат (patches), которые могут использоваться другими программами, такими как patch (о которой рассказывается чуть ниже), для преобразования файлов из одной версии в другую.
Если применить diff к файлам из предыдущего примера, можно увидеть стиль вывода результатов ее работы по умолчанию: краткое описание различий между двумя файлами.
[[email protected] ~]$ diff file1.txt file2.txt
1d0
< a
4a4
> e
В формате по умолчанию каждой группе изменений предшествует команда изменения (табл. 20.4) в форме диапазон — операция — диапазон, описывающей позиции и типы изменений, которые нужно выполнить, чтобы преобразовать первый файл во второй.
Таблица 20.4. Команды изменения, генерируемые программой diff
Команда
Описание
r1ar2
Добавить строки, находящиеся в диапазоне r2 во втором файле, после строк в позиции r1 в первом файле
r1cr2
Изменить (заменить) строки в диапазоне r1 в первом файле строками в диапазоне r2 во втором файле
r1dr2
Удалить строки в диапазоне r1 в первом файле, которые находились бы в диапазоне r2 во втором файле
В этом формате любой диапазон представлен списком через запятую номеров начальной и конечной строки. Хотя этот формат используется по умолчанию (главным образом для совместимости со стандартом POSIX и обратной совместимости с традиционными версиями diff для Unix), он не так широко используется, как другие, дополнительные форматы. Два других формата, получивших большую популярность, — это контекстный формат и унифицированный формат.
При использовании контекстного формата (параметр -c) вывод выглядит так:
[[email protected] ~]$ diff -c file1.txt file2.txt
*** file1.txt 2012-12-23 06:40:13.000000000 -0500
--- file2.txt 2012-12-23 06:40:34.000000000 -0500
***************
*** 1,4 ****
- a
b
c
d
--- 1,4 ----
b
c
d
+ e
Вывод начинается с имен двух файлов и времени последнего их изменения. Первый файл отмечается звездочками, а второй — дефисами. На протяжении всей оставшейся части листинга эти маркеры обозначают соответствующие им файлы. Далее следуют группы изменений, включая заданное по умолчанию число окружающих строк, определяющих контекст. Первая группа начинается со строки *** 1,4 ****, указывающей на строки с номерами с 1 по 4 в первом файле. Далее следует строка --- 1,4 ----, указывающая на строки с номерами с 1-го по 4-й во втором файле. Внутри группы изменений присутствуют строки, начинающиеся с одного из четырех индикаторов, перечисленных в табл. 20.5.
Таблица 20.5. Индикаторы изменений, генерируемые программой diff при использовании контекстного формата
Индикатор
Значение
(нет)
Строка показана для контекста. В ней отсутствуют различия между файлами
-
Строка удалена. Эта строка присутствует в первом файле и отсутствует во втором
+
Строка добавлена. Эта строка присутствует во втором файле и отсутствует в первом
!
Строка изменена. Выводятся две версии строки, каждая в соответствующем разделе внутри группы изменений
Унифицированный формат напоминает контекстный, но более компактный. Задается параметром -u:
[[email protected] ~]$ diff -u file1.txt file2.txt
--- file1.txt 2012-12-23 06:40:13.000000000 -0500
+++ file2.txt 2012-12-23 06:40:34.000000000 -0500