Все Unix-подобные операционные системы широко используют текстовые файлы для хранения данных разных типов. Этим объясняется такое большое разнообразие инструментов обработки текста. В этой главе мы рассмотрим программы, которые используются для выполнения самых разных манипуляций с текстом. В следующей главе мы продолжим знакомство со средствами обработки текста, уделив больше внимания программам форматирования текста перед печатью и программам, удовлетворяющим другие потребности человека.
В этой главе мы повторно рассмотрим уже знакомые программы и познакомимся с новыми:
• cat — объединяет файлы и выводит их в стандартный вывод.
• sort — сортирует строки из текстовых файлов.
• uniq — сообщает о повторяющихся строках или удаляет их.
• cut — удаляет фрагменты из каждой строки в файлах.
• paste — выполняет слияние строк из файлов.
• join — объединяет строки из двух файлов по общему полю.
• comm — выполняет построчное сравнение двух сортированных файлов.
• diff — выполняет построчное сравнение файлов.
• patch — применяет diff-файл (файл с результатами сравнения командой diff) к оригиналу.
• tr — перекодирует или удаляет символы.
• sed — потоковый редактор для фильтрации и преобразования текста.
• aspell — интерактивная программа проверки орфографии.
Области применения текста
К настоящему моменту мы познакомились с парой текстовых редакторов (nano и vim), рассмотрели несколько конфигурационных файлов и увидели вывод нескольких десятков команд, и все это в текстовом виде. А для чего еще используется текст? Как оказывается, много для чего.
Документы
Многие люди записывают документы в простом текстовом формате. Очевидно, достаточно удобно хранить простые заметки в небольших текстовых файлах, однако и большие документы также можно записывать в простом текстовом формате. Один из популярных подходов состоит в том, чтобы записать большой документ в текстовом формате и затем использовать
Веб-страницы
Самым популярным в мире форматом электронных документов является, пожалуй, формат веб-страниц. Веб-страницы — это текстовые документы с разметкой HTML (Hypertext Markup Language — язык разметки гипертекста) или XML (Extensible Markup Language — расширяемый язык разметки), описывающей визуальный формат документа.
Электронная почта
Электронная почта является текстовой средой по своей природе. Даже нетекстовые вложения преобразуются в текстовое представление перед передачей. В этом можно убедиться, загрузив электронное письмо и просмотрев его с помощью less. Вы увидите, что письмо начинается с
Вывод на принтер
В Unix-подобных системах данные выводятся на печать в простом текстовом виде, или, если страница содержит графику, она преобразуется в описание страницы в текстовом формате, известном как
Исходный код программ
Многие программы командной строки, имеющиеся в Unix-подобных системах, были созданы для поддержки системного администрирования и разработки программного обеспечения, и программы обработки текста не исключение. Многие из них предназначались для решения задач, связанных с разработкой программного обеспечения. Важность обработки текста для программистов объясняется тем, что любое программное обеспечение начинает свое существование как текст.
А вот и наши старые знакомые!
В главе 6 мы познакомились с некоторыми командами, способными принимать данные не только из аргументов командной строки, но и из стандартного ввода. В той главе мы очень коротко познакомились с ними, но сейчас пришло время более близкого знакомства — мы узнаем, как их можно использовать для обработки текста.
cat — объединение файлов и вывод их в стандартный поток вывода