Читаем Простой Python полностью

Простой Python

Билл Любанович

>>> fin.seek(1, 1)

255

>>> fin.tell()

255

Наконец, считаем все данные до конца файла:

>>> bdata = fin.read()

>>> len(bdata)

1

>>> bdata[0]

255

Эти функции наиболее полезны при работе с бинарными файлами. Вы можете использовать их и для работы с текстовыми файлами, но если файл содержит в себе не только символы формата ASCII (занимающие по одному байту в памяти), вам будет трудно определить смещение. Оно будет зависеть от кодировки текста, самая популярная кодировка (UTF-8) использует разное количество байтов для разных символов.

<p>Структурированные текстовые файлы</p>

Для простых текстовых файлов единственным уровнем организации является строка. Но иногда вам может понадобиться более структурированный файл. Вы можете захотеть сохранить данные своей программы для дальнейшего использования или отправить их другой программе.

Существует множество форматов, которые можно различить по следующим особенностям.

• Разделитель, символ вроде табуляции ('\t'), запятой (',') или вертикальной черточки ('|'). Это пример формата со значениями, разделенными запятой, (CSV).

• Символы '<' и '>', окружающие теги. Примеры включают в себя XML и HTML.

• Знаки препинания. Примером является JavaScript Object Notation (JSON).

• Выделение пробелами. Примером является YAML (что в зависимости от источника может означать YAML Ain’t Markup Language — «Не язык разметки», вам придется исследовать его самостоятельно).

• Прочие файлы, например конфигурационные.

Каждый из этих форматов структурированных файлов может быть считан и записан с помощью как минимум одного модуля Python.

Файлы с разделителями часто используются в качестве формата обмена данными для электронных таблиц и баз данных. Вы можете считать файл CSV вручную, по одной строке за раз, разделяя каждую строку на поля, расставляя запятые и добавляя результат в структуру данных вроде списка или словаря. Но лучшим решением будет использовать стандартный модуль csv, поскольку парсинг этих файлов может оказаться сложнее, чем вы думаете.

• Некоторые файлы имеют альтернативные разделители вместо запятой: самыми популярными являются '|' и '\t'.

• Некоторые файлы имеют управляющие последовательности. Если символ-разделитель встречается внутри поля, все поле может быть окружено символами кавычек или же перед ним будет находиться управляющая последовательность.

• Файлы имеют разные символы конца строк. В Unix используется '\n', в Microsoft — '\r \n', а Apple раньше применяла символ '\r', но теперь перешла на использование '\n'.

• В первой строке могут содержаться названия колонок.

Для начала взглянем, как читать и записывать список строк, каждая из которых содержит список колонок:

>>> import csv

>>> villains = [

…·····['Doctor', 'No'],

…·····['Rosa', 'Klebb'],

…·····['Mister', 'Big'],

…·····['Auric', 'Goldfinger'],

·····['Ernst', 'Blofeld'],

…·····]

>>> with open('villains', 'wt') as fout:··# менеджер контекста

…·····csvout = csv.writer(fout)

…·····csvout.writerows(villains)

Этот код создает пять записей:

Doctor,No

Rosa,Klebb

Mister,Big

Auric,Goldfinger

Ernst,Blofeld

Теперь попробуем считать их обратно:

>>> import csv

>>> with open('villains', 'rt') as fin:··# менеджер контекста

…·····cin = csv.reader(fin)

…·····villains = [row for row in cin]··# Здесь используется включение списка

…

>>> print(villains)

[['Doctor', 'No'], ['Rosa', 'Klebb'], ['Mister', 'Big'],

['Auric', 'Goldfinger'], ['Ernst', 'Blofeld']]

Подумайте немного о включениях списка (в любой момент вы можете обратиться к разделу «Включения» главы 4, чтобы вспомнить синтаксис). Мы воспользовались структурой, созданной функцией reader(). Она услужливо создала в объекте cin ряды, которые мы можем извлечь с помощью цикла for.

Используя функции reader() и writer() с их стандартными опциями, мы получим колонки, которые разделены запятыми, и ряды, разделенные символами перевода строки.

Данные могут иметь формат списка словарей, а не списка списков. Снова считаем файл villains, в этот раз используя новую функцию DictReader() и указывая имена колонок:

>>> import csv

>>> with open('villains', 'rt') as fin:

…·····cin = csv.DictReader(fin, fieldnames=['first', 'last'])

Перейти на страницу: