>>> fin.seek(1, 1)
255
>>> fin.tell()
255
Наконец, считаем все данные до конца файла:
>>> bdata = fin.read()
>>> len(bdata)
1
>>> bdata[0]
255
Эти функции наиболее полезны при работе с бинарными файлами. Вы можете использовать их и для работы с текстовыми файлами, но если файл содержит в себе не только символы формата ASCII (занимающие по одному байту в памяти), вам будет трудно определить смещение. Оно будет зависеть от кодировки текста, самая популярная кодировка (UTF-8) использует разное количество байтов для разных символов.
Структурированные текстовые файлы
Для простых текстовых файлов единственным уровнем организации является строка. Но иногда вам может понадобиться более структурированный файл. Вы можете захотеть сохранить данные своей программы для дальнейшего использования или отправить их другой программе.
Существует множество форматов, которые можно различить по следующим особенностям.
•
• Символы '<' и '>', окружающие
• Знаки препинания. Примером является JavaScript Object Notation (JSON).
• Выделение пробелами. Примером является YAML (что в зависимости от источника может означать YAML Ain’t Markup Language — «Не язык разметки», вам придется исследовать его самостоятельно).
• Прочие файлы, например конфигурационные.
Каждый из этих форматов структурированных файлов может быть считан и записан с помощью как минимум одного модуля Python.
CSV
Файлы с разделителями часто используются в качестве формата обмена данными для электронных таблиц и баз данных. Вы можете считать файл CSV вручную, по одной строке за раз, разделяя каждую строку на поля, расставляя запятые и добавляя результат в структуру данных вроде списка или словаря. Но лучшим решением будет использовать стандартный модуль csv, поскольку парсинг этих файлов может оказаться сложнее, чем вы думаете.
• Некоторые файлы имеют альтернативные разделители вместо запятой: самыми популярными являются '|' и '\t'.
• Некоторые файлы имеют
• Файлы имеют разные символы конца строк. В Unix используется '\n', в Microsoft — '\r \n', а Apple раньше применяла символ '\r', но теперь перешла на использование '\n'.
• В первой строке могут содержаться названия колонок.
Для начала взглянем, как читать и записывать список строк, каждая из которых содержит список колонок:
>>> import csv
>>> villains = [
…·····['Doctor', 'No'],
…·····['Rosa', 'Klebb'],
…·····['Mister', 'Big'],
…·····['Auric', 'Goldfinger'],
·····['Ernst', 'Blofeld'],
…·····]
>>> with open('villains', 'wt') as fout:··# менеджер контекста
…·····csvout = csv.writer(fout)
…·····csvout.writerows(villains)
Этот код создает пять записей:
Doctor,No
Rosa,Klebb
Mister,Big
Auric,Goldfinger
Ernst,Blofeld
Теперь попробуем считать их обратно:
>>> import csv
>>> with open('villains', 'rt') as fin:··# менеджер контекста
…·····cin = csv.reader(fin)
…·····villains = [row for row in cin]··# Здесь используется включение списка
…
>>> print(villains)
[['Doctor', 'No'], ['Rosa', 'Klebb'], ['Mister', 'Big'],
['Auric', 'Goldfinger'], ['Ernst', 'Blofeld']]
Подумайте немного о включениях списка (в любой момент вы можете обратиться к разделу «Включения» главы 4, чтобы вспомнить синтаксис). Мы воспользовались структурой, созданной функцией reader(). Она услужливо создала в объекте cin ряды, которые мы можем извлечь с помощью цикла for.
Используя функции reader() и writer() с их стандартными опциями, мы получим колонки, которые разделены запятыми, и ряды, разделенные символами перевода строки.
Данные могут иметь формат списка словарей, а не списка списков. Снова считаем файл villains, в этот раз используя новую функцию DictReader() и указывая имена колонок:
>>> import csv
>>> with open('villains', 'rt') as fin:
…·····cin = csv.DictReader(fin, fieldnames=['first', 'last'])