Для JSON и других структурированных текстовых форматов вы можете загрузить файл в память и разместить его в структуре данных, не зная о самих структурах заранее. Далее вы можете с помощью функции isinstance() пройти по структурам и соответствующим типам методам, чтобы проверить их значения. Например, если один из элементов является словарем, вы можете извлечь его содержимое с помощью функций keys(), values() и items().
YAML
Как и JSON, YAML (http://www.yaml.org/) имеет ключи и значения, но обрабатывает большее количество типов данных, включая дату и время. Стандартная библиотека Python не содержит модулей, работающих с YAML, поэтому вам нужно установить стороннюю библиотеку yaml (http://pyyaml.org/wiki/PyYAML). Функция load() преобразует строку в формате YAML к данным Python, а функция dump() предназначена для противоположного действия.
Следующий YAML-файл, mcintyre.yaml, содержит информацию о канадском поэте Джеймсе Макинтайре (James McIntyre), в том числе два его стихотворения:
name:
··first: James
··last: McIntyre
dates:
··birth: 1828-05-25
··death: 1906-03-31
details:
··bearded: true
··themes: [cheese, Canada]
books:
··url: http://www.gutenberg.org/files/36068/36068-h/36068-h.htm
poems:
··— title: 'Motto'
····text: |
······Politeness, perseverance and pluck,
······To their possessor will bring good luck.
··— title: 'Canadian Charms'
····text: |
······Here industry is not in vain,
······For we have bounteous crops of grain,
······And you behold on every field
······Of grass and roots abundant yield,
······But after all the greatest charm
······Is the snug home upon the farm,
······And stone walls now keep cattle warm.
Значения вроде true, false, on и off преобразуются в булевы переменные. Целые числа и строки преобразуются в их эквиваленты в Python. Для прочего синтаксиса создаются списки и словари:
>>> import yaml
>>> with open('mcintyre.yaml', 'rt') as fin:
>>>·····text = fin.read()
>>> data = yaml.load(text)
>>> data['details']
{'themes': ['cheese', 'Canada'], 'bearded': True}
>>> len(data['poems'])
2
Создаваемые структуры данных совпадают со структурами YAML-файла, которые в данном случае имеют глубину более одного уровня. Вы можете получить заголовок второго стихотворения с помощью следующей ссылки:
>>> data['poems'][1]['title']
'Canadian Charms'
PyYAML может загружать объекты Python из строк, и это опасно. Используйте метод safe_load() вместо метода load(), если импортируете данные в формате YAML, которым не доверяете. А лучше всегда используйте метод safe_load(). Прочтите статью War is peace (http://nedbatchelder.com/blog/201302/war_is_peace.html), чтобы узнать о том, как незащищенная загрузка YAML скомпрометировала платформу Ruby on Rails.
Безопасность
Вы можете использовать любой формат, описанный в этой главе, для сохранения объектов в файлы и их считывания. Однако существует вероятность внедриться в этот процесс и вызвать проблемы с безопасностью.
Например, в следующем фрагменте XML-файла, состоящем из миллиарда усмешек, страница «Википедии» определяет десять вложенных сущностей, каждая из которых распространяется на более низкий уровень десять раз, порождая в сумме один миллиард сущностей:
]>