Помимо изменения формулы расчета, бывают и более фундаментальные причины, по которым темные данные возникают в индексах инфляции: прежде чем производить расчет, необходимо решить, какие товары и услуги включать в потребительскую корзину и как именно получать информацию о ценах. В целом, как показали предыдущие примеры, мы должны осознавать риск появления темных данных всякий раз, когда в процессе сбора данных встаем перед выбором. При расчете инфляции важнейший вопрос – что положить в потребительскую корзину – потенциально проблематичен, поскольку общество меняется, а индексы инфляции должны так или иначе отражать стоимость жизни. Я намеренно использовал выражение «так или иначе», чтобы подчеркнуть неоднозначный факт: разные индексы измеряют разные аспекты влияния инфляции. Одни измеряют то, как ценовые изменения влияют на людей, другие – как они влияют на экономику в целом и т. д. В любом случае важно, чтобы потребительская корзина была
Что касается того, как получать информацию о ценах на товары в корзине, то традиционно для этого принято проводить опросы и направлять сборщиков данных непосредственно в магазины и на рынки. Бюро трудовой статистики США обследует таким образом около 23 000 предприятий и регистрирует цены около 80 000 предметов потребления каждый месяц, суммируя их, чтобы получить индекс потребительских цен. Другие страны используют аналогичный подход.
Возможно, вы заметили, что этот традиционный метод сбора ценовых данных полностью игнорирует покупки онлайн. Учитывая, что на такие покупки в настоящее время приходится уже около 17 % розничных продаж в Великобритании[44] и почти 10 % розничных продаж в США[45], становится ясно, что многие релевантные цены никак не учитываются в индексе. (Стоит отметить, что последние цифры действительны на момент написания книги, в то время как тенденция стремительно нарастает.) По этой причине многие страны начали разрабатывать методы учета цен в интернете. Эти методы не являются копией традиционных, потому что корзины в том и другом случае отличаются. Мы увидим пример такого метода в главе 10.
Общество меняется непрерывно, а сегодня это происходит куда быстрее, чем когда-либо в прошлом, поскольку компьютер и сопутствующие ему технологии – мониторинг, глубинный анализ данных, искусственный интеллект, автоматизированные транзакции и глобальная сеть – оказывают все большее влияние. Такая скорость изменений имеет важные последствия для анализа информации с точки зрения темных данных, поскольку прогнозы всегда строятся на том, что случалось в прошлом. Последовательности данных во времени в науке называют
Невозможно измерить все
Наборы данных всегда конечны. Это, безусловно, верно с точки зрения количества случаев – конечного числа людей в популяции или конечного числа измеряемых событий. Но это верно и с позиции того,