Еще можно вводить не только последовательности чисел, но и их суммы. Компьютер складывает введенные числа и сравнивает результат с заявленной суммой. Несовпадение сумм будет означать, что допущена ошибка в одном или нескольких введенных числах (за исключением очень редких случаев, когда две ошибки взаимно компенсируют друг друга). Существуют разные версии этой идеи «контрольной суммы», в том числе и очень мудреные.
Пример с 11 ноября 1911 г. и использование контрольных сумм для предотвращения ошибок граничат со следующим этапом –
Ошибки также могут быть обнаружены при наличии логических несоответствий. Если заявленное количество детей в семье не соответствует числу их возрастов в анкете, значит, что-то не так. Несоответствия могут быть не только логическими, но и статистическими. Рост 1,5 м и вес 150 кг, указанные для одного человека, могут вызвать подозрение в ошибке, хотя по отдельности рост 1,5 м и вес 150 кг встречаются не так уж редко.
Более сложный пример статистического обнаружения странностей встречается в
Так в чем же состоит закон Бенфорда?
Во-первых, мы должны определить самую значимую цифру числа. Как правило, это первая цифра: наиболее значимой для числа 1965 является цифра 1, а для 6 009 518 432 – цифра 6. В наборе чисел можно ожидать, что наиболее значимые цифры будут встречаться с тем же распределением, что и цифры от 1 до 9. Иначе говоря, вы можете ожидать, что каждая цифра от 1 до 9 будет первой цифрой числа для одной девятой всех чисел набора. Но, что любопытно, во многих полученных наборах чисел цифры от 1 до 9 встречаются в качестве наиболее значимых в разных пропорциях: 1 встречается примерно в 30 % случаев, 2 – в 18 % и т. д. по убывающей, вплоть до 9, которая служит наиболее значимой цифрой всего для 5 % чисел в наборе. Закон Бенфорда посредством точной математической формулы как раз и описывает это распределение.
Существуют веские математические причины, по которым может возникнуть это странно противоречащее нашей интуиции явление, но мы не будем вдаваться в них на страницах этой книги[158]. Для нас важно отметить, что если данные отклоняются от распределения Бенфорда, то это повод проверить, не закралась ли какая-то ошибка. Марк Нигрини, эксперт в области судебной бухгалтерии, разработал инструменты на основе распределения Бенфорда для обнаружения мошенничества в финансовой и бухгалтерской отчетностях. И здесь есть один важный для нас момент. Инструменты для выявления странного поведения данных, возникающего вследствие ошибок, могут быть использованы и для поиска странностей, когда реальные цифры намеренно скрываются, то есть для выявления мошенничества. В главе 6 я упомянул, что правила борьбы с отмыванием денег требуют от регулирующих органов сообщать о выплатах в размере $10 000 или более. Преступники пытаются преодолеть это ограничение, разделяя общую сумму перевода на множество транзакций с чуть меньшим, чем пороговое, значением. Но превышение стандартной доли переводов, сумма которых начинается с цифры 9 (например, $9999), будет отображаться как отклонение от распределения Бенфорда.
Я довольно долго работал с розничными банками, разрабатывая инструменты для выявления потенциальных случаев мошенничества со счетами кредитных карт. Многие из этих инструментов основаны именно на поиске странных значений, которые вполне могут быть ошибками, но порой указывают на мошеннические действия.