В данном случае руководство системы государственных школ в Чикаго посчитало необходимым установить истину. В его распоряжении находилась база данных ответов на вопросы тестов для каждого ученика государственной школы с третьего по седьмой класс с 1993 по 2000 год. Каждый год тест заполняли около 30 тысяч учеников каждого класса, в базе содержалось более 700 тысяч наборов вопросов и около 100 миллионов индивидуальных ответов. Оцифрованные данные, собранные по классам, включали индивидуальные ответы каждого ученика на вопросы, связанные с чтением и математикой. (Сами бумажные формы ответов в базе отсутствовали; обычно они уничтожались сразу же после тестирования.) Данные включали в себя также информацию о каждом учителе и демографическую информацию о каждом ученике и о результатах его предыдущих и последующих тестов, что могло бы служить основным элементом в процессе выявления учителей-обманщиков.
Теперь настало время создания алгоритма, позволявшего сделать некоторые общие заключения в отношении всей базы данных. Как мог бы выглядеть класс учителя-обманщика?
Первое, на что можно было бы обратить внимание, – это, к примеру, последовательности правильных ответов, в особенности на более сложные вопросы. В случае если на первые пять вопросов теста (обычно самые простые) давали правильные ответы толковые ученики (оценки которых по предыдущим и последующим тестам были столь же высокими), такие идентичные последовательности вряд ли стоило бы считать подозрительными. Однако если на пять
Более того, алгоритм должен был выявлять классы, ученики которых показывали куда лучшие результаты, чем ожидалось по итогам предыдущих тестов, а по итогам следующих тестов вновь показывали плохие результаты.
Резкий скачок результата годового теста можно поставить в заслугу
Давайте теперь посмотрим на ответы двух групп учеников шестого класса, проходивших один и тот же математический тест. Каждая строка содержит варианты ответов на вопросы, данных одним учеником. Буква a, b, c или d указывает точный ответ; цифра обозначает неправильный ответ – 1 соответствует варианту a, 2 – варианту b и т. д. Ноль означает, что на вопрос не был дан ответ и соответствующее поле осталось пустым. Учитель одного из этих классов почти гарантированно занимается обманом, а наставник другого – скорее всего, нет. Попытайтесь найти отличия в результатах тестов – сразу же хотим вас предупредить о том, что это довольно сложно сделать невооруженным глазом.
Если вы догадались, в каком классе был допущен обман, то поздравляем вас. Давайте посмотрим на последовательности ответов учеников из класса A, перераспределенные с помощью компьютера в другом порядке. Компьютеру была поставлена задача применить сформулированный ранее алгоритм и выявить подозрительные последовательности ответов.
Посмотрите на ответы, выделенные жирным шрифтом. Неужели пятнадцати ученикам из двадцати двух удалось каким-то образом дать самостоятельно шесть последовательных правильных ответов (последовательность d-a-d-b-c-b)?
Есть как минимум четыре причины, по которым это может показаться маловероятным. Первая: вопросы в конце теста были сложнее, чем вопросы в начале. Вторая: эти ученики были в основном отстающими – мало кто из них смог дать шесть правильных ответов подряд в какой-либо другой части теста. Следовательно, кажется еще менее вероятным, что они смогли дать шесть правильных ответов подряд, отвечая на самые сложные вопросы. Третья: вплоть до данного момента между вариантами ответов учеников на вопросы теста отсутствовала какая-либо корреляция. Четвертая: три ученика (под номерами 1, 9 и 12) не дали ответов на вопросы,
В этой последовательности ответов есть еще одна странность: в девяти из пятнадцати тестов шести правильным ответам предшествует еще одна идентичная последовательность, 3-a-1-2, включающая три из четырех