Проблема Piquant (а также ее конкурентов) была не только в скорости, но и в точности. Система выдавала правильные ответы на вопросы лишь в 35 % случаев — для такого результата было бы достаточно просто ввести вопросы в строку поиска Google{133}. Любые попытки команды Феруччи построить прототип системы для игры в «Jeopardy!» на основе проекта Piquant неизменно заканчивались неудачей. Сама мысль о том, что однажды Piquant сможет составить конкуренцию лучшему игроку «Jeopardy!» Кену Дженнигсу, казалась просто нелепой. Феруччи пришлось признать, что его команде придется начинать с нуля, а сам проект потребует масштабных исследований и разработок, на которые уйдет по меньшей мере полдесятилетия. В 2007 г. он получил одобрение от руководства IBM и принялся за разработку, как сам об этом говорит, «самой сложной интеллектуальной архитектуры, которую когда-либо видел мир»{134}. Он привлек к решению этой задачи ресурсы всей компании, собрав вместе специалистов по искусственному интеллекту из различных подразделений IBM, а также лучших университетов, включая МIT и Университет Карнеги — Меллона{135}.
Команда Феруччи, в которую в конечном итоге вошло около двадцати исследователей, начала работу с создания массивного набора справочной информации, которая должна была послужить основой для ответов Watson. В него вошло приблизительно 200 млн страниц информации, включая словари и справочники, произведения литературы, газетные архивы, веб-страницы и почти все содержимое «Википедии». Затем они собрали исторические данные по всем выпускам телевикторины «Jeopardy!». Свыше 180 000 подсказок из предшествующих игр послужили исходным материалом для алгоритмов машинного обучения Watson, тогда как результаты лучших игроков были использованы для оттачивания игровой стратегии суперкомпьютера{136}. При разработке Watson были созданы тысячи отдельных алгоритмов, каждый из которых был направлен на решение конкретной задачи, включая, например, поиск по тексту, сравнение дат, времени и мест, анализ грамматических конструкций в подсказках и преобразование исходной информации в надлежащим образом оформленные возможные ответы.
При поиске ответа Watson сначала разбирает подсказку на составные части, анализирует слова и пытается понять, что именно он должен найти. Этот кажущийся столь простым этап сам по себе представляет задачу колоссальной трудности для компьютера. Рассмотрим, например, подсказку из категории «Блоги Линкольна», которая использовалась при обучении Watson: «Секретарь Чейз только что передал это мне в третий раз. И знаешь что, дружище? На этот раз я это принимаю». Чтобы у машины был хоть какой-то шанс дать правильный ответ, она должна для начала понять, что первое слово «это» в данном примере выступает в качестве заместителя ответа, который она и должна найти{137}.
Как только Watson заканчивает анализ подсказки, он запускает сразу сотни алгоритмов, каждый из которых применяет отличный от остальных подход, пытаясь найти возможный ответ в содержащемся в памяти компьютера массиве справочных материалов. Если вернуться к приведенному выше примеру, то сначала Watson выделяет слово «Линкольн» в названии категории как значимое, а слово «блоги» игнорирует, воспринимая его как фактор отвлечения внимания: в отличие от человека, машина не способна понять, что сценаристы шоу пытались представить Авраама Линкольна блогером.