Но у DS, как у всего остального есть предыстория и она начинается с работ американского математика Джон Тьюки (John Tukey, 1915–2000), он первым задумался о данных, как самостоятельной сущности. Тьюки больше известен как изобретатель термина бит (bit от BInary digiT), в качестве минимальной единицы измерения данных, а еще в книге «Обучение конкретной математике» (
И все же основным делом жизни Тьюки был исследовательский анализ данных (Exploratory Data Analysis, EDA), служащий инструментом для изучения основных свойств данных, нахождения в них общих закономерностей, распределений и аномалий. Этот тип анализа отличается от, например, более известного и широко используемого метода статистической проверки гипотез тем, что не предполагает наличия некоторой априорной гипотезы, нуждающейся в подтверждении, – в EDA формулирование гипотезы, анализ и ее доказательство выполняются параллельно. В 1962 году Тьюки написал: «После долгих лет работы в области классической статистики я стал сомневаться в том, что для получения полной картины достаточно одной статистики, мои интересы стали смещаться в сторону более полного анализа данных, включая тонкие процедуры и методы анализа и интерпретации данных».
Работы Тьюки стали предпосылкой к интеллектуальному анализу данных – направлению, открытому Ильей Иосифовичем Пятецким-Шапиро (1929–2009), советским, а позже израильским и американском математиком. В 1989, покинув СССР, Илья Иосифович провел первый семинар Извлечение знаний из баз данных (Knowledge Discovery in Databases, KDD). Его дело продолжает сын Григорий Пятецкий-Шапиро (1958), живущий в США
Название Data Science предложил Петер Наур (Peter Naur, 1928–2016) в 1974 году. Датчанин Наур более всего известен как создатель одного из первых алгоритмических языков ALGOL 60 и нотации Бэкуса-Наура (Backus—Naur form, BNF). Он определил Data Science не совсем так, мы ее понимает сейчас, в его представлении это наука, изучающая жизненный цикл цифровых данных.
Крупнейший специалист в области баз данных Джим Грей (James Gray, 1944 – признан погибшим в 2012) радикально переосмыслил роль данных. За несколько недель до своего бесследного исчезновения на борту яхты у Калифорнийского побережья (2007) он выступил с речью, в которой представил свои соображения о качественных изменениях в современной науке, связанных с возможностью собирать и анализировать большие объемы экспериментальных данных. Для характеристики нового периода в науке Грей использовал термин «четвертая парадигма» (fourth paradigm). По Грею, тремя предыдущими парадигмами были экспериментальная, теоретическая и вычислительная.
Стартовым выстрелом для нынешнего периода в истории DS стало интервью Главного экономиста Google Хала Вариана (Hal Varian) изданию McKinsey Quarterly, где он выдал многократно повторенную сентенцию: «Статистик – самая привлекательная работа (sexy job). Колоссальную важность приобретет его способность взять данные, понять их обработать, выделить нужное, визуализировать и передать другим».
У DS находится общее с кибернетикой, это тоже не традиционная наука в науковедческом представлении, а междисциплинарный подход, объединяющий методы, процессы, алгоритмы, системы и другие средства, служащие для извлечения информации из сырых данных, в том числе структурированных и не структурированных. DS объединяет Data mining (иногда переводится как Интеллектуальный анализ данных или Добыча данных), Большие данные, CV и NLP как методы, используемые для извлечения информации из изображений и текстов.
Несколько слов о data mining