Читаем Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта полностью

Но у DS, как у всего остального есть предыстория и она начинается с работ американского математика Джон Тьюки (John Tukey, 1915–2000), он первым задумался о данных, как самостоятельной сущности. Тьюки больше известен как изобретатель термина бит (bit от BInary digiT), в качестве минимальной единицы измерения данных, а еще в книге «Обучение конкретной математике» (The Teaching of Concrete Mathematics) он первым использовал слово software. В дополнение биту в 1956 году Вернер Бухгольц (Werner Buchholz, 1922) предложил удобную для кодировки восьмибитовую единицу меры данных и назвал ее байтом. Бухгольц эмигрировал из Германии в 1938 году, Был членом команды в IBM, которая проектировала первые мэйнфреймы IBM 701 и IBM 7030 Stretch.

И все же основным делом жизни Тьюки был исследовательский анализ данных (Exploratory Data Analysis, EDA), служащий инструментом для изучения основных свойств данных, нахождения в них общих закономерностей, распределений и аномалий. Этот тип анализа отличается от, например, более известного и широко используемого метода статистической проверки гипотез тем, что не предполагает наличия некоторой априорной гипотезы, нуждающейся в подтверждении, – в EDA формулирование гипотезы, анализ и ее доказательство выполняются параллельно. В 1962 году Тьюки написал: «После долгих лет работы в области классической статистики я стал сомневаться в том, что для получения полной картины достаточно одной статистики, мои интересы стали смещаться в сторону более полного анализа данных, включая тонкие процедуры и методы анализа и интерпретации данных».

Работы Тьюки стали предпосылкой к интеллектуальному анализу данных – направлению, открытому Ильей Иосифовичем Пятецким-Шапиро (1929–2009), советским, а позже израильским и американском математиком. В 1989, покинув СССР, Илья Иосифович провел первый семинар Извлечение знаний из баз данных (Knowledge Discovery in Databases, KDD). Его дело продолжает сын Григорий Пятецкий-Шапиро (1958), живущий в США

Название Data Science предложил Петер Наур (Peter Naur, 1928–2016) в 1974 году. Датчанин Наур более всего известен как создатель одного из первых алгоритмических языков ALGOL 60 и нотации Бэкуса-Наура (Backus—Naur form, BNF). Он определил Data Science не совсем так, мы ее понимает сейчас, в его представлении это наука, изучающая жизненный цикл цифровых данных.

Крупнейший специалист в области баз данных Джим Грей (James Gray, 1944 – признан погибшим в 2012) радикально переосмыслил роль данных. За несколько недель до своего бесследного исчезновения на борту яхты у Калифорнийского побережья (2007) он выступил с речью, в которой представил свои соображения о качественных изменениях в современной науке, связанных с возможностью собирать и анализировать большие объемы экспериментальных данных. Для характеристики нового периода в науке Грей использовал термин «четвертая парадигма» (fourth paradigm). По Грею, тремя предыдущими парадигмами были экспериментальная, теоретическая и вычислительная.

Стартовым выстрелом для нынешнего периода в истории DS стало интервью Главного экономиста Google Хала Вариана (Hal Varian) изданию McKinsey Quarterly, где он выдал многократно повторенную сентенцию: «Статистик – самая привлекательная работа (sexy job). Колоссальную важность приобретет его способность взять данные, понять их обработать, выделить нужное, визуализировать и передать другим».

У DS находится общее с кибернетикой, это тоже не традиционная наука в науковедческом представлении, а междисциплинарный подход, объединяющий методы, процессы, алгоритмы, системы и другие средства, служащие для извлечения информации из сырых данных, в том числе структурированных и не структурированных. DS объединяет Data mining (иногда переводится как Интеллектуальный анализ данных или Добыча данных), Большие данные, CV и NLP как методы, используемые для извлечения информации из изображений и текстов.

<p>Несколько слов о data mining</p>
Перейти на страницу:

Похожие книги

Иная жизнь
Иная жизнь

Эта книга — откровения известного исследователя, академика, отдавшего себя разгадке самой большой тайны современности — НЛО, известной в простонародье как «летающие тарелки». Пройдя через годы поисков, заблуждений, озарений, пробившись через частокол унижений и карательных мер, переболев наивными представлениями о прилетах гипотетических инопланетян, автор приходит к неожиданному результату: человечество издавна существует, контролируется и эксплуатируется многоликой надгуманоидной формой жизни.В повествовании детективный сюжет (похищение людей, абсурдные встречи с пришельцами и т. п.) перемежается с репортерскими зарисовками, научно-популярными рассуждениями и даже стихами автора.

Владимир Ажажа , Владимир Георгиевич Ажажа

Альтернативные науки и научные теории / Прочая научная литература / Образование и наука
100 великих загадок Африки
100 великих загадок Африки

Африка – это не только вечное наследие Древнего Египта и магическое искусство негритянских народов, не только снега Килиманджаро, слоны и пальмы. Из этой книги, которую составил профессиональный африканист Николай Непомнящий, вы узнаете – в документально точном изложении – захватывающие подробности поисков пиратских кладов и леденящие душу свидетельства тех, кто уцелел среди бесчисленных опасностей, подстерегающих путешественника в Африке. Перед вами предстанет сверкающий экзотическими красками мир африканских чудес: таинственные фрески ныне пустынной Сахары и легендарные бриллианты; целый народ, живущий в воде озера Чад, и племя двупалых людей; негритянские волшебники и маги…

Николай Николаевич Непомнящий

Приключения / Научная литература / Путешествия и география / Прочая научная литература / Образование и наука