Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения – 3 сентября 2008 года, в этот день вышел специальный номер научного журнала
Но в последние годы ситуация резко изменилась, что отражает лозунг «It's the data, stupid», указывающий на возрастающую роль данных в современной науке, бизнесе и других отраслях человеческой деятельности. Он представляет собой парафраз «Это экономика, тупица» – знаменитого лозунга предвыборной кампании Билла Клинтона, который помог ему в 1992 году победить Джорджа Буша-старшего. Если в 2008 году вопрос о данных был только поставлен, то через пару лет проблема выплеснулась на страницы ведущих экономических изданий. В февральском номере журнала Economist за 2010 год вышла статья «Данные, везде данные» (
Данные и информация
Итак, по аналогии с нефтью данные – это сырье, а потребляются продукты переработки данных, то есть является полезная человеку информация, она имеет потребительную стоимость. Оксфордский словарь английского языка свидетельствует – еще в XIV веке слово информация употреблял Джефри Чосер, автор «Кентерберийских рассказов». В последующем написание варьировалось, встречаются и informacion, и enformation, и другие. Потребовалось более полутысячелетия, чтобы сложилось современное написание и научное представление о том, что такое информация. Долгие годы под информацией ограниченно понимали данные, переданные по каналам связи. Каналы передачи данных определяли как средства обмена данными приема и передачи информации. Под информацией понималась полезная составляющая данных, отсюда возникло желание каким-то образом оценить количество переданной информации и качество каналов.
Шенноновская теория информации
В двадцатые годы прошлого века пионерами в исследованиях, связанных с передачей информации, стали двое: английский статистик и генетик Рональд Фишер (Ronald Fisher, 1890–1962) и американский физик и радиоинженер Ральф Хартли. (Ralph Hartley, 1888–1970). Хартли связал количество передаваемой информации с пропускной способностью канала и предложил меру переданной информации, выбрав для этой цели логарифм числа возможных символов в последовательности, ее называли хартлиевской. В 30–40-е годы были заложены теоретические основы передачи данных, из числа ученых этого поколения необходимо отдать должное американцу Гарри Найквисту (Harry Nyquist, 1889–1976) и нашему соотечественнику академику Владимиру Александровичу Котельникову (1908–2005).