байтах, к форматам, к технологиям хранения и методам доступа. Игнорирование значения данных воспринималось как нечто само собой разумеющееся, такое положение могло бы продолжаться и далее, если бы количество данных не стало угрожающе велико, а сетевые методы доступа к данным не превратились в фактор заметного влияния на жизнь общества. На протяжении десятилетий развивались методы, обеспечивающие передачу, хранение и обработку данных, без учета связи между данными и хранящихся в них информации и знаний.
Но в последние годы ситуация резко изменилась, что отражает лозунг «It's the data, stupid», указывающий на возрастающую роль данных в современной науке, бизнесе и других отраслях человеческой деятельности. Он представляет собой парафраз «Это экономика, тупица» – знаменитого лозунга предвыборной кампании Билла Клинтона, который помог ему в 1992 году победить Джорджа Буша-старшего. Если в 2008 году вопрос о данных был только поставлен, то через пару лет проблема выплеснулась на страницы ведущих экономических изданий. В февральском номере журнала Economist за 2010 год вышла статья «Данные, везде данные» (Data, data everywhere), в ней происходящее названо индустриальной революцией данных. Британский математик и успешный предприниматель Клив Хамби (Clive Humby, 1955) одарил человечество гениальным лозунгом «Данные – это новая нефть» (Data is the new oil)». Это утверждение развил журнал Economist в опубликованном в 2017 году отчете «Теперь самый ценный ресурс в мире не нефть, а данные» (The world’s most valuable resource is no longer oil, but data). Заслуга Хамби в том, что он раньше других увидел параллель – собственно нефть всего лишь сырье, потребительскую ценность имеют ее производные – бензин, пластики и все остальное, то же самое и данные, для того, чтобы они стали источником новой стоимости, они должны быть переработаны.
Данные и информация
Итак, по аналогии с нефтью данные – это сырье, а потребляются продукты переработки данных, то есть является полезная человеку информация, она имеет потребительную стоимость. Оксфордский словарь английского языка свидетельствует – еще в XIV веке слово информация употреблял Джефри Чосер, автор «Кентерберийских рассказов». В последующем написание варьировалось, встречаются и informacion, и enformation, и другие. Потребовалось более полутысячелетия, чтобы сложилось современное написание и научное представление о том, что такое информация. Долгие годы под информацией ограниченно понимали данные, переданные по каналам связи. Каналы передачи данных определяли как средства обмена данными приема и передачи информации. Под информацией понималась полезная составляющая данных, отсюда возникло желание каким-то образом оценить количество переданной информации и качество каналов.
Шенноновская теория информации
В двадцатые годы прошлого века пионерами в исследованиях, связанных с передачей информации, стали двое: английский статистик и генетик Рональд Фишер (Ronald Fisher, 1890–1962) и американский физик и радиоинженер Ральф Хартли. (Ralph Hartley, 1888–1970). Хартли связал количество передаваемой информации с пропускной способностью канала и предложил меру переданной информации, выбрав для этой цели логарифм числа возможных символов в последовательности, ее называли хартлиевской. В 30–40-е годы были заложены теоретические основы передачи данных, из числа ученых этого поколения необходимо отдать должное американцу Гарри Найквисту (Harry Nyquist, 1889–1976) и нашему соотечественнику академику Владимиру Александровичу Котельникову (1908–2005).
Основоположником того, что прямо скажем так, не совсем удачно названо и продолжают называть теорией информации, стал Клод Шеннон. Он обобщил работы предшественников и сформулировал основные положения того, что он сам назвал математической теории связи в одноименной статье (A Mathematical Theory of Communication, 1948), заметим, не теорией информации! От работ предшественников позицию Шеннона главным образом отличает углубленное представление информационной энтропии, как меры хаотичности информации. Предельно упрощая, информационная энтропия – это то, насколько много информации вам не известно о системе.
Под информацией Шеннон понимал лишь сигналы, несущие содержание, которое распознает получатель, роль которого он не принимал во внимание. В процессе передачи данных изначальная энтропия уменьшается, поэтому сумма оставшейся энтропии и переданной информации равна начальной. Хотя Шеннон и оперирует понятием информации, точного определения он не предлагает, впрочем, оговаривая, что сообщения могут иметь какое-то значение. К тому же Шеннон, оперируя понятием энтропия, предостерегал своих последователей от чрезмерного теоретизирования при трактовке энтропии. Настороженное отношения автора к введенному им понятию была объясняется тем, что он был не вполне самостоятелен при выборе этого термина. Хорошо известен и неоднократно описан тот факт, что он находился под влиянием обладавшего огромным авторитетом и фантастической харизмой Джона фон Неймана. Так вот, это фон Нейман навал шенновскую теорию передачи данных теорией информации. А еще он внушил Шеннону необходимость введения понятия информационной энтропии следующим образом: «Во-первых, это название использовано в нескольких физических дисциплинах, значит у нее уже есть имя. Во-вторых, и что не менее важно, никто не знает, что такое энтропия в этом контексте, это даст вам преимущество в любой дискуссии». Удивительно, но через несколько лет сам Шеннон поступил подобным образом, он посоветовал Норберту Виннеру использовать термин кибернетика с аналогичной аргументаций.
В качестве единиц для измерения шенновской информации были предложены бит, нат, трит и хартли (децит, бан, дит), различающиеся основанием логарифма: двоичный бит – основание 2, натуральный нат – основание e, троичный трит – основание – 3, хартли – основание 10. Соответственно при передаче одного бита энтропия уменьшается вдвое, трита – втрое, а ната и хартли в 10 раз. Бит еще и единица изменения объема данных, 8 битов образуют байт, далее идет килобайт и т. д. Бит, как единица измерения шенноновской информации, и бит, как единица измерения данных, родственны, но не тождественны.
Данные и их содержание
Достоинство трактовки информации по Шеннону в ее формальности, а ее недостаток – в привязанности исключительно к коммуникациям без учета смысловой нагрузки сообщения. Она вполне адекватна задачам, связанным с оценкой пропускной способности каналов, потерей данных в процесс передачи и другим, относящимся к коммуникациям, где содержание сообщения не учитывается, но такой подход к инфломации не имеет никакого отношения к решению содержательных задач, например, проблемы Big Data. Даже на интуитивном уровне понятно, что возможны и другие подходы к пониманию информации, учитывающие ее содержательную строну и они были. Через три года после публикации Шеннона на 8-й Конференции Мэйси британец Дональд Маккей (Donald MacKay, 1922–1987) представил свой альтернативный подход, отличающийся учетом семантической природы информации. Он отметил, что видит проблему передачи информации не только в обеспечении физики для поддержки потока символов от передатчика приемнику, но и в передаче семантики того, что передается. А главное, он определял информацию, принимая в расчет не только передающую, но и получающую сторону, которая