Какое количество информации содержится, к
примеру, в тексте романа "Война и мир",
во фресках Рафаэля или в генетическом коде
человека? Ответа на эти вопросы наука не
даёт и, по всей вероятности, даст не скоро. А
возможно ли объективно измерить количество
информации? Важнейшим результатом теории
информации является следующий вывод:
В определенных, весьма широких
условиях можно пренебречь
качественными особенностями
информации, выразить её количество
числом, а также сравнить количество
информации, содержащейся в различных
группах данных.
В настоящее время получили
распространение подходы к определению
понятия "количество информации",
основанные на том, что информацию,
содержащуюся в сообщении, можно нестрого
трактовать в смысле её новизны или, иначе,
уменьшения неопределённости наших знаний
об объекте. Эти подходы используют
математические понятия вероятности и логарифма.
Если вы еще не знакомы с этими понятиями, то
можете пока пропустить
этот материал.
Подходы к
определению количества информации.
Формулы Хартли и Шеннона.
Американский инженер Р. Хартли в
1928 г. процесс получения информации
рассматривал как выбор одного
сообщения из конечного наперёд
заданного множества из N
равновероятных сообщений, а количество
информации I, содержащееся в выбранном
сообщении, определял как двоичный
логарифм N.
Формула Хартли: I = log2N
Допустим, нужно угадать одно число из
набора чисел от единицы до ста. По
формуле Хартли можно вычислить, какое
количество информации для этого
требуется: I = log2100 >
6,644. Таким образом, сообщение о верно
угаданном числе содержит количество
информации, приблизительно равное 6,644
единицы информации.
Приведем другие примеры
равновероятных сообщений:
при бросании монеты: "выпала
решка", "выпал орел";
на странице книги: "количество
букв чётное", "количество
букв нечётное".
Определим теперь, являются ли
равновероятными сообщения"первой
выйдет из дверей здания женщина" и "первым
выйдет из дверей здания мужчина". Однозначно
ответить на этот вопрос нельзя. Все
зависит от того, о каком именно здании
идет речь. Если это, например, станция
метро, то вероятность выйти из дверей
первым одинакова для мужчины и женщины,
а если это военная казарма, то для
мужчины эта вероятность значительно
выше, чем для женщины.
Для задач такого рода американский
учёный Клод
Шеннон предложил в 1948 г. другую формулу
определения количества информации,
учитывающую возможную неодинаковую
вероятность сообщений в наборе.
Формула Шеннона: I = — ( p1log2
p1 + p2
log2 p2
+ . . . + pN log2
pN),
где pi — вероятность того,
что именно i-е сообщение
выделено в наборе из N сообщений.
Легко заметить, что если вероятности p1,
..., pN равны, то каждая из них
равна 1 / N, и формула Шеннона
превращается в формулу Хартли.
Помимо двух рассмотренных подходов к
определению количества информации,
существуют и другие. Важно помнить,
что любые теоретические результаты
применимы лишь к определённому кругу
случаев, очерченному первоначальными
допущениями.
В качестве единицы информации Клод Шеннон
предложил принять один бит
(англ. bit — binarydigit
— двоичная цифра).
Битв теории информации —
количество информации, необходимое для
различения двух равновероятных
сообщений (типа "орел"—"решка",
"чет"—"нечет" и т.п.).
В вычислительной технике битом
называют наименьшую "порцию"
памяти компьютера, необходимую для
хранения одного из двух знаков "0"
и "1", используемых для
внутримашинного представления данных
и команд.
Бит — слишком мелкая единица измерения.
На практике чаще применяется более крупная
единица — байт, равная восьми
битам. Именно восемь битов требуется для
того, чтобы закодировать любой из 256
символов алфавита клавиатуры компьютера
(256=28).
Широко используются также ещё более
крупные производные единицы информации:
1 Килобайт (Кбайт) =
1024 байт = 210 байт,
1 Мегабайт (Мбайт) =
1024 Кбайт = 220 байт,
1 Гигабайт (Гбайт) =
1024 Мбайт = 230 байт.
В последнее время в связи с увеличением
объёмов обрабатываемой информации входят в
употребление такие производные единицы,
как:
1 Терабайт (Тбайт) =
1024 Гбайт = 240 байт,
1 Петабайт (Пбайт) =
1024 Тбайт = 250 байт.
За единицу информации можно было бы
выбрать количество информации, необходимое
для различения, например, десяти
равновероятных сообщений. Это будет не
двоичная (бит), а десятичная (дит)
единица информации.