60. Измерение информации – вероятностный и алфавитный подходы. Формулы Хартли, Шеннона. Пример в MS Exсel.

С точки зрения на информацию, как на снятую неопределеность, количество информации в сообщении о каком-то событии зависит от вероятности совершения данного события.

Научный подход к оценке сообщений был предложен еще в 1928 году Р. Хартли. Расчетная формула Хартли для равновероятностных событий имеет вид:

I = log₂N или 2^I = N,

где N - количество равновероятных событий (число возможных выборов), I - количество информации.

Если N = 2 (выбор из двух возможностей), то I = 1 бит.

Пример 1. Использование формулы Хартли для вычисления количества информации. Сколько бит информации несет сообщение о том, что

поезд прибывает на один из 8 путей?

Формула Хартли: I = log₂N,

где N – число равновероятностных исходов события, о котором речь идет в сообщении,

I – количество информации в сообщении.

I = log₂8 = 3(бит) Ответ: 3 бита.

Модифицированная формула Хартли для неравновероятностных событий. Так как наступление каждого из N возможных событий имеет одинаковую вероятность

p = 1 / N, то N = 1 / p и формула имеет вид

I = log₂N= log₂(1/p) = - log₂p

Количественная зависимость между вероятностью события (p) и количеством информации в сообщении о нем (I) выражается формулой:

I = log₂(1/p)

Вероятность события вычисляется по формуле p=K/N, K – величина, показывающая, сколько раз произошло интересующее нас событие; N – общее число возможных исходов, событий. Если вероятность уменьшается, то количество информации увеличивается.

Пример 2. В классе 30 человек. За контрольную работу по математике получено 6 пятерок, 15 четверок, 8 троек и 1 двойка. Сколько бит информации несет сообщение о том, что Иванов получил четверку?

Количественная зависимость между вероятностью события (p) и количество информации сообщения о нем (I)

I = log₂(1/p) = - log₂p

вероятность события 15/30

количество информации в сообщении =log₂(30/15)=log₂2=1.

Ответ:1 бит.

Использование формулы Шеннона. Общий случай вычисления количества информации в сообщении об одном из N, но уже неравновероятных событий. Этот подход был предложен К.Шенноном в 1948 году.

Основные информационные единицы:

Iср - количество бит информации, приходящееся в среднем на одну букву;

M - количество символов в сообщении

I – информационный объем сообщения

p_i -вероятность появления i символа в сообщении; i - номер символа;

I_ср= -

Значение I_ср достигает максимума при равновероятных событиях, то есть при равенстве всех p_ip_i= 1 / N.

В этом случае формула Шеннона превращается в формулу Хартли.

Пример 3. Сколько бит информации несет случайно сгенерированное сообщение «фара», если в среднем на каждую тысячу букв в русских текстах буква «а» встречается 200 раз, буква «ф» - 2 раза, буква «р» - 40 раз.

Будем считать, что вероятность появления символа в сообщении совпадает с частотой его появления в текстах. Поэтому буква «а» встречается со средней частотой 200/1000=0,2; Вероятность появления буквы “а” в тексте (p_a)можем считать приблизительно равной 0,2;

буква «ф» встречается с частотой 2/1000=0,002; буква «р» - с частотой 40/1000=0,04;

Аналогично, p_р= 0,04, p_ф = 0,002. Далее поступаем согласно К.Шеннону. Берем двоичный логарифм от величины 0,2 и называем то, что получилось количеством информации, которую переносит одна-единственная буква “а” в рассматриваемом тексте. Точно такую же операцию проделаем для каждой буквы. Тогда количество собственной информации, переносимой одной буквой равно log₂1/p_i = - log₂ p_i, Удобнее в качестве меры количества информации пользоваться средним значением количества информации, приходящейся на один символ алфавита

I_ср= -

Значение I_ср достигает максимума при равновероятных событиях, то есть при равенстве всех p_i

p_i= 1 / N.

В этом случае формула Шеннона превращается в формулу Хартли.

I = M*I_ср=4*(-(0,002*log₂0,002+0,2* log₂0,2+0,04* log₂0,04+0,2* log₂0,2))=4*(-(0,002*(-8,967)+0,2*(-2,322)+0,04*(-4,644)+0,2*(-2,322)))=4*(-(-0,018-0,46-0,19-0,46))=4*1,1325=4,53

Ответ: 4,53 бита

Алфавитный подход к измерению информации

Алфавитный подход используется в технике, в данном случае количество информации не зависит от содержания, а зависит от мощности алфавита и количества символов в тексте.

I_сооб - объем информации в сообщении

I_сооб= K* I

К - количество символов в сообщении

I Информационный объем одного символа

Для кодировки ASCII – мощность алфавита=256

I=log₂256=8(бит); При кодировании символьной информации в кодах каждый символ, включая пробелы и знаки препинания, кодируется 1 байтом (8 битами).

Единицы измерения информации в вычислительной технике

1 бит (технический подход)	минимальная единица измерения информации	количество информации измеряется только целым числом бит
1 байт	= 8 бит
1 Кбайт (килобайт)	= 2¹⁰байт = 1024 байт	~ 1 тысяча байт
1 Мбайт (мегабайт)	= 2¹⁰ Кбайт = 2²⁰байт	~ 1 миллион байт
1 Гбайт (гигабайт)	= 2¹⁰ Мбайт = 2³⁰ байт	~ 1 миллиард байт

Конструктор сайтов — uCoz