60. Измерение информации – вероятностный и алфавитный подходы. Формулы Хартли, Шеннона. Пример в MS Exсel.

 

С точки зрения на информацию, как на снятую неопределеность, количество информации в сообщении о каком-то событии зависит от вероятности совершения данного события.

Научный подход к оценке сообщений был предложен еще в 1928 году Р. Хартли. Расчетная формула Хартли для равновероятностных событий имеет вид:

I = log2 N   или   2I = N,

где N - количество равновероятных событий (число возможных выборов), I - количество информации.

Если N = 2 (выбор из двух возможностей), то I = 1 бит.

Пример 1. Использование формулы  Хартли  для вычисления количества информации.  Сколько бит информации несет сообщение о том, что

         поезд прибывает на один из 8 путей?                                

Формула Хартли:  I = log2N,

где N – число равновероятностных исходов события, о    котором речь идет в сообщении,

 I  – количество информации в сообщении.

   I = log28 =  3(бит) Ответ: 3 бита.

 

Модифицированная формула Хартли для неравновероятностных событий. Так как наступление каждого из N возможных событий имеет одинаковую вероятность

 p = 1 / N, то N = 1 / p и формула имеет вид

I = log2N= log2 (1/p) = - log2 p

Количественная зависимость между вероятностью события (p) и количеством информации в сообщении о нем (I) выражается формулой:

I = log2(1/p)

Вероятность события вычисляется по формуле  p=K/N, K – величина, показывающая, сколько раз произошло интересующее нас событие; N – общее число возможных исходов, событий. Если вероятность уменьшается, то количество информации увеличивается.

Пример 2. В классе 30 человек. За контрольную работу по математике получено 6 пятерок, 15 четверок, 8 троек и 1 двойка. Сколько бит информации несет сообщение о том, что Иванов получил четверку?

Количественная зависимость между вероятностью события (p) и количество информации сообщения о нем (I)

I = log2 (1/p) = - log2 p

вероятность события         15/30

количество информации в сообщении =log2(30/15)=log22=1.

 

Ответ:1 бит.

Использование формулы  Шеннона. Общий случай вычисления количества информации в сообщении об одном из N, но уже неравновероятных событий. Этот подход был предложен К.Шенноном в 1948 году.

Основные информационные единицы:

Iср -  количество бит информации, приходящееся в среднем на одну букву;

M  - количество символов в сообщении

I – информационный объем сообщения

pi -вероятность появления i символа в сообщении; i - номер символа; 

 

 

 

Iср = -   
 


Значение  Iср достигает максимума при равновероятных событиях, то есть при равенстве всех pi                             pi = 1 / N.

В этом случае формула Шеннона превращается в формулу Хартли.

Пример 3. Сколько бит информации несет случайно сгенерированное сообщение «фара», если в среднем на каждую тысячу букв в русских текстах буква «а» встречается 200 раз, буква «ф» - 2 раза, буква «р» - 40 раз.

Будем считать, что вероятность появления символа в сообщении совпадает с  частотой  его появления в текстах. Поэтому буква «а» встречается со средней  частотой 200/1000=0,2; Вероятность появления буквы “а” в тексте (pa)можем считать приблизительно равной 0,2;

 буква «ф» встречается с частотой 2/1000=0,002; буква «р» - с частотой 40/1000=0,04;  

Аналогично, pр = 0,04, pф = 0,002. Далее поступаем согласно К.Шеннону. Берем двоичный логарифм от величины 0,2 и называем то, что получилось количеством информации, которую переносит одна-единственная буква “а” в рассматриваемом тексте. Точно такую же операцию проделаем для каждой буквы. Тогда количество собственной информации, переносимой одной буквой равно log2 1/pi = - log2 pi, Удобнее в качестве меры количества информации пользоваться средним значением количества информации, приходящейся на один символ алфавита

 

Iср = -   


Значение  Iср достигает максимума при равновероятных событиях, то есть при равенстве всех pi

pi = 1 / N.

В этом случае формула Шеннона превращается в формулу Хартли.

 

I = M*Iср=4*(-(0,002*log20,002+0,2* log20,2+0,04* log20,04+0,2* log20,2))=4*(-(0,002*(-8,967)+0,2*(-2,322)+0,04*(-4,644)+0,2*(-2,322)))=4*(-(-0,018-0,46-0,19-0,46))=4*1,1325=4,53

Ответ: 4,53 бита

Алфавитный подход к измерению информации

Алфавитный подход используется в технике, в данном случае количество информации не зависит от содержания, а зависит от мощности алфавита и количества символов в тексте.

Iсооб - объем информации  в сообщении

Iсооб= K* I 

К - количество символов  в  сообщении

I Информационный  объем одного символа

Для кодировки ASCII – мощность алфавита=256

I=log2256=8(бит); При кодировании символьной информации в кодах каждый символ, включая пробелы и знаки препинания, кодируется 1 байтом (8 битами).

Единицы измерения информации в вычислительной технике

 

1 бит (технический подход)

минимальная единица измерения информации

количество информации измеряется только целым числом бит

1 байт

= 8 бит

 

1 Кбайт (килобайт)

= 210 байт = 1024 байт

~ 1 тысяча байт

1 Мбайт (мегабайт)

= 210 Кбайт = 220 байт

~ 1 миллион байт

1 Гбайт (гигабайт)

= 210 Мбайт = 230 байт

~ 1 миллиард байт

 

 

 

 

 

 

 

 

 

Конструктор сайтов - uCoz