60. Измерение информации – вероятностный и алфавитный подходы. Формулы Хартли, Шеннона. Пример в MS Exсel.
С точки зрения на информацию, как на снятую неопределеность, количество информации в сообщении о каком-то событии зависит от вероятности совершения данного события.
Научный подход к оценке сообщений был предложен еще в 1928 году Р. Хартли. Расчетная формула Хартли для равновероятностных событий имеет вид:
I = log2 N или 2I = N,
где N - количество равновероятных событий (число возможных выборов), I - количество информации.
Если N = 2 (выбор из двух возможностей), то I = 1 бит.
Пример 1. Использование формулы Хартли для вычисления количества информации. Сколько бит информации несет сообщение о том, что
поезд прибывает на один из 8 путей?
Формула Хартли: I = log2N,
где N – число равновероятностных исходов события, о котором речь идет в сообщении,
I – количество информации в сообщении.
I = log28 = 3(бит) Ответ: 3 бита.
Модифицированная формула Хартли для неравновероятностных событий. Так как наступление каждого из N возможных событий имеет одинаковую вероятность
p = 1 / N, то N = 1 / p и формула имеет вид
I = log2N= log2 (1/p) = - log2 p
Количественная зависимость между вероятностью события (p) и количеством информации в сообщении о нем (I) выражается формулой:
I = log2(1/p)
Вероятность события вычисляется по формуле p=K/N, K – величина, показывающая, сколько раз произошло интересующее нас событие; N – общее число возможных исходов, событий. Если вероятность уменьшается, то количество информации увеличивается.
Пример 2. В классе 30 человек. За контрольную работу по математике получено 6 пятерок, 15 четверок, 8 троек и 1 двойка. Сколько бит информации несет сообщение о том, что Иванов получил четверку?
Количественная зависимость между вероятностью события (p) и количество информации сообщения о нем (I) | |
I = log2 (1/p) = - log2 p | |
вероятность события 15/30 количество информации в сообщении =log2(30/15)=log22=1. |
|
Ответ:1 бит.
Использование формулы Шеннона. Общий случай вычисления количества информации в сообщении об одном из N, но уже неравновероятных событий. Этот подход был предложен К.Шенноном в 1948 году.
Основные информационные единицы:
Iср - количество бит информации, приходящееся в среднем на одну букву; M - количество символов в сообщении I – информационный объем сообщения pi -вероятность появления i символа в сообщении; i - номер символа; |
Iср = -
Значение Iср достигает максимума при равновероятных событиях, то есть при равенстве всех pi pi = 1 / N.
В этом случае формула Шеннона превращается в формулу Хартли.
Пример 3. Сколько бит информации несет случайно сгенерированное сообщение «фара», если в среднем на каждую тысячу букв в русских текстах буква «а» встречается 200 раз, буква «ф» - 2 раза, буква «р» - 40 раз.
Будем считать, что вероятность появления символа в сообщении совпадает с частотой его появления в текстах. Поэтому буква «а» встречается со средней частотой 200/1000=0,2; Вероятность появления буквы “а” в тексте (pa)можем считать приблизительно равной 0,2;
буква «ф» встречается с частотой 2/1000=0,002; буква «р» - с частотой 40/1000=0,04;
Аналогично, pр = 0,04, pф = 0,002. Далее поступаем согласно К.Шеннону. Берем двоичный логарифм от величины 0,2 и называем то, что получилось количеством информации, которую переносит одна-единственная буква “а” в рассматриваемом тексте. Точно такую же операцию проделаем для каждой буквы. Тогда количество собственной информации, переносимой одной буквой равно log2 1/pi = - log2 pi, Удобнее в качестве меры количества информации пользоваться средним значением количества информации, приходящейся на один символ алфавита
Iср = -
Значение Iср достигает максимума при равновероятных событиях, то есть при равенстве всех pi
pi = 1 / N.
В этом случае формула Шеннона превращается в формулу Хартли.
I = M*Iср=4*(-(0,002*log20,002+0,2* log20,2+0,04* log20,04+0,2* log20,2))=4*(-(0,002*(-8,967)+0,2*(-2,322)+0,04*(-4,644)+0,2*(-2,322)))=4*(-(-0,018-0,46-0,19-0,46))=4*1,1325=4,53
Ответ: 4,53 бита
Алфавитный подход к измерению информации
Алфавитный подход используется в технике, в данном случае количество информации не зависит от содержания, а зависит от мощности алфавита и количества символов в тексте.
Iсооб - объем информации в сообщении | Iсооб= K* I К - количество символов в сообщении I Информационный объем одного символа |
Для кодировки ASCII – мощность алфавита=256
I=log2256=8(бит); При кодировании символьной информации в кодах каждый символ, включая пробелы и знаки препинания, кодируется 1 байтом (8 битами).
Единицы измерения информации в вычислительной технике
1 бит (технический подход) | минимальная единица измерения информации | количество информации измеряется только целым числом бит |
1 байт | = 8 бит |
|
1 Кбайт (килобайт) | = 210 байт = 1024 байт | ~ 1 тысяча байт |
1 Мбайт (мегабайт) | = 210 Кбайт = 220 байт | ~ 1 миллион байт |
1 Гбайт (гигабайт) | = 210 Мбайт = 230 байт | ~ 1 миллиард байт |