60. Измерение информации – вероятностный и алфавитный подходы. Формулы Хартли, Шеннона. Пример в MS Exсel.
С точки зрения на информацию, как на снятую неопределеность, количество информации в сообщении о каком-то событии зависит от вероятности совершения данного события. Научный подход к оценке сообщений был предложен еще в 1928 году Р. Хартли. Расчетная формула Хартли для равновероятностных событий имеет вид: I = log2 N или 2I = N, где N - количество равновероятных событий (число возможных выборов), I - количество информации. Если N = 2 (выбор из двух возможностей), то I = 1 бит. Пример 1. Использование формулы Хартли для вычисления количества информации. Сколько бит информации несет сообщение о том, что поезд прибывает на один из 8 путей? Формула Хартли: I = log2N, где N – число равновероятностных исходов события, о котором речь идет в сообщении, I – количество информации в сообщении. I = log28 = 3(бит) Ответ: 3 бита.
Модифицированная формула Хартли для неравновероятностных событий. Так как наступление каждого из N возможных событий имеет одинаковую вероятность p = 1 / N, то N = 1 / p и формула имеет вид I = log2N= log2 (1/p) = - log2 p Количественная зависимость между вероятностью события (p) и количеством информации в сообщении о нем (I) выражается формулой: I = log2(1/p) Вероятность события вычисляется по формуле p=K/N, K – величина, показывающая, сколько раз произошло интересующее нас событие; N – общее число возможных исходов, событий. Если вероятность уменьшается, то количество информации увеличивается. Пример 2. В классе 30 человек. За контрольную работу по математике получено 6 пятерок, 15 четверок, 8 троек и 1 двойка. Сколько бит информации несет сообщение о том, что Иванов получил четверку?
Ответ:1 бит. Использование формулы Шеннона. Общий случай вычисления количества информации в сообщении об одном из N, но уже неравновероятных событий. Этот подход был предложен К.Шенноном в 1948 году. Основные информационные единицы:
Iср = - Значение Iср достигает максимума при равновероятных событиях, то есть при равенстве всех pi pi = 1 / N. В этом случае формула Шеннона превращается в формулу Хартли. Пример 3. Сколько бит информации несет случайно сгенерированное сообщение «фара», если в среднем на каждую тысячу букв в русских текстах буква «а» встречается 200 раз, буква «ф» - 2 раза, буква «р» - 40 раз. Будем считать, что вероятность появления символа в сообщении совпадает с частотой его появления в текстах. Поэтому буква «а» встречается со средней частотой 200/1000=0,2; Вероятность появления буквы “а” в тексте (pa)можем считать приблизительно равной 0,2; буква «ф» встречается с частотой 2/1000=0,002; буква «р» - с частотой 40/1000=0,04; Аналогично, pр = 0,04, pф = 0,002. Далее поступаем согласно К.Шеннону. Берем двоичный логарифм от величины 0,2 и называем то, что получилось количеством информации, которую переносит одна-единственная буква “а” в рассматриваемом тексте. Точно такую же операцию проделаем для каждой буквы. Тогда количество собственной информации, переносимой одной буквой равно log2 1/pi = - log2 pi, Удобнее в качестве меры количества информации пользоваться средним значением количества информации, приходящейся на один символ алфавита
Iср = - Значение Iср достигает максимума при равновероятных событиях, то есть при равенстве всех pi pi = 1 / N. В этом случае формула Шеннона превращается в формулу Хартли.
I = M*Iср=4*(-(0,002*log20,002+0,2* log20,2+0,04* log20,04+0,2* log20,2))=4*(-(0,002*(-8,967)+0,2*(-2,322)+0,04*(-4,644)+0,2*(-2,322)))=4*(-(-0,018-0,46-0,19-0,46))=4*1,1325=4,53 Ответ: 4,53 бита Алфавитный подход к измерению информацииАлфавитный подход используется в технике, в данном случае количество информации не зависит от содержания, а зависит от мощности алфавита и количества символов в тексте.
Для кодировки ASCII – мощность алфавита=256 I=log2256=8(бит); При кодировании символьной информации в кодах каждый символ, включая пробелы и знаки препинания, кодируется 1 байтом (8 битами). Единицы измерения информации в вычислительной технике
|
|