Студопедия

КАТЕГОРИИ:

Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Энтропия непрерывной случайной величины

⇐ ПредыдущаяСтр 2 из 6Следующая ⇒

В каналах передачи информации часто используются сигналы, мгновенные значения которых могут принимать любые значения на некотором интервале (речевые, музыкальные, телевизионные сигналы и т.д.)

Распространим понятие энтропии на случай непрерывной случайной величины (см. рис. 2.2)

Рис. 2.2

Вероятность попадания сигнала в промежуток x…x+dx равна

Таким образом:

(2.11)

Вторая составляющая (2.11) при переходе к пределу превращается
в ∞. Таким образом, энтропия непрерывной случайной величины равна ∞. В связи с этим может возникнуть сомнение в целесообразности энтропийного принципа измерения информации применительно к непрерывно распределенным сигналам. Однако, с теоретической точки зрения эта трудность не является принципиальной. Дело в том, что второе слагаемое выражения (2.11) не зависит от вероятностных характеристик случайной величины, иными словами, второе слагаемое с точностью до бесконечно малой величины одинаково для всех случайных величин. Поскольку в реальных каналах всегда имеют место шумы и вычисление информационных характеристик каналов сводится к определению разности энтропии сигнала и шума, в результате вычитания составляющие энтропии вида и взаимно уничтожаются.

При рассмотрении экспериментальных данных дело упрощается еще и тем, что элементы Δх остаются конечными, поскольку эти величины определяются разрешающей способностью измерительных приборов, которая не может быть бесконечной.

Так как при вычислении разности энтропий второе слагаемое выражения (2.11) не представляет интереса, используют только первую составляющую выражения (2.11).

, (2.12)

которое называется приведенной или относительной энтропией.

Поскольку выражения для приведенной энтропии непрерывной случайной величины и энтропии дискретной случайной величины аналогичны, очевидно, что приведенная энтропия достигает максимума при равновероятном распределении состояний.

Известно, что при фиксированной дисперсии энтропия максимальна при нормальном законе распределения, т.е. непрерывная случайная величина с фиксированной дисперсией и нормальным распределением обладает максимальной информативностью.

Приведенная энтропия нормально распределенной случайной величины

(2.13)

Частная и средняя взаимные энтропии непрерывного сигнала

Проделав преобразования, аналогичные тем, которые были проделаны для дискретного сигнала, можно получить следующие выражения для взаимной информации непрерывного сигнала:

1. информация от события к событию

2. частная информация

3. полная (средняя) информация

Литература:

[1] стр. 136-138. [2] стр. 245-249. [3] стр. 112-114.

Контрольные вопросы:

1. Почему энтропия непрерывной системы описывается приведенной энтропией?

2. Что такое дифференциальная энтропия?

3. Чем отличается дифференциальная энтропия от обычной энтропии?

4. Как влияет точность отсчета на дифференциальную энтропию?

5. При каком распределении дифференциальная энтропия максимальна для сигналов одинаковой средней мощности?

Источники информации

Источниками сообщений могут быть объекты, состояние которых определяется некоторым физическим процессом, происходящим во времени или в пространстве. К источникам сообщений с пространственным распределением носителя информации относятся книги, картины, грампластинки и т.д. При передаче информации происходит, как правило, преобразование пространственного распределения во временное.

Источники информации могут быть дискретными и непрерывными.

По характеру работы источники делятся на две группы: с регулируемой и с нерегулируемой производительностью (скоростью выработки информации). К первой группе относятся источники с памятью, выдающие информацию в зависимости от режима работы кодопреобразователя или по запросу. Ко второй группе относятся источники без памяти.

Пусть дискретный источник сообщений вырабатывает некоторую последовательность символов, причем порядок следования этих символов случаен и характеризуется некоторой совокупностью вероятностей.

В самом простом случае для описания процессов достаточно только безусловных вероятностей символов. В более общем случае, когда вероятность появления символа зависит от того, каким были предыдущие, необходимо знать условные вероятности.

Дискретная последовательность, в которой вероятность появления символа зависит только от того, каким был предыдущий, называется простой цепью Маркова. Если коррелятивные связи простираются на большее (но конечное) число символов, процесс называется сложной цепью Маркова.

Для простой цепи Маркова

Для последовательности не связанных между собой вероятностью символов

Поскольку безусловная энтропия при заданных безусловных вероятностях больше любой условной, количество информации сообщения, приходящееся на один символ, достигает максимума в случае отсутствия корреляционных связей в сообщении.

Безусловная энтропия имеет максимальное значение при равновероятности всех символов. Итак, максимальное значение энтропии на символ имеет место в том случае, когда, во-первых, между символами отсутствуют вероятностные связи, а, во-вторых, когда все символы алфавита равновероятны. Определенное таким образом максимальное значение энтропии источника называется информационной емкостью источника. Информационная емкость источника, использующего алфавит с основанием L

Для характеристики использования символов в сообщении введен параметр, называемый избыточностью.

. (2.14)

Величину называют коэффициентом сжатия = М, Н(х) – энтропия на один символ сообщения.

Избыточность приводит к увеличению времени передачи информации, излишней загрузке канала связи. Имеется и определенная избыточность в русском языке и в европейских языках. Приведем таблицы относительной частоты появления букв (вероятности) в русском и английском языках.

Вероятность появления букв в русском тексте

Буква	- (пробел)	о	е, ё	а, и	т, н	с	р	в	л
Вероятность	0,175	0,090	0,072	0,062	0,053	0,045	0,040	0,038	0,035
Буква	к	м	д	п	у	я	ы, з	ь, ъ	б
Вероятность	0,028	0,026	0,025	0,023	0,021	0,018	0,016	0,014	0,014
Буква	г	ч	й	х	ж	ю, ш	ц	щ, э	ф
Вероятность	0,013	0,012	0,010	0,009	0,007	0,006	0,004	0,003	0,002

Вероятность появления букв в английском тексте

Буква	- (пробел)	e	t	o	a	n	i	r	s
Вероятность	0,200	0,105	0,072	0,065	0,063	0,059	0,055	0,054	0,052
Буква	h	d	l	c	f, u	m	p	y, w	g
Вероятность	0,047	0,035	0,029	0,023	0,022	0,021	0,018	0,012	0,011
Буква	b	v	k	x	j	q	z
Вероятность	0,010	0,008	0,003	0,002	0,001	0,001	0,001

Русский язык содержит 31 букву (е и ё, ь и ъ – не различаем). С учетом пробела (-) между буквами – 32 символа.

При условии равновероятности и независимости символов средняя энтропия на символ будет максимальной

Н(х)_max = log₂32 = 5 ( в английском языке Н_max = 4,75 ).

Если учесть различную вероятность символов, то

Н₁(х) = 4,39 (в английском языке Н₁ = 4,03 ).

С учетом корреляции между двумя символами энтропия уменьшается

Н₂(х) = 3,52 (в английском языке Н₂ = 3,52 ),

между тремя символами:

Н₃(х) = 3,00 (в английском языке Н₃ = 3,10 ),

между восьмью символами:

Н₈(х) = 2,00 (в английском языке Н₈ = 1,86 )

и дальше остается неизменной, следовательно, избыточность русского языка:

в английском языке:

Во всех европейских языках избыточность примерно одинакова.

Избыточность разговорных языков сформировалась в результате очень длительной общественной практики и позволяет восстанавливать целые слова и фразы при их искажениях под воздействием различных мешающих факторов.

Еще источники информации оцениваются по количеству информации, вырабатываемой в единицу времени:

, (2.15)

где - средняя длина символа.

Например, для простого марковского источника

где τ_k - длительность k-го символа;

Р(x_k/x_i) – вероятность выработки k-го символа при условии, что предыдущим был i-й символ.

Величину называют скоростью создания сообщений, производительностью источника, а также потоком сообщений.

Для получения возможно большей скорости создания сообщений, необходимо, во-первых, обеспечить возможно большую энтропию на символ, а, во-вторых, уменьшить до возможных пределов среднюю длительность символов.

Литература:

[1] стр. 128-130. [2] стр. 222-224.

Контрольные вопросы:

1. Чем определяется информационная емкость источника? Чему она равна для русского языка?

2. От чего зависит избыточность источника?

3. Что такое производительность источника?

4. Как повысить скорость создания сообщений?

⇐ Предыдущая 123 4 5 6 Следующая ⇒

Последнее изменение этой страницы: 2018-05-10; просмотров: 279.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...