• Авторизация


Что есть речь и зачем ее сжимать (02) 17-07-2009 17:27 к комментариям - к полной версии - понравилось!


Теперь о сжатии. Зачем сжимать оцифрованную речь? Речь, как и любые оцифрованные данные, занимает определенный объем. Один и тот же исходный сигнал, в разном цифровом представлении может занимать разный объем. Сейчас я это продемонстрирую. Если кому-то непонятны способы представления речевых данных в цифровом виде, не волнуйтесь, впоследствии я расскажу, как оцифровывается речевой сигнал в современных устройствах, а пока просто примите это как должное.
Итак, имеется звуковая волна. Ее длительность равно времени T, а максимальная амплитуда Amax.
При оцифровке происходит квантование по времени и по уровню. То есть через некоторые интервалы времени берутся значения амплитуды и сохраняются в цифровом виде последовательно.
Предположим. наш сигнал нормирован по значению (если непонятно, что такое нормирован, я расскажу, спрашивайте) и значения эти оцифровываются с помощью восьми разрядного АЦП (аналого-цифрового преобразователя, ADC).

см. рисунок

На выходе получаем последовательность чисел (очень условно):
0, 70,125, 150, 160, 150, 140, 150, 170, 210, 240, 256(max), 240, 220, 180, 140, 70, 40, 0
На представление каждого числа расходуется 8 бит (помните, АЦП восьмиразрядный). Таким образом на весь временной участок расходуется

20 х 8 = 160 бит.

А теперь поступим следующим образом. Мы будем сохранять не сами значения, а разницу между ними. Получается следующая последовательнрость чисел:
70, 55, 25, 10, -10, -10, 10, 20, 40, 30, 16, -16, -20, -40, -70, -30, -40
Максимальное число в этой последовательности - 70, а это значит что для цифрового представления значений этой последовательности 8 бит уже не нужны, достаточно будет 7 бит, и вся последовательность займет

20 х 7 = 140 бит.

Вы скажете, ну понятно, что разными представлениями можно получить разный объем данных и собственно сжатие это как раз и есть поиск представления с меньшим объемом данных, чем исходное, но зачем все это нужно? А затем, что на меньший объем данных расходуется меньше физической памяти, меньший объем данных быстрее передается по каналам связи и в результате на тех же самых вычислительных мощностях можно построить более производительную систему.
Предвижу дальнейшие возражения. Современные каналы связи обладают просто огромными скоростями и для передачи речи их более чем достаточно. Видео уже все на YouTube смотрим практически без задержек, Skype пользуемся, видеоконференциями. Все уже придумано, куда уж дальше?
Приведу небольшой пример. Мобильник есть у каждого? Там речь передается по протоколу GSM. Кроме разговоров, многие пользуются мобильным интернетом - GPRS или даже 3G. Сейчас интернет и разговоры разделены на разные протоколы и друг на друга практически не влияют (если я ошибаюсь, поправьте меня, я не сильно разбираюсь в особенностях современных сотовых сетей). Но вот дальше... Уже принят и, скорее всего, всоре будет внедрен протокол LTE, уже из поколения 4G, а он подразумевает передачу речи и данных одинаковым способом. Таким образом, зависимость объема данных и пропускной способности канала становится совершенно линейной, и, сжав именно речевые данные (как наиболее часто используемые, ведь разговаривали, разговаривают и будут разговаривать), можно получить большее количество обслуженных абонентов на заданных мощностях.
Вот тут то и понадобятся новые, более производительные алгоритмы сжатия речи.
О как расписал, почти, что Новые Васюки Speech Style получились.
На сегодня хватит. Продолжение следует.

P.S.
Данный текст ни в коем разе не претендует на какую-либо научность. Он написан с целью в общих чертах познакомить читателя с задачей сжатия речи и содержит множество неточностей и упрощений. Для более серьезного понимания вопроса обращайтесь к специализированной литературе.
[698x410]
вверх^ к полной версии понравилось! в evernote


Вы сейчас не можете прокомментировать это сообщение.

Дневник Что есть речь и зачем ее сжимать (02) | Eugene_Pichugin - Настоящий джентльмен и программист... | Лента друзей Eugene_Pichugin / Полная версия Добавить в друзья Страницы: раньше»