Дискретное представление информации
Вся информация, которую обрабатывает компьютер, должна
быть представлена двоичным кодом с помощью двух цифр 0 и 1. Эти два символа
принято называть двоичными цифрами или битами. С помощью двух цифр 0 и 1 можно закодировать
любое сообщение. Это явилось причиной того, что в компьютере обязательно должно
быть организованно два важных процесса: кодирование и декодирование.
Кодирование – преобразование входной информации в форму, воспринимаемую
компьютером, то есть двоичный код.
Декодирование – преобразование данных из двоичного кода в форму, понятную человеку.
С точки зрения технической реализации
использование двоичной системы счисления для кодирования информации оказалось
намного более простым, чем применение других способов. действительно, удобно
кодировать информацию в виде последовательности нулей и единиц, если
представить эти значения как два возможных устойчивых состояния электронного
элемента:
0
– отсутствие электрического сигнала;
1
– наличие электрического сигнала.
Эти состояния легко различать. Недостаток двоичного
кодирования – длинные коды. но в технике легче иметь дело с большим количеством
простых элементов, чем с небольшим числом сложных.
Способы кодирования и декодирования информации в компьютере,
в первую очередь, зависит от вида информации, а именно, что должно
кодироваться: числа, текст, графические изображения или звук.
Аналоговый и дискретный способ кодирования
Человек способен воспринимать и хранить информацию в
форме образов (зрительных, звуковых, осязательных, вкусовых и обонятельных).
Зрительные образы могут быть сохранены в виде изображений (рисунков, фотографий
и так далее), а звуковые – зафиксированы на пластинках, магнитных лентах,
лазерных дисках и так далее.
Информация, в том числе графическая и звуковая, может
быть представлена в аналоговой или дискретной форме. При аналоговом
представлении физическая величина принимает бесконечное множество значений,
причем ее значения изменяются непрерывно. При дискретном представлении физическая
величина принимает конечное множество значений, причем ее величина изменяется
скачкообразно.
Примером аналогового представления графической
информации может служить, например, живописное полотно, цвет которого
изменяется непрерывно, а дискретного – изображение, напечатанное с помощью
струйного принтера и состоящее из отдельных точек разного цвета. Примером
аналогового хранения звуковой информации является виниловая пластинка (звуковая
дорожка изменяет свою форму непрерывно), а дискретного – аудиокомпакт-диск
(звуковая дорожка которого содержит участки с различной отражающей
способностью).
Преобразование графической и звуковой информации из
аналоговой формы в дискретную производится путем дискретизации, то есть
разбиения непрерывного графического изображения и непрерывного (аналогового)
звукового сигнала на отдельные Элементы. В процессе
дискретизаЦии производится кодирование, то есть присвоение каждому элементу
конкретного значения в форме кода.
Дискретизация – это преобразование непрерывных изображений и звука в набор
дискретных значений в форме кодов.
Кодирование текстовой информации
|
|
|
С точки зрения ЭВМ текст состоит из отдельных
символов. К числу символов принадлежат не только буквы (заглавные или
строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы
типа "=", "(", "&" и т.п. и даже (обратите
особое внимание!) пробелы между словами. Да, не удивляйтесь: пустое место в
тексте тоже должно иметь свое обозначение.
|
Вспомним
некоторые известные нам факты:
Множество символов, с помощью которых записывается
текст, называется алфавитом.
Число символов в алфавите – это его мощность.
Формула определения количества информации: N = 2b,
где N – мощность алфавита (количество
символов),
b –
количество бит (информационный вес символа).
В алфавит мощностью 256 символов можно поместить
практически все необходимые символы. Такой алфавит называется достаточным.
Т.к. 256 = 28, то вес 1 символа – 8 бит.
Единице измерения 8 бит присвоили название 1
байт:
1 байт = 8 бит.
Двоичный код каждого символа в
компьютерном тексте занимает 1 байт памяти.
Каким
же образом текстовая информация представлена в памяти компьютера?
|
|
|
Тексты вводятся в память компьютера с помощью
клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания
и другие символы. В оперативную память они попадают в двоичном коде. Это
значит, что каждый символ представляется 8-разрядным двоичным кодом.
Кодирование заключается в том, что каждому символу
ставится в соответствие уникальный десятичный код от 0 до 255 или
соответствующий ему двоичный код от 00000000 до 11111111. Таким образом,
человек различает символы по их начертанию, а компьютер - по их коду.
|
Удобство побайтового кодирования символов очевидно,
поскольку байт - наименьшая адресуемая часть памяти и, следовательно, процессор
может обратиться к каждому символу отдельно, выполняя обработку текста. С
другой стороны, 256 символов – это вполне достаточное количество для
представления самой разнообразной символьной информации.
Теперь
возникает вопрос, какой именно восьмиразрядный двоичный код поставить в
соответствие каждому символу.
Понятно, что это дело условное, можно придумать множество
способов кодировки.
Все символы компьютерного алфавита пронумерованы от 0
до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000
до 11111111. Этот код просто порядковый номер символа в двоичной системе
счисления.
Таблица,
в которой всем символам компьютерного алфавита поставлены в соответствие
порядковые номера, называется таблицей кодировки.
Для разных типов ЭВМ используются различные таблицы
кодировки.
Международным стандартом для ПК стала таблица ASCII (читается
аски) (Американский стандартный код для информационного обмена).
Таблица кодов ASCII делится на две
части.
Международным стандартом является лишь первая половина
таблицы, т.е. символы с номерами от 0 (00000000), до 127
(01111111).
Структура
таблицы кодировки ASCII
Порядковый номер
|
Код
|
Символ
|
0 - 31
|
00000000 - 00011111
|
Символы с номерами от 0 до 31 принято называть управляющими.
Их функция – управление процессом вывода текста на экран или
печать, подача звукового сигнала, разметка текста и т.п.
|
32 - 127
|
00100000 - 01111111
|
Стандартная часть таблицы (английский). Сюда входят строчные и
прописные буквы латинского алфавита, десятичные цифры, знаки препинания,
всевозможные скобки, коммерческие и другие символы.
Символ 32 - пробел, т.е. пустая позиция в тексте.
Все остальные отражаются определенными знаками.
|
128 - 255
|
10000000 - 11111111
|
Альтернативная часть таблицы (русская).
Вторая половина кодовой таблицы ASCII,
называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая
11111111), может иметь различные варианты, каждый вариант имеет свой номер.
Кодовая страница в первую очередь используется для размещения национальных
алфавитов, отличных от латинского. В русских национальных кодировках в этой
части таблицы размещаются символы русского алфавита.
|
К сожалению, в настоящее время существуют пять
различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за
этого часто возникают проблемы с переносом русского текста с одного компьютера
на другой, из одной программной системы в другую.
Хронологически одним из первых стандартов кодирования
русских букв на компьютерах был КОИ8 ("Код обмена информацией,
8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах
серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных
версиях операционной системы UNIX.
От начала 90-х годов, времени господства операционной
системы MS DOS, остается
кодировка CP866
("CP"
означает "Code Page",
"кодовая страница").
Компьютеры фирмы Apple, работающие под
управлением операционной системы Mac OS, используют свою собственную
кодировку Mac.
Кроме того, Международная организация по
стандартизации (International Standards Organization, ISO)
утвердила в качестве стандарта для русского языка еще одну кодировку под
названием ISO 8859-5.
Наиболее распространенной в настоящее время является
кодировка Microsoft Windows,
обозначаемая сокращением CP1251.
С конца 90-х годов проблема стандартизации символьного
кодирования решается введением нового международного стандарта, который
называется Unicode. Это
16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти.
Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая
кодовая таблица допускает включение до 65536 символов. Полная спецификация
стандарта Unicode включает
в себя все существующие, вымершие и искусственно созданные алфавиты мира, а
также множество математических, музыкальных, химических и прочих символов
Кодирование звука
Использование компьютера для обработки звука началось
позднее, нежели чисел, текстов и графики.
Звук – волна с непрерывно
изменяющейся амплитудой и частотой. чем больше амплитуда, тем он громче для
человека, чем больше частота, тем выше тон.
Звуковые сигналы в окружающем нас мире необычайно
разнообразны. Сложные непрерывные сигналы можно с достаточной точностью
представлять в виде суммы некоторого числа простейших синусоидальных колебаний.
Причем каждое слагаемое, то есть каждая синусоида, может быть точно задана
некоторым набором числовых параметров – амплитуды, фазы и частоты, которые
можно рассматривать как код звука в некоторый момент времени.
В процессе кодирования звукового
сигнала производится его временная дискретизация – непрерывная волна разбивается
на отдельные маленькие временные участки и для каждого такого участка
устанавливается определенная величина амплитуды.
Таким образом, непрерывная
зависимость амплитуды сигнала от времени заменяется на дискретную
последовательность уровней громкости.
Каждому уровню громкости
присваивается его код. Чем большее количество уровней громкости будет выделено
в процессе кодирования, тем большее количество информации будет нести значение
каждого уровня и тем более качественным будет звучание.
Качество двоичного кодирования звука
определяется глубиной кодирования и частотой дискретизации.
Частота дискретизации – количество измерений уровня сигнала в единицу времени.
Количество уровней громкости
определяет глубину кодирования. Современные звуковые карты обеспечивают
16-битную глубину кодирования звука. При этом количество уровней громкости
равно N = 2^16 = 65536.
Практическая работа
Задание №1. Заполните пропуски числами:
14 кбайт = байт = бит
47 кбайт = байт =
бит
124 кбайт = байт = бит
Задание
№4. Определите
объем информации в сообщении:
«Смоленск – город-герой!».
Контрольные вопросы
1.
Что
такое Unicode и каковы
его перспективы?
2.
Сколько
символов можно закодировать с помощью двух байтов?
3.
Чем
отличается непрерывный сигнал от дискретного?
4.
В
чем суть fM-метода
кодирования звука?
5.
В
чем суть WAve-tAble-метода
кодирования звука?
6.
Какие
звуковые форматы вы знаете?
Оставьте свой комментарий
Авторизуйтесь, чтобы задавать вопросы.