Компьютер - сложное устройство, с помощью которого можно создавать, преобразовывать и хранить информацию. Однако ЭВМ работает не совсем понятным для нас способом - графические, текстовые и числовые данные хранятся в виде массивов двоичных чисел. В данной статье мы рассмотрим, как осуществляется кодирование текстовой информации.
То, что для нас является текстом, для ЭВМ - последовательность символов. Каждый символ представляет собой определенный набор нулей и единиц. Под символами подразумеваются не только строчные и прописные буквы латинского алфавита, но также и знаки препинания, арифметические знаки, служебные символы, специальные обозначения и даже пробел.
Двоичное кодирование текстовой информации
При нажатии определенной клавиши на внутренний контроллер посылается электрический сигнал, который преобразовывается в двоичный код. Код сопоставляется с определенным символом, который и выводится на экран. Для представления латинского алфавита в цифровом формате была создана международная система кодирования ASCII. В ней для записи одного символа необходим 1 байт, следовательно, символ состоит из восьмизначной последовательности нулей и единиц. Интервал записи - от 00000000 до 11111111, то есть кодирование текстовой информации при помощи данной системы позволяет представить 256 символов. В большинстве случаев этого бывает достаточно.
ASCII разделена на две части. Первые 127 символов (от 00000000 до 01111111) являются интернациональными и представляют собой специфические символы и буквы английского алфавита. Вторая же часть - расширение (от 10000000 до 11111111) - предназначена для представления национального алфавита, написание которого отлично от латинского.
Кодирование текстовой информации в ASCII построено по принципу возрастающей последовательности, то есть чем больше порядковый номер латинской буквы, тем больше значение ее ASCII-кода. Цифры и русская часть таблицы построены по тому же принципу.
Однако в мире существует еще несколько видов кодировки для букв кириллицы. Самые распространенные - это КОИ-8 (восьмибитная кодировка, применявшаяся уже в 70-х годах на первых руифицированных ОС Unix), ISO 8859-5 (разработанная Международным бюро стандартизации), СР 1251 (кодирование текстовой информации, применяемое в современных ОС Windows), а также 2-байтовая кодировка Unicode, с помощью которой можно представить 65536 знаков. Такое многообразие кодировок обусловлено тем, что все они разрабатывались в разное время, для разных операционных систем и из различных соображений. Из-за этого часто возникают трудности при переносе текста с одного носителя на другой - при несовпадении кодировок пользователь увидит лишь набор непонятных значков. Как можно исправить данную ситуацию? В Word, например, при открытии документа выдается сообщение о проблемах с отображением текста и предлагается несколько вариантов перекодирования.
Итак, кодирование и обработка текстовой информации в недрах компьютера - процесс довольно сложно организованный и трудоемкий. Все символы любого алфавита представляют собой лишь определенную последовательность цифр двоичной системы, одна ячейка - это один байт информации.