Представление текстовых данных
Все используемые способы представления текстовых данных, так или иначе, сводятся к нумерации символов алфавита и хранения полученных целых чисел наравне с обычными числами. Способ нумерации называется кодировкой, а числа - кодами символов.
Для большинства кодировок языков, использующих алфавитную письменность достаточно 127 символов.
Самая распространенная система кодирования латиницы - ASCII - использует 7 бит на символ. В кодировке ASCII (American Standard Code for Information Interchange - Американский стандартный код обмена информацией) все символы латиницы, цифры и большинство распространенных знаков препинания обозначаются кодами от 0 до 127, при этом коды букв расставлены в соответствии с латинским алфавитом. Альтернативная кодировка латиницы - EBCDIC (Extended Binary Coded Decimal Information Code).
Другие алфавиты обычно кодируются более сложным образом: символы алфавита получают коды в диапазоне от 128 до 255, а коды от 0 до 127 соответствуют кодам ASCII. Любой символ этих алфавитов может быть представлен 8-ю битами.
Для представления русского варианта кириллицы существует три основных кодировки: альтернативная (cp866), ср1251 и KOI-8 и ряд менее широко используемых (ISO 8892-5 и др.).
Для японских слоговых азбук, китайской иероглифики приходится использовать многобайтовые кодировки. Распространенное обозначение таких кодировок - DBCS (DoubleByte Character Set -- набор символов, кодируемый двумя байтами).
Двух байтов, в принципе, достаточно, чтобы сформировать единую кодировку для всех современных алфавитов и основных подмножеств иероглифики. Unicode.
Арифметические операции над такими "числами" бессмысленны, зато смысл имеют операции сравнения (для русского алфавита, "а" меньше, чем "б"). Проще всего это делать, если нумерация символов совпадает с их порядком в алфавите, но не для всех кодировок это справедливо. В США, как и в других англоязычных странах, латинский алфавит используется в неизмененном виде, а для передачи звуков, отсутствовавших в оригинальном латинском языке, применяются правила орфографии. Большинство европейских алфавитов обходит проблему несоответствия фонетик путем расширения набора символов латиницы
предыдущаяследующая