Introducing 

Prezi AI.

Your new presentation assistant.

Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.

Loading…
Transcript

Кодирование

Текстовой

Информации

Unicode — стандарт кодирования символов, включающий в себя знаки почти всех письменных языков мира. В настоящее время стандарт является доминирующим в Интернете.

Unicode

История

В 1980-х годах интернет был на стадии стремительного развития и стал активно распространяться за пределы англоговорящих стран. В связи с этим в мире появилось множество альтернатив американской кодировки, поскольку каждой письменности необходимо место в кодовой таблицы. Из-за большого количества различных кодировок появилась проблема некорректного отображения символов у пользователей интернета из разных стран. Для решения этой проблемы в 1991 году был принят универсальный стандарт кодирования Unicode.

История

Представление текста в Unicode

Unicode является системой линейного представления текста. Поэтому, если символ содержит надстрочный, подстрочный или какой-либо другой дополнительный элемент, то этот символ представляется в виде определенной последовательности кодов, который называется составной вариант. Так же есть возможность представить этот символ в виде одного кода, тогда получается монолитный вариант. Например немецкая буква Ü содержит дополнительный элемент в виде двух точек над буквой U.

В состав Unicode входит два главных раздела: универсальный состав символов (Universal Character Set, сокращенно UCS) и семейство кодировок (Unicode Transformation Format, сокращенно UTF). Коды в Unicode разбиты на некоторое количество областей. Например символы американской стандартной кодировочной таблицы (American Standard Code for Information Interchange, сокращенно ASCII) входят в область от U+0000 до U+007F. В следующих областях находятся знаки разных письменностей, пунктуационные знаки, а так же различные технические символы.

Состав

стандарта

UCS

UCS (Universal character set) - представляет собой стандартный набор символов, определенный международным стандартом ISO/IEC 10646, который является основой многих символьных кодировок. UCS содержит чуть более 128 000 абстрактных символов, как и в Unicode 9.0, каждый из которых определяется однозначно сочетанием имени и целого числа (так называемый кодовый пункт).

UTF

UTF (Unicode Transformation Format) - распространённый стандарт кодирования текста, позволяющий более компактно хранить и передавать символы Юникода, используя переменное количество байт (от 1 до 4), и обеспечивающий полную обратную совместимость с 7-битной кодировкой ASCII. Стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. Кодировка UTF-8 сейчас является доминирующей в веб-пространстве. Она также нашла широкое применение в UNIX-подобных операционных системах. Формат UTF-8 был разработан 2 сентября 1992 года Кеном Томпсоном и Робом Пайком, и реализован в Plan 9. Идентификатор кодировки в Windows – 65001.

Формат согласно которому численное представление символов будет преобразоваться в байты, определяется Unicode-кодировками. Самые известные и распространенные из них UTF-8, UTF-16, UTF-32. Для примера: UTF-8 представление Unicode сделано с целью совместимости с устаревшими 8-битными кодовыми таблицами.

Unicode

кодировки

Таблица

символов

В настоящее время количество символов в Unicode составляет 137 439

Что нужно

знать

при решении

задач

Что нужно знать:

  • все символы кодируются одинаковым числом бит (алфавитный подход)
  • чаще всего используют кодировки, в которых на символ отводится 8 бит (8-битные) или 16 бит (16-битные)
  • при измерении количества информации принимается, что в одном байте 8 бит, а в одном килобайте (1 Кбайт) – 1024 байта, в мегабайте (1 Мбайт) – 1024 Кбайта
  • после знака препинания внутри (не в конце!) текста ставится пробел
  • чтобы найти информационный объем текста I , нужно умножить количество символов N на число бит на символ K : I=N*K

Вопросы

1. В каком году был введен стандарт Unicode?

2. Сколько символов в Unicode(Примерно).

3. Два главных состава Unicode?

Задачи

1.Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке, первоначально записанного в 16-битном коде Unicode, в 8-битную кодировку КОИ-8. При этом информационное сообщение уменьшилось на 800 бит. Какова длина сообщения в символах?

1) 50 2) 100 3) 400 4) 800

2.Автоматическое устройство осуществило перекодировку информационного сообщения длиной 48 символов, первоначально записанного в 7–битном коде ASCII, в 16–битную кодировку Unicode.

При этом информационное сообщение увеличилось на

1) 48 байт 2) 96 байт 3) 54 байт 4) 432 байт

3.Автоматическое устройство осуществило перекодировку информационного сообщения, первоначально записанного в 7-битном коде ASCII, в 16-битную кодировку Unicode. При этом информационное сообщение увеличилось на 108 бит.

Какова длина сообщения в символах?

1) 12 2) 27 3) 6 4) 62

Задача 1

Решение к задаче 1:

Изменение кодировки с 16 бит на 8 бит, равно 16 - 8 = 8 бит .Следовательно информационный объем каждого символа сообщения уменьшился на 8 бит. Так как объем информационного сообщения уменьшился на 800 бит, следовательно количество символов в сообщение равно 800/8=100.

Ответ: Длина сообщения - 100 символов.

Задача 2

Решение к задаче 2:

Изменение кодировки с 7 бит на 16 бит, равно 16 - 7 = 9 бит. Следовательно информационный объем каждого символа сообщения увеличился на 9 бит.Так как длина сообщения равна 48 символов, информационное сообщение увеличилось на 48 * 9 = 432 бита. Следовательно переведем биты в байты - 432/8 = 54 байта.

Ответ: Информационное сообщение увеличилось на 54 байта.

Задача 3

Решение к задаче 3:

Изменение кодировки с 7 бит на 16 бит, равно 16 - 7 = 9 бит. Следовательно информационный объем каждого символа сообщения увеличился на 9 бит. По условиям задачи информационный объем сообщения после кодировки составил 108 бит, следовательно количество символов сообщения = 108/9 = 12.

Ответ: длина сообщения 12 символов.

Learn more about creating dynamic, engaging presentations with Prezi