Unicode и UTF-8

Anonim

Unicode против UTF-8

Разработка Unicode была нацелена на создание нового стандарта для сопоставления символов на подавляющем большинстве языков, которые используются сегодня, наряду с другими символами, которые не являются существенными, но могут быть необходимы для создания текста. UTF-8 является лишь одним из многих способов кодирования файлов, поскольку существует много способов кодирования символов внутри файла в Unicode.

UTF-8 был разработан с учетом совместимости. ASCII был очень заметным стандартом, и люди, у которых уже есть свои файлы в стандарте ASCII, могут колебаться в принятии Unicode, потому что это нарушит их существующие системы. UTF-8 устранил эту проблему, поскольку любой файл, закодированный, который имеет только символы в наборе символов ASCII, приведет к идентичному файлу, как если бы он был закодирован с помощью ASCII. Это позволило людям использовать Unicode без необходимости конвертировать свои файлы или даже менять свое прежнее программное обеспечение, которое не знало стандарт Unicode. Любой из других методов сопоставления для Unicode нарушает совместимость с ASCII и заставит людей конвертировать свою систему.

Соблюдение совместимости с ASCII UTF-8 создает побочный эффект, который делает его идеальным для обработки текстов, где большую часть времени все используемые символы включены в набор символов ASCII. UTF-8 использует только байт, чтобы представлять каждую точку кода, что приводит к размеру файла, равному половине того же файла, закодированного в UT-16, который использует 2 байта, и четверть того же файла, закодированного в UTF-32, который использует 4.

UTF-8 был принят во Всемирной паутине, поскольку он эффективен как по площади, так и по байтам. Веб-страницы часто представляют собой простые текстовые файлы, которые обычно не содержат символов, находящихся за пределами набора символов ASCII. Использование других методов кодирования только увеличило бы нагрузку на сеть без какой-либо выгоды. Даже в системах транспорта электронной почты UTF-8 медленно, но верно принимается в качестве замены более старых систем кодирования, которые все еще используются.

Резюме: 1. Unicode является стандартом для компьютеров для отображения и управления текстом, в то время как UTF-8 является одним из многих методов сопоставления для Unicode 2. UTF-8 - это метод отображения, который сохраняет совместимость со старым ASCII 3. UTF-8 является наиболее эффективным методом отображения пространства для Unicode по сравнению с другими методами кодирования 4. UTF-8 является наиболее используемым стандартом Unicode для Интернета