Ас этран input must be utf 8 or us ascii windows 1251 given

Отличие utf-8 и windows 1251. Рассмотрим, чем отличаются две кодировки «utf-8 и windows 1251» в теории и на практике. И как победить некоторые проблемы для кириллицы в utf-8!?

  • Самое главное. что нас интересует, как и меня — в чем же отличие кодировок utf-8 и windows 1251. И отличается только кириллица!

    Чем отличаются utf-8 и windows 1251

    UTF-8 — это много-байтовая кодировка, а Windows- 1251 однобайтовая. И более того, отличие только в кириллице.

    Количество байтов кириллицы в UTF-8 будет в 2 раза больше, чем 1). латиницы в UTF-8 и 2). латиницы + кириллицы в Windows- 1251 → пример

    Главное отличие кодировок – это используемый набор символов. В UTF-8 гораздо больше количество символов возможно представить, чем в Windows- 1251. Кодировка Windows- 1251 однобайтовая, т.е. представить в ней можно только 255 символов. Для кириллицы, впрочем, этого вполне достаточно, именно поэтому однобайтовые кодировки до сих пор так массово применяются.

    Что такое кодировка windows 1251

    Windows-1251 – набор символов и кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Пользуется довольно большой популярностью. Windows-1251 выгодно отличается от других 8‑битных кириллических кодировок (таких как CP866, KOI8-R и ISO 8859-5) наличием практически всех символов, использующихся в русской типографике для обычного текста; она также содержит все символы для близких к русскому языку языков: украинского, белорусского, сербского и болгарского.

    Что такое кодировка UTF-8

    UTF-8 – в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста. Нашла широкое применение в операционных системах и веб-пространстве. Текст, состоящий только из символов Юникода с номерами меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байт.

    Символ в кодировке UTF-8 может кодироваться аж 6 байтами (пока используется только 4 и больше не планируется). Для русского языка, например, символ занимает 2 байта. Все символы, которые есть в таблице символов – поддерживаются этой кодировкой. К примеру, если вам нужен знак копирайта (©), то вам не нужно искать особый шрифт или же изображать символов в графическом формате.

  • Пример вывода текста в кодировках utf-8 латиницы

    Когда и если вы прочитали теорию о разнице кодировок utf-8 и windows 1251 — это уже победа!
    смайлы

    А если вы еще и поняли о чем идет речь, то вы вообще Эйнштейн!
    смайлы, то и смысла особого вам читать дальше нет.

    А для всех остальных продолжим…

    Чем отличается текст в кодировках utf-8 и windows 1251

    Теория — это конечно классно и круто, но как обстоит дело на практике!

    Как показать отличие двух кодировок!?

    У нас на сайте основная кодировка utf-8, и мы не напрягаясь можем посмотреть, что творится с текстом в этой кодировке!

    Нам понадобится какой-то текст на латинице:

    И… нам нужно такое слово, чтобы имело одинаковое количество букв в слове, ну пусть это будет моё имя…

    Пусть это будет слово — «Marat!»

    Далее нам потребуется функция var_dump.

    И выведем прямо здесь вот такую конструкцию :

    var_dump(‘Marat’);

    Результат:

    string(5) «Marat»

    Что мы здесь можем прочитать!?

    Что это строка, и что в ней 5 элементов.

  • Пример вывода текста в кодировках utf-8 кириллицы

    Теперь, проделаем тоже самое со строкой на кириллице:

    У нас все таже кодировка utf-8.

    Но теперь нам понадобится текст на кириллице:

    Пусть это будет слово — «Марат!»

    Опять var_dump.

    И выведем прямо здесь вот такую конструкцию :

    var_dump(‘Марат’);

    Результат:

    string(10) «Марат»

    И что мы здесь видим!?

    Что количество элементов в строке 10… Если вы читали теорию внимательно, то вот вам показатель того, что одна буква состоит из двух символов, а латиницы это не касается…!

    Поэтому, и возникают проблемы с текстом в кодировке utf-8 кириллицы, множество функций тупо не работают.

    Как пример…как-то я задолбался со strtolower в utf-8 для кириллицы, что решил написать собственную функцию strtolower, чтобы каждый раз не городить этажерку из нескольких функций…

  • Пример отличия в кодировках utf-8 и windows 1251

    Если вы поленились прочитать два верхних пункта, то ещё раз выведем результаты вывода текста на латинице и на кириллице с одним количеством букв.

    Результат вывода var_dump(‘Marat’);:
    string(5) «Marat»

    Результат var_dump(‘Марат’);:
    string(10) «Марат»

    Что делать, если функция для кириллицы на utf-8 не работают?

    Поскольку я давно занимаюсь сайтами, то могу сказать, что на самом деле таких случаев не так много, когда нужна какая-то специальная функция для обработки кириллицы на utf-8.

    Но если уж она возникала, то есть несколько вариантов решения!

    Это функции с приставкой «mb_», естественно надо проверять, работает ли она у вас на хостинге.

    Второй вариант, это написать собственную функцию, которая будет работать и для латиницы и кириллицы? как это я показал на функции strtolower

    И третий вариант перекодировать строку из utf-8 в windows 1251

    Рассмотрим, первый попавшийся на ум пример…

    Пусть это будет функция str_split и её аналог mb_str_split

    print_r (str_split(‘Марат’)); выдаст :

    Array

    (

    [0] => �

    [1] => �

    [2] => �

    [3] => �

    [4] => �

    [5] => �

    [6] => �

    [7] => �

    [8] => �

    [9] => �

    )

    print_r (mb_str_split(‘Марат’)); выдаст :

    Что делать, если функция для кириллицы на utf-8 не работают?

    Как видим… полный отстой…

    Мы далее разбирались с этим здесь.

  • Как перекодировать строку из utf-8 в windows 1251

    Итак… есть третий вариант, борьбы с квадратиками(непонимание кодировки) — перекодировать строку из utf-8 в windows 1251:

    iconv(«UTF-8», «windows-1251», $text)

    После того, как вы выполнили все намеченные действия с текстом, возвращаем его в исходную кодировку :

    iconv(«windows-1251», «UTF-8», $text)

    Рассмотрим пример перекодировки текста из UTF-8 в windows-1251 и обратно

    Мы использовали var_dump, и он посчитал не правильно, поскольку просто так, на страницу вывести данные с помощью var_dump нельзя, мы использовали вот такой костыль :

    ob_start();

    var_dump( ‘Марат’ );

    echo ob_get_clean();

    Теперь попробуем перекодировать строку прямо внутри :

    ob_start();

    var_dump(iconv(«UTF-8», «windows-1251», ‘Марат’)) ;

    echo ob_get_clean() ;

    Результат подсчета знаков верный, но видим что слово не было перекодировано обратно :

    string(5) «�����»

    Исправим:

    ob_start();

    var_dump(iconv(«UTF-8», «windows-1251», ‘Марат’)) ;

    echo iconv(«windows-1251», «UTF-8», ob_get_clean());

    Результат :

    string(5) «Марат»

    Итак… вы видели процесс кодировки и перекодировки текста из utf-8 в windows 1251, а потом обратно!


    Вы наверное подумали :

    Что за дичь здесь происходит!? Это не дичь! Когда ты внутри, а не снаружи, то все кажется не простым, а очень простым.

    И чем больше ты в теме, это просто, как есть, пить, дышать… просто не задумываешься…

    Я не говорю, что всегда так, иногда бывает очень трудно какаю-то задачку решить…
    смайлы

  • Что лучше для кириллицы utf-8 или…

    Интересный поисковый запрос — «Что лучше для кириллицы utf-8 или…«…

    Дело в том, что я выбрал кодировку «utf-8» уже… 14 лет(число динамическое) назад… и… уже сейчас трудно вспомнить, почему именно её… но точно вам могу заявить, что когда-то пользовался «windows-1251″… и у неё были какие-то заморочки, в виде неадекватного вывода информации, что, я волей неволей перешел на «utf-8»

    Какие минусы у utf-8?

    Одна из самых главных проблем «utf-8» — это многобайтовость…

    Да! Это несколько неудобно в самом начале, но для всякой функции, которая не хочет работать с кириллицей, существуют замены.

    В процессе создания сайта у вас может возникнуть несколько проблем, которые вы решите и «тупо» забудете об этом…

    Задумывался ли я о переходе с кодировки utf-8 на другую?

    Смысл задумываться о переходе с кодировки utf-8 на другую, если всё работает так, как нужно!

    Как работают кодировки текста. Откуда появляются «кракозябры». Принципы кодирования. Обобщение и детальный разбор

    Время на прочтение10 мин

    Количество просмотров143K

    Данная статья имеет цель собрать воедино и разобрать принципы и механизм работы кодировок текста, подробно этот механизм разобрать и объяснить. Полезна она будет тем, кто только примерно представляет, что такое кодировки текста и как они работают, чем отличаются друг от друга, почему иногда появляются не читаемые символы, какой принцип кодирования имеют разные кодировки.

    Чтобы получить детальное понимание этого вопроса придется прочитать и свести воедино не одну статью и потратить довольно значительное время на это. В данном материале же это все собрано воедино и по идее должно сэкономить время и разбор на мой взгляд получился довольно подробный.

    О чем будет под катом: принцип работы одно байтовых кодировок (ASCII, Windows-1251 и т.д.), предпосылки появления Unicode, что такое Unicode, Unicode-кодировки UTF-8, UTF-16, их отличия, принципиальные особенности, совместимость и несовместимость разных кодировок, принципы кодирования символов, практический разбор кодирования и декодирования.

    Вопрос с кодировками сейчас конечно уже потерял актуальность, но все же знать как они работают сейчас и как работали раньше и при этом не потратить много времени на это думаю лишним не будет.

    Предпосылки Unicode

    Начать думаю стоит с того времени когда компьютеризация еще не была так сильно развита и только набирала обороты. Тогда разработчики и стандартизаторы еще не думали, что компьютеры и интернет наберут такую огромную популярность и распространенность. Собственно тогда то и возникла потребность в кодировке текста. В каком то же виде нужно было хранить буквы в компьютере, а он (компьютер) только единицы и нули понимает. Так была разработана одно-байтовая кодировка ASCII (скорее всего она не первая кодировка, но она наиболее распространенная и показательная, по этому ее будем считать за эталонную). Что она из себя представляет? Каждый символ в этой кодировке закодирован 8-ю битами. Несложно посчитать что исходя из этого кодировка может содержать 256 символов (восемь бит, нулей или единиц 28=256).

    Первые 7 бит (128 символов 27=128) в этой кодировке были отданы под символы латинского алфавита, управляющие символы (такие как переносы строк, табуляция и т.д.) и грамматические символы. Остальные отводились под национальные языки. То есть получилось что первые 128 символов всегда одинаковые, а если хочешь закодировать свой родной язык пожалуйста, используй оставшуюся емкость. Собственно так и появился огромный зоопарк национальных кодировок. И теперь сами можете представить, вот например я находясь в России беру и создаю текстовый документ, у меня по умолчанию он создается в кодировке Windows-1251 (русская кодировка использующаяся в ОС Windows) и отсылаю его кому то, например в США. Даже то что мой собеседник знает русский язык, ему не поможет, потому что открыв мой документ на своем компьютере (в редакторе с дефолтной кодировкой той же самой ASCII) он увидит не русские буквы, а кракозябры. Если быть точнее, то те места в документе которые я напишу на английском отобразятся без проблем, потому что первые 128 символов кодировок Windows-1251 и ASCII одинаковые, но вот там где я написал русский текст, если он в своем редакторе не укажет правильную кодировку будут в виде кракозябр.

    Думаю проблема с национальными кодировками понятна. Собственно этих национальных кодировок стало очень много, а интернет стал очень широким, и в нем каждый хотел писать на своем языке и не хотел чтобы его язык выглядел как кракозябры. Было два выхода, указывать для каждой страницы кодировки, либо создать одну общую для всех символов в мире таблицу символов. Победил второй вариант, так создали Unicode таблицу символов.

    Небольшой практикум ASCII

    Возможно покажется элементарщиной, но раз уж решил объяснять все и подробно, то это надо.

    Вот таблица символов ASCII:

    Тут имеем 3 колонки:

    • номер символа в десятичном формате
    • номер символа в шестнадцатиричном формате
    • представление самого символа.

    Итак, закодируем строку «ok» (англ.) в кодировке ASCII. Символ «o» (англ.) имеет позицию 111 в десятичном виде и 6F в шестнадцатиричном. Переведем это в двоичную систему — 01101111. Символ «k» (англ.) — позиция 107 в десятеричной и 6B в шестнадцатиричной, переводим в двоичную — 01101011. Итого строка «ok» закодированная в ASCII будет выглядеть так — 01101111 01101011. Процесс декодирования будет обратный. Берем по 8 бит, переводим их в 10-ичную кодировку, получаем номер символа, смотрим по таблице что это за символ.

    Unicode

    С предпосылками создания общей таблицы для всех в мире символов, разобрались. Теперь собственно, к самой таблице. Unicode — именно эта таблица и есть (это не кодировка, а именно таблица символов). Она состоит из 1 114 112 позиций. Большинство этих позиций пока не заполнены символами, так что вряд ли понадобится это пространство расширять.

    Разделено это общее пространство на 17 блоков, по 65 536 символов в каждом. Каждый блок содержит свою группу символов. Нулевой блок — базовый, там собраны наиболее употребляемые символы всех современных алфавитов. Во втором блоке находятся символы вымерших языков. Есть два блока отведенные под частное использование. Большинство блоков пока не заполнены.

    Итого емкость символов юникода составляет от 0 до 10FFFF (в шестнадцатиричном виде).

    Записываются символы в шестнадцатиричном виде с приставкой «U+». Например первый базовый блок включает в себя символы от U+0000 до U+FFFF (от 0 до 65 535), а последний семнадцатый блок от U+100000 до U+10FFFF (от 1 048 576 до 1 114 111).

    Отлично теперь вместо зоопарка национальных кодировок, у нас есть всеобъемлющая таблица, в которой зашифрованы все символы которые нам могут пригодиться. Но тут тоже есть свои недостатки. Если раньше каждый символ был закодирован одним байтом, то теперь он может быть закодирован разным количеством байтов. Например для кодирования всех символов английского алфавита по прежнему достаточно одного байта например тот же символ «o» (англ.) имеет в юникоде номер U+006F, то есть тот же самый номер как и в ASCII — 6F в шестнадцатиричной и 111 в десятеричной. А вот для кодирования символа «U+103D5» (это древнеперсидская цифра сто) — 103D5 в шестнадцатиричной и 66 517 в десятеричной, тут нам потребуется уже три байта.

    Решить эту проблему уже должны юникод-кодировки, такие как UTF-8 и UTF-16. Далее речь пойдет про них.

    UTF-8

    UTF-8 является юникод-кодировкой переменной длинны, с помощью которой можно представить любой символ юникода.

    Давайте поподробнее про переменную длину, что это значит? Первым делом надо сказать, что структурной (атомарной) единицей этой кодировки является байт. То что кодировка переменной длинны, значит, что один символ может быть закодирован разным количеством структурных единиц кодировки, то есть разным количеством байтов. Так например латиница кодируется одним байтом, а кириллица двумя байтами.

    Немного отступлю от темы, надо написать про совместимость ASCII и UTF

    То что латинские символы и основные управляющие конструкции, такие как переносы строк, табуляции и т.д. закодированы одним байтом делает utf-кодировки совместимыми с кодировками ASCII. То есть фактически латиница и управляющие конструкции находятся на тех же самых местах как в ASCII, так и в UTF, и то что закодированы они и там и там одним байтом и обеспечивает эту совместимость.

    Давайте возьмем символ «o»(англ.) из примера про ASCII выше. Помним что в таблице ASCII символов он находится на 111 позиции, в битовом виде это будет 01101111. В таблице юникода этот символ — U+006F что в битовом виде тоже будет 01101111. И теперь так, как UTF — это кодировка переменной длины, то в ней этот символ будет закодирован одним байтом. То есть представление данного символа в обеих кодировках будет одинаково. И так для всего диапазона символов от 0 до 128. То есть если ваш документ состоит из английского текста то вы не заметите разницы если откроете его и в кодировке UTF-8 и UTF-16 и ASCII (прим. в UTF-16 такие символы все равно будут закодированы двумя байтами, по этому вы не увидите разницы, если ваш редактор будет игнорировать нулевые байты), и так до момента пока вы не начнете работать с национальным алфавитом.

    Сравним на практике как будет выглядеть фраза «Hello мир» в трех разных кодировках: Windows-1251 (русская кодировка), ISO-8859-1 (кодировка западно-европейских языков), UTF-8 (юникод-кодировка). Суть данного примера состоит в том что фраза написана на двух языках. Посмотрим как она будет выглядеть в разных кодировках.

    В кодировке ISO-8859-1 нет таких символов «м», «и» и «р».

    Теперь давайте поработаем с кодировками и разберемся как преобразовать строку из одной кодировки в другую и что будет если преобразование неправильное, или его нельзя осуществить из за разницы в кодировках.

    Будем считать что изначально фраза была записана в кодировке Windows-1251. Исходя из таблицы выше запишем эту фразу в двоичном виде, в кодировке Windows-1251. Для этого нам потребуется всего только перевести из десятеричной или шестнадцатиричной системы (из таблицы выше) символы в двоичную.

    01001000 01100101 01101100 01101100 01101111 00100000 11101100 11101000 11110000
    Отлично, вот это и есть фраза «Hello мир» в кодировке Windows-1251.

    Теперь представим что вы имеете файл с текстом, но не знаете в какой кодировке этот текст. Вы предполагаете что он в кодировке ISO-8859-1 и открываете его в своем редакторе в этой кодировке. Как сказано выше с частью символов все в порядке, они есть в этой кодировке, и даже находятся на тех же местах, но вот с символами из слова «мир» все сложнее. Этих символов в этой кодировке нет, а на их местах в кодировке ISO-8859-1 находятся совершенно другие символы. А конкретно «м» — позиция 236, «и» — 232. «р» — 240. И на этих позициях в кодировке ISO-8859-1 находятся следующие символы позиция 236 — символ «ì», 232 — «è», 240 — «ð»

    Значит фраза «Hello мир» закодированная в Windows-1251 и открытая в кодировке ISO-8859-1 будет выглядеть так: «Hello ìèð». Вот и получается что эти две кодировки совместимы лишь частично, и корректно перекодировать строку из одной кодировке в другую не получится, потому что там просто напросто нет таких символов.

    Тут и будут необходимы юникод-кодировки, а конкретно в данном случае рассмотрим UTF-8. То что символы в ней могут быть закодированы разным количеством байтов от 1 до 4 мы уже выяснили. Теперь стоит сказать что с помощью UTF могут быть закодированы не только 256 символов, как в двух предыдущих, а вобще все символы юникода

    Работает она следующим образом. Первый бит каждого байта кодирующего символ отвечает не за сам символ, а за определение байта. То есть например если ведущий (первый) бит нулевой, то это значит что для кодирования символа используется всего один байт. Что и обеспечивает совместимость с ASCII. Если внимательно посмотрите на таблицу символов ASCII то увидите что первые 128 символов (английский алфавит, управляющие символы и знаки препинания) если их привести к двоичному виду, все начинаются с нулевого бита (будьте внимательны, если будете переводить символы в двоичную систему с помощью например онлайн конвертера, то первый нулевой ведущий бит может быть отброшен, что может сбить с толку).

    01001000 — первый бит ноль, значит 1 байт кодирует 1 символ -> «H»

    01100101 — первый бит ноль, значит 1 байт кодирует 1 символ -> «e»

    Если первый бит не нулевой то символ кодируется несколькими байтами.

    Для двухбайтовых символов первые три бита должны быть такие — 110

    11010000 10111100 — в начале 110, значит 2 байта кодируют 1 символ. Второй байт в таком случае всегда начинается с 10. Итого отбрасываем управляющие биты (начальные, которые выделены красным и зеленым) и берем все оставшиеся (10000111100), переводим их в шестнадцатиричный вид (043С) -> U+043C в юникоде равно символ «м».

    для трех-байтовых символов в первом байте ведущие биты — 1110

    11101000 10000111 101010101 — суммируем все кроме управляющих битов и получаем что в 16-ричной равно 103В5, U+103D5 — древнеперситдская цифра сто (10000001111010101)

    для четырех-байтовых символов в первом байте ведущие биты — 11110

    11110100 10001111 10111111 10111111 — U+10FFFF это последний допустимый символ в таблице юникода (100001111111111111111)

    Теперь, при желании, можем записать нашу фразу в кодировке UTF-8.

    UTF-16

    UTF-16 также является кодировкой переменной длинны. Главное ее отличие от UTF-8 состоит в том что структурной единицей в ней является не один а два байта. То есть в кодировке UTF-16 любой символ юникода может быть закодирован либо двумя, либо четырьмя байтами. Давайте для понятности в дальнейшем пару таких байтов я буду называть кодовой парой. Исходя из этого любой символ юникода в кодировке UTF-16 может быть закодирован либо одной кодовой парой, либо двумя.

    Начнем с символов которые кодируются одной кодовой парой. Легко посчитать что таких символов может быть 65 535 (2в16), что полностью совпадает с базовым блоком юникода. Все символы находящиеся в этом блоке юникода в кодировке UTF-16 будут закодированы одной кодовой парой (двумя байтами), тут все просто.

    символ «o» (латиница) — 00000000 01101111
    символ «M» (кириллица) — 00000100 00011100

    Теперь рассмотрим символы за пределами базового юникод диапазона. Для их кодирования потребуется уже две кодовые пары (4 байта). И механизм их кодирования немного сложнее, давайте по порядку.

    Для начала введем понятия суррогатной пары. Суррогатная пара — это две кодовые пары используемые для кодирования одного символа (итого 4 байта). Для таких суррогатных пар в таблице юникода отведен специальный диапазон от D800 до DFFF. Это значит, что при преобразовании кодовой пары из байтового вида в шестнадцатиричный вы получаете число из этого диапазона, то перед вами не самостоятельный символ, а суррогатная пара.

    Чтобы закодировать символ из диапазона 1000010FFFF (то есть символ для которого нужно использовать более одной кодовой пары) нужно:

    1. из кода символа вычесть 10000(шестнадцатиричное) (это наименьшее число из диапазона 1000010FFFF)
    2. в результате первого пункта будет получено число не больше FFFFF, занимающее до 20 бит
    3. ведущие 10 бит из полученного числа суммируются с D800 (начало диапазона суррогатных пар в юникоде)
    4. следующие 10 бит суммируются с DC00 (тоже число из диапазона суррогатных пар)
    5. после этого получатся 2 суррогатные пары по 16 бит, первые 6 бит в каждой такой паре отвечают за определение того что это суррогат,
    6. десятый бит в каждом суррогате отвечает за его порядок если это 1 то это первый суррогат, если 0, то второй

    Разберем это на практике, думаю станет понятнее.

    Для примера зашифруем символ, а потом расшифруем. Возьмем древнеперсидскую цифру сто (U+103D5):

    1. 103D510000 = 3D5
    2. 3D5 = 0000000000 1111010101 (ведущие 10 бит получились нулевые приведем это к шестнадцатиричному числу, получим 0 (первые десять), 3D5 (вторые десять))
    3. 0 + D800 = D800 (1101100000000000) первые 6 бит определяют что число из диапазона суррогатных пар десятый бит (справа) нулевой, значит это первый суррогат
    4. 3D5 + DC00 = DFD5 (1101111111010101) первые 6 бит определяют что число из диапазона суррогатных пар десятый бит (справа) единица, значит это второй суррогат
    5. итого данный символ в UTF-16 — 1101100000000000 1101111111010101

    Теперь наоборот раскодируем. Допустим что у нас есть вот такой код — 1101100000100010 1101111010001000:

    1. переведем в шестнадцатиричный вид = D822 DE88 (оба значения из диапазона суррогатных пар, значит перед нами суррогатная пара)
    2. 1101100000100010 — десятый бит (справа) нулевой, значит первый суррогат
    3. 1101111010001000 — десятый бит (справа) единица, значит второй суррогат
    4. отбрасываем по 6 бит отвечающих за определение суррогата, получим 0000100010 1010001000 (8A88)
    5. прибавляем 10000 (меньшее число суррогатного диапазона) 8A88 + 10000 = 18A88
    6. смотрим в таблице юникода символ U+18A88 = Tangut Component-649. Компоненты тангутского письма.

    Спасибо тем кто смог дочитать до конца, надеюсь было полезно и не очень занудно.

    Вот некоторые интересные ссылки по данной теме:
    habr.com/ru/post/158895 — полезные общие сведения по кодировкам
    habr.com/ru/post/312642 — про юникод
    unicode-table.com/ru — сама таблица юникод символов

    Ну и собственно куда же без нее
    ru.wikipedia.org/wiki/%D0%AE%D0%BD%D0%B8%D0%BA%D0%BE%D0%B4 — юникод
    ru.wikipedia.org/wiki/ASCII — ASCII
    ru.wikipedia.org/wiki/UTF-8 — UTF-8
    ru.wikipedia.org/wiki/UTF-16 — UTF-16

    блин куки убрались однако проблемы все те же
    …..
    всю эту фигню я делаю для яндекса

    http://forum.yandex.ru/yandex/questions.xhtml?message_id=1270476#m1270 476

    у них по какой-то причине сервис блогов не хочет принимать один из моих RSS, сначала думали что кодировка, потом еще что-то, теперь вроде бы все исправлено, но так и не работает… ладно буду дальше теребить разработчиков.

    кстати, вот этот фид http://relib.com/blogs/MainFeed.aspx съело без проблем

    HTTP/1.1 200 OK
    Connection: close
    Date: Fri, 25 Feb 2005 15:07:22 GMT
    Server: Microsoft-IIS/6.0
    X-Powered-By: ASP.NET
    X-AspNet-Version: 1.1.4322
    Cache-Control: public, max-age=120
    Expires: Fri, 25 Feb 2005 15:09:22 GMT
    Last-Modified: Fri, 25 Feb 2005 15:07:22 GMT
    Vary: *
    Content-Type: text/xml; charset=utf-8
    Content-Length: 82038

    а вот этот http://wobla.ru/news/rss.aspx

    HTTP/1.1 200 OK
    Cache-Control: public
    Content-Length: 5103
    Content-Type: text/xml; charset=UTF-8
    Expires: Fri, 25 Feb 2005 15:08:31 GMT
    Last-Modified: Fri, 25 Feb 2005 15:06:31 GMT
    Server: Microsoft-IIS/6.0
    X-AspNet-Version: 1.1.4322
    X-Powered-By: ASP.NET
    Date: Fri, 25 Feb 2005 15:06:57 GMT
    Connection: close

    брать не хочет.

    может не в заголовках дело?

    Отличие utf-8 и windows 1251. Рассмотрим, чем отличаются две кодировки «utf-8 и windows 1251» в теории и на практике. И как победить некоторые проблемы для кириллицы в utf-8!?

  • О кодировках utf-8 и windows 1251

    Самое главное. что нас интересует, как и меня — в чем же отличие кодировок utf-8 и windows 1251. И отличается только кириллица!

    Чем отличаются utf-8 и windows 1251

    UTF-8 — это много-байтовая кодировка, а Windows- 1251 однобайтовая. И более того, отличие только в кириллице.

    Количество байтов кириллицы в UTF-8 будет в 2 раза больше, чем 1). латиницы в UTF-8 и 2). латиницы + кириллицы в Windows- 1251 → пример

    Главное отличие кодировок – это используемый набор символов. В UTF-8 гораздо больше количество символов возможно представить, чем в Windows- 1251. Кодировка Windows- 1251 однобайтовая, т.е. представить в ней можно только 255 символов. Для кириллицы, впрочем, этого вполне достаточно, именно поэтому однобайтовые кодировки до сих пор так массово применяются.

    Что такое кодировка windows 1251

    Windows-1251 – набор символов и кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Пользуется довольно большой популярностью. Windows-1251 выгодно отличается от других 8‑битных кириллических кодировок (таких как CP866, KOI8-R и ISO 8859-5) наличием практически всех символов, использующихся в русской типографике для обычного текста; она также содержит все символы для близких к русскому языку языков: украинского, белорусского, сербского и болгарского.

    Что такое кодировка UTF-8

    UTF-8 – в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста. Нашла широкое применение в операционных системах и веб-пространстве. Текст, состоящий только из символов Юникода с номерами меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байт.

    Символ в кодировке UTF-8 может кодироваться аж 6 байтами (пока используется только 4 и больше не планируется). Для русского языка, например, символ занимает 2 байта. Все символы, которые есть в таблице символов – поддерживаются этой кодировкой. К примеру, если вам нужен знак копирайта (©), то вам не нужно искать особый шрифт или же изображать символов в графическом формате.

  • Пример вывода текста в кодировках utf-8 латиницы

    Когда и если вы прочитали теорию о разнице кодировок utf-8 и windows 1251 — это уже победа!

    А если вы еще и поняли о чем идет речь, то вы вообще Эйнштейн! , то и смысла особого вам читать дальше нет.

    А для всех остальных продолжим…

    Чем отличается текст в кодировках utf-8 и windows 1251

    Теория — это конечно классно и круто, но как обстоит дело на практике!

    Как показать отличие двух кодировок!?

    У нас на сайте основная кодировка utf-8, и мы не напрягаясь можем посмотреть, что творится с текстом в этой кодировке!

    Нам понадобится какой-то текст на латинице:

    И… нам нужно такое слово, чтобы имело одинаковое количество букв в слове, ну пусть это будет моё имя…

    Пусть это будет слово — «Marat!»

    Далее нам потребуется функция var_dump.

    И выведем прямо здесь вот такую конструкцию :

    var_dump(‘Marat’);

    Результат:

    string(5) «Marat»

    Что мы здесь можем прочитать!?

    Что это строка, и что в ней 5 элементов.

  • Пример вывода текста в кодировках utf-8 кириллицы

    Теперь, проделаем тоже самое со строкой на кириллице:

    У нас все таже кодировка utf-8.

    Но теперь нам понадобится текст на кириллице:

    Пусть это будет слово — «Марат!»

    Опять var_dump.

    И выведем прямо здесь вот такую конструкцию :

    var_dump(‘Марат’);

    Результат:

    string(10) «Марат»

    И что мы здесь видим!?

    Что количество элементов в строке 10… Если вы читали теорию внимательно, то вот вам показатель того, что одна буква состоит из двух символов, а латиницы это не касается…!

    Поэтому, и возникают проблемы с текстом в кодировке utf-8 кириллицы, множество функций тупо не работают.

    Как пример…как-то я задолбался со strtolower в utf-8 для кириллицы, что решил написать собственную функцию strtolower, чтобы каждый раз не городить этажерку из нескольких функций…

  • Пример отличия в кодировках utf-8 и windows 1251

    Если вы поленились прочитать два верхних пункта, то ещё раз выведем результаты вывода текста на латинице и на кириллице с одним количеством букв.

    Результат вывода var_dump(‘Marat’);:

    string(5) «Marat»

    Результат var_dump(‘Марат’);:

    string(10) «Марат»

    Что делать, если функция для кириллицы на utf-8 не работают?

    Поскольку я давно занимаюсь сайтами, то могу сказать, что на самом деле таких случаев не так много, когда нужна какая-то специальная функция для обработки кириллицы на utf-8.

    Но если уж она возникала, то есть несколько вариантов решения!

    Это функции с приставкой «mb_», естественно надо проверять, работает ли она у вас на хостинге.

    Второй вариант, это написать собственную функцию, которая будет работать и для латиницы и кириллицы? как это я показал на функции strtolower

    И третий вариант перекодировать строку из utf-8 в windows 1251

    Рассмотрим, первый попавшийся на ум пример…

    Пусть это будет функция str_split и её аналог mb_str_split

    print_r (str_split(‘Марат’)); выдаст :

    Array

    (

    [0] => �

    [1] => �

    [2] => �

    [3] => �

    [4] => �

    [5] => �

    [6] => �

    [7] => �

    [8] => �

    [9] => �

    )

    print_r (mb_str_split(‘Марат’)); выдаст :

    Что делать, если функция для кириллицы на utf-8 не работают?

    Как видим… полный отстой…

    Мы далее разбирались с этим здесь.

  • Как перекодировать строку из utf-8 в windows 1251

    Итак… есть третий вариант, борьбы с квадратиками(непонимание кодировки) — перекодировать строку из utf-8 в windows 1251:

    iconv(«UTF-8», «windows-1251», $text)

    После того, как вы выполнили все намеченные действия с текстом, возвращаем его в исходную кодировку :

    iconv(«windows-1251», «UTF-8», $text)

    Рассмотрим пример перекодировки текста из UTF-8 в windows-1251 и обратно

    Мы использовали var_dump, и он посчитал не правильно, поскольку просто так, на страницу вывести данные с помощью var_dump нельзя, мы использовали вот такой костыль :

    ob_start();

    var_dump( ‘Марат’ );

    echo ob_get_clean();

    Теперь попробуем перекодировать строку прямо внутри :

    ob_start();

    var_dump(iconv(«UTF-8», «windows-1251», ‘Марат’)) ;

    echo ob_get_clean() ;

    Результат подсчета знаков верный, но видим что слово не было перекодировано обратно :

    Исправим:

    ob_start();

    var_dump(iconv(«UTF-8», «windows-1251», ‘Марат’)) ;

    echo iconv(«windows-1251», «UTF-8», ob_get_clean());

    Результат :

    Итак… вы видели процесс кодировки и перекодировки текста из utf-8 в windows 1251, а потом обратно!


    Вы наверное подумали :

    Что за дичь здесь происходит!? Это не дичь! Когда ты внутри, а не снаружи, то все кажется не простым, а очень простым.

    И чем больше ты в теме, это просто, как есть, пить, дышать… просто не задумываешься…

    Я не говорю, что всегда так, иногда бывает очень трудно какаю-то задачку решить…

  • Что лучше для кириллицы utf-8 или…

    Интересный поисковый запрос — «Что лучше для кириллицы utf-8 или…«…

    Дело в том, что я выбрал кодировку «utf-8» уже… 16 лет(число динамичное) назад… и… уже сейчас трудно вспомнить, почему именно её… но точно вам могу заявить, что когда-то пользовался «windows-1251″… и у неё были какие-то заморочки, в виде неадекватного вывода информации, что, я волей неволей перешел на «utf-8»

    Какие минусы у utf-8?

    Одна из самых главных проблем «utf-8» — это многобайтовость…

    Да! Это несколько неудобно в самом начале, но для всякой функции, которая не хочет работать с кириллицей, существуют замены.

    В процессе создания сайта у вас может возникнуть несколько проблем, которые вы решите и «тупо» забудете об этом…

    Задумывался ли я о переходе с кодировки utf-8 на другую?

    Смысл задумываться о переходе с кодировки utf-8 на другую, если всё работает так, как нужно!

    Запрос к Firebird возвращает нечитаемые символы вместо русских

    0

    Pete

    19.01.16

    13:59

    Доброго всем дня.

    При обращении к базе Firebird получаю ответ в формате UTF8 и русские буквы отражаются в форме нечитабельно.

    Conn = Новый COMObject(«ADODB.Connection»);

        Conn.ConnectionString = «Driver=Firebird/InterBase(r) driver;» +

                «Dbname=»+АдресБазы+»;»

                «UID=SYSDBA;PWD=masterkey;» +

                «CHARSET=WIN1251»;

        RecordSet = Новый COMObject(«ADODB.Recordset»);

        RecordSet.ActiveConnection = Conn;

        RecordSet.CursorType = 1;

        RecordSet.LockType = 3;

        RecordSet.Open(«SELECT * FROM STAFF», Conn);

                            
    Попытка использовать при подключении CHARSET=UTF8 результата не даёт.

    Аналогично, пытаясь в запросе наложить условие с русскими символами, получаю «ничего». Если в условие вставлять возвращаемый запросом нечитабельный текст, то отбор срабатывает корректно.

    Вопрос: как получить содержимое полей в нормальной кодировке?

    1

    Pete

    19.01.16

    14:00

    код полностью:

    Процедура КнопкаВыполнитьНажатие(Кнопка)

        Conn = Новый COMObject(«ADODB.Connection»);

        Conn.ConnectionString = «Driver=Firebird/InterBase(r) driver;» +

                «Dbname=»+АдресБазы+»;»

                «UID=SYSDBA;PWD=masterkey;» +

                «CHARSET=WIN1251»;

                //»CHARSET=UTF8″;

        Conn.ConnectionTimeout = 180;

        Conn.CursorLocation = 3;

        Conn.Open(Conn.ConnectionString);

        
        RecordSet = Новый COMObject(«ADODB.Recordset»);

        RecordSet.ActiveConnection = Conn;

        RecordSet.CursorType = 1;

        RecordSet.LockType = 3;

        RecordSet.Open(«SELECT * FROM STAFF», Conn);

        
        лЧислоКолонок = RecordSet.Fields.Count;

        Если лЧислоКолонок > 0 Тогда

            Результат = Новый ТаблицаЗначений;

            Для i=0 По лЧислоКолонок-1 Цикл

                Результат.Колонки.Добавить(RecordSet.Fields(i).Name);

            КонецЦикла;

            Пока RecordSet.EOF() = 0 Цикл

                Запись = Результат.Добавить();

                Для i=0 По лЧислоКолонок-1 Цикл

                    Запись[i] = RecordSet.Fields(i).Value;

                КонецЦикла;

                RecordSet.MoveNext();

            КонецЦикла;

            RecordSet.Close();

        КонецЕсли;

        RecordSet=»»;

        Conn.Close();

        ЭтаФорма.ЭлементыФормы.ТабличноеПоле1.СоздатьКолонки();

        
    КонецПроцедуры

    2

    Pete

    19.01.16

    14:00

    пример возвращаемого:

    ID_STAFF    LAST_NAME    FIRST_NAME    MIDDLE_NAME    TABEL_ID    PORTRET    DATE_BEGIN    

    41 801    РќРѕСЃРєРѕРІ    РљРёСЂРёР»Р»    РђР»РµРєСЃРµРµРІРёС‡    46    COMSafeArray    01.01.2008 0:00:00

    3

    Aloex

    19.01.16

    14:01

    Измени строку подключения.

    4

    Aloex

    19.01.16

    14:02

    В ней укажи кодировку.

    5

    vde69

    19.01.16

    14:03

    надо применить CHARSET=WIN1251 для рекорд сета

    6

    Aloex

    19.01.16

    14:09

    (0) Этого достаточно: СоединениеADO = Новый COMОбъект(«ADODB.Connection»);

    Убери рекордсет.

    7

    Pete

    19.01.16

    15:01

    8

    Pete

    19.01.16

    15:03

    (6) Поясните, как без рекордсета (или прочих аналогичных объектов) получить данные, выполнив необходимый запрос?

    9

    Kolls

    19.01.16

    15:05

    Из IBExperta или подобной приблуды в какой кодировке видны русские символы?

    10

    Pete

    19.01.16

    15:05

    (4) Conn.ConnectionString = «Driver=Firebird/InterBase(r) driver;» +

    «Dbname=»+АдресБазы+»;»

    «UID=SYSDBA;PWD=masterkey;» +

    «CHARSET=WIN1251»;

    Это, собственно, и есть строка подключения и в ней указана кодировка

    11

    Pete

    19.01.16

    15:06

    (9) Из IBExperta русские символы? В настройках подключения указана кодировка UTF8.

    12

    Pete

    19.01.16

    15:06

    (9) Из IBExperta русские символы видны. В настройках подключения указана кодировка UTF8.

    13

    Kolls

    19.01.16

    15:08

    ок, посмотри кодировку в самой таблице, блин, правда забыл где именно, но попробуй получить скрипт создания таблицы, там будет указана кодировка, если она отлична от основной кодировки базы.

    14

    vde69

    19.01.16

    15:21

    что-то типа того (но детально нужно разбиратся):

    RecordSet.ActiveConnection.CHARSET=»WIN1251″

    это стандартная засада когда параметры базы устанавливаются по дефолту каждому новому обьекту…

    а шарсет конекта — работает только на момент конекта (авторизации)

    я в свое время с мускулем колупасля с этим…

    15

    Pete

    19.01.16

    15:24

    (13) обнаружил в описании нужных мне полей, что Charset:NONE

    16

    vde69

    19.01.16

    15:25

    (15) это значит дефолтные из базы, если и в базе пусто — то с сервера

    17

    Pete

    19.01.16

    15:25

    Что теперь с ними, болезными, делать?

    Править саму базу — не вариант. Стороннее решение. Они нас обвиняют во всех смертных грехах.

    18

    ObjectRelation Model

    19.01.16

    15:27

    (17) заставить их править базу ))

    19

    vde69

    19.01.16

    15:30

    попробуй так

    Conn = Новый COMObject(«ADODB.Connection»);

        Conn.ConnectionString = «Driver=Firebird/InterBase(r) driver;» +

                «Dbname=»+АдресБазы+»;»

                «UID=SYSDBA;PWD=masterkey;» +

                «CHARSET=NONE»;

    20

    Pete

    19.01.16

    18:06

    (19) безрезультатно. Причем результат одинаковый, какую кодировку ни указывай (проверял на UNICODE_FSS, CP943C, WIN1251)

    на кодировке OCTETS выходит ошибка:

    Произошла исключительная ситуация (Microsoft OLE DB Provider for ODBC Drivers): [ODBC Firebird Driver]bad parameters on attach or create database

    CHARACTER SET OCTETS is not defined

    на DOS860 и ASCII:

    Произошла исключительная ситуация (Microsoft OLE DB Provider for ODBC Drivers): [ODBC Firebird Driver][Firebird]arithmetic exception, numeric overflow, or string truncation

    Cannot transliterate character between character sets

    Но всё это уже после того как я добавил новое поле в таблицу с кодировкой UTF8 и скопировал в него поле LAST_NAME.

    Так вот внешний вид содержимого нового поля меняется в зависимости от кодировки! А нужных полей — нет!

    21

    Карупян

    19.01.16

    18:08

    судя по РќРѕСЃРєРѕРІ — это утф

    22

    Карупян

    19.01.16

    18:09

    которую читают как анси

    23

    Карупян

    19.01.16

    18:13

    может драйвер на понимает утф. как было у старых версий мускула?

    24

    Pete

    20.01.16

    09:29

    (23) Новое поле, которое я создал с кодировкой UTF8 и скопировал в него информацию из «неразборчивого», читается драйвером прекрасно.

    Вопрос в том, как прочитать данные из поля, для которого разработчик указал кодировку NONE?

    25

    Woldemar177

    20.01.16

    09:36

    (24) Тоже поставь NONE. Разработчик на дельфи писал?

    26

    Pete

    20.01.16

    10:13

    (25) Поставил NONE. Не помогает. Результат такой же как и при WIN1251, UTF8, UNICODE_FSS: поле с кодировкой NONE нечитабельно «РќРѕСЃРєРѕРІ», поле с кодировкой UTF8 выводится корректно «Носков».

    На чем писал разработчик не знаю (СКУД PERCo-S-20 https://www.perco.ru/). Как определить и что от этого зависит?

    Существуют ли другие способы обратиться к базе Firebird?

    27

    T1C

    20.01.16

    10:16

    А если сконвертировать базу в UTF с помощью этого?

    Функции ESF Database Migration Toolkit:

    » Интерфейс пошагового мастера, который позволит проделать все операции за 4 шага

    » Поддержка множества известных баз данных, включая MySQL, Oracle, PostgreSQL и другие

    <b>» Возможность конвертации между базами данных

    » Поддержка Юникода и автоматическая конвертация между различными кодировками</b>

    » Очень быстрая скорость обработки данных

    » И многие другие возможности

    28

    Pete

    20.01.16

    10:29

    (14) вариант не подходит

    RecordSet.ActiveConnection.CHARSET=»WIN1251″

    {Форма.Форма.Форма(23)}: Ошибка при установке значения атрибута контекста (CHARSET)

            RecordSet.ActiveConnection.CHARSET=»WIN1251″;

    по причине:

    Нет поименованных аргументов

    Кроме того

    «а шарсет конекта — работает только на момент конекта (авторизации)

    я в свое время с мускулем колупасля с этим…»

    не верно в данном случае (возможно, верно для MySQL).

    При смене кодировки в строке подключения на «CP943C» в поле с кодировкой UTF8 получаем «„N„Ђ„ѓ„{„Ђ„r» вместо привычного для WIN1251, UTF8 и UNICODE_FSS «Носков». Т.е. кодировка в строке подключения оказывает влияние на кодировку используемую в Recordset.

    29

    Pete

    20.01.16

    10:35

    (27) вариант не подходит, т.к. база «живая» и конвертация идет вразрез с понятием «поддержка» от поставщика СКУД, равно как и обращение напрямую к базе. ))

    Да и если говорить про конвертацию, то, как я писал в (24), достаточно скопировать нужные поля в новые поля с кодировкой UTF8. При желании можно удалить старые поля с кодировкой NONE и создать из заново с нужной кодировкой. Только неизвестно как будет с такой базой работать ПО поставщика и наверняка первое же «Исправить и реиндексировать БД» в ПО поставщика всё вернёт «на свои места».

    30

    Aloex

    20.01.16

    10:43

    (8) Как то так:

    Conn = Новый COMObject(«ADODB.Connection»);

        Conn.ConnectionString = «Driver=Firebird/InterBase(r) driver;» +

                «Dbname=»+АдресБазы+»;»

                «UID=SYSDBA;PWD=masterkey;» +

                «CHARSET=WIN1251»;

        Conn.Open();

    Результат = Conn .Execute(ТекстЗапроса);

    Пока ВыборкаСтрокADO.EOF = 0 Цикл

    31

    Aloex

    20.01.16

    10:44

    (30)+ пардон

    ВыборкаСтрокADO = Conn .Execute(ТекстЗапроса);

    Пока ВыборкаСтрокADO.EOF = 0 Цикл

    32

    Pete

    20.01.16

    11:33

    (31) работает, но результат тот же

    «РќРѕСЃРєРѕРІ» для поля в кодировке NONE

    «Носков» для поля в кодировке UTF8

    33

    Pete

    20.01.16

    11:34

    (32) + в строке подключения указывал     «CHARSET=UTF8»;

    34

    Карупян

    20.01.16

    11:34

    (32) есть запасной вариант конвертить РќРѕСЃРєРѕРІ уже в 1с )))

    35

    Pete

    20.01.16

    11:36

    (34) какие есть «элегантные» способы для этого?

    36

    ObjectRelation Model

    20.01.16

    11:42

    37

    Aloex

    20.01.16

    11:45

    (32) Это решается строкой(настройка) соединения. У самого была такая же проблема. Играйся с кодировкой.

    38

    trdm

    20.01.16

    11:59

    39

    Woldemar177

    20.01.16

    12:26

    (26) Дружок писал ODBC manager, я им пользуюсь.

    (36) Они там на всю голову ужаленные.

    Понравилась статья? Поделить с друзьями:
    0 0 голоса
    Рейтинг статьи
    Подписаться
    Уведомить о
    guest

    0 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии
  • Portable dhcp сервер на windows 10
  • Расширение архивированных файлов в операционной системе windows
  • Где хранятся куки firefox windows 7
  • Navi sailor 4000 для windows 10 64 bit
  • Свойства подключения по локальной сети windows 10