Пакетная перекодировка кодовой страницы windows-1251 в utf-8

После публикации из AuthorIT HTML-контента веб-сайта, состоящего из множества отдельных веб-страниц, удобно воспользоваться пакетной перекодировкой кодовой страницы windows-1251 в utf-8. Бесплатных утилит пакетной перекодировки кодовых страниц в сети Интернет более чем достаточно, рассмотрим одну из них - Sisulizer's Kaboom от sisulizer.com. Редакция от 03.10.2014.

Создан 10.09.2014 15:25:29

Наверное, уже все без исключения современные системы управления контентом (CMS) - в том числе и Drupal - работают с кодовой (charset) страницей utf-8. Сложно сказать, какой кодовой страницей оперируют самые свежие версии AuthorIT, но AuthorIT 4.5 после публикации контента сайта в формат HTML Pages формирует веб-страницы с мета-тегом charset=windows-1251, см. рисунок ниже.

- Кодовая страница windows-1251

Большой беды в этом нет, но сайты, на страницах которых тексты представлены в различной кодировке, смотрятся абсурдно, в лучшем случае как-то так - латиница читается нормально, а вместо кириллицы - одни сплошные вопросы...

- Authorit.ru в кодировке windows-1251

Чтобы избавиться от этого безобразия, странички сайта необходимо перекодировать из windows-1251 в utf-8. Делается это в один прием с помощью Sisulizer's Kaboom.

Скачать, установить и запустить Sisulizer's Kaboom не составит особого труда. После запуска программы откроется ее Главное окно, см. рисунок ниже.

- Главное окно Sisulizer's Kaboom

Для перекодировки произвольного числа HTML-страниц из windows-1251 в utf-8 следует:

  1. Нажать на вкладку или картинку Multi-Converter, см. рисунок ниже, снять флажки Create .bak files и Write BOM;

    - Мультиконвертор Sisulizer's Kaboom
  2. Перетащить требуемые HTML-файлы с рабочего стола или из любого файлового менеджера непосредственно в окно Use drag'n'drop to fill the file list и нажать кнопку Convert. Текст одного из сконвертированных файлов изображен на рисунке ниже;

    - Кодовая страница utf-8

После перекодировки кодовая страница (тег charset) всех HTML-файлов изменится с windows-1251 на utf-8.

Примечания:

  1. Флажок создания бэкапов исходных файлов можно и не отключать, но тогда после перекодирования придется удалять ненужные бэкапы;
  2. BOM - Byte order mark - маркер последовательности байтов, символ Юникода U+FEFF. Он необязателен, но когда присутствует в начале HTML-файла, следующий непосредственно за ним текст в браузере выглядит так, как будто бы перед ним размещен пустой абзац. Визуально портит картинку, поэтому BOM лучше отключать.
Яндекс.Метрика