Битые ссылки на страницах HTML-контента сайтов и Xenu's Link Sleuth

Битые ссылки на страницах HTML-контента сайтов - вещь неприятная. Посетитель сайта вожделеет увидеть что-то полезное и интересное, а ему в ответ - 404 Not found... В крайнем случае это, что тоже особо не радует. Битые ссылки необходимо тщательно отслеживать и жестоко от них избавляться. Делать это удобно с помощью программы Xenu's Link Sleuth. Редакция от 12.10.2014.

Создан 12.10.2014 11:16:51

Для поиска битых ссылок на страницах HTML-контента сайтов имеется множество онлайновых сервисов и офлайновых утилит, находятся они (утилиты) поисковыми машинами по запросу «битые ссылки». Имеется подобный сервис и в Google, результаты его работы изображены на рисунке ниже.

- Ошибки сканирования Google

Google нашел битые ссылки, но:

  • большая часть страниц давным давно уже не существует в природе и похоже, что Google вытаскивает ссылки на них из каких-то кэшей или со страниц, ссылающихся на наши сайты с других Интернет-ресурсов. Так, к примеру, форум переехал с настоящего сайта на http://author-it.ru минимум лет шесть тому назад, а Google все еще «видит» его;
  • что толку с того, что битые ссылки найдены, если Google не предоставляет информации о том, на каких именно страницах их искать?

Вывод: Google'ский сканер всего лишь констатирует факт существования битых ссылок и не предоставляет сколь-либо значимой информации по ним. Поэтому толку с него - ноль.

После недолгих поисков автор остановился на бесплатной программе Xenu's Link Sleuth, детально она описана в статье «Программа Xenu для проверки битых ссылок» на novichkoff.ru. Запуск программы был выполнен с настройками по умолчанию, результат ее работы для настоящего сайта изображен на рисунке ниже.

- Результат сканирования сайта программой Xenu

Xenu обнаружила семь битых ссылок. Но, в отличие от Google, Xenu четко указала страницу или страницы, на которой присутствует битая ссылка, см. рисунок ниже. Остается только открыть ее (их) и внести исправления.

- Страница, содержащая битую ссылку

И еще, цитируем из указанной выше статьи:

Сначала нам надо установить количество потоков. По умолчанию стоит 30, но, полагаю, это число при первых проверках надо уменьшить до 3-5 (рекомендация автора), чтобы не создавать излишней нагрузки на линии связи и сайт... ...а вот у меня и при 5 потоках сервер хостинга начинает бастовать. Поэтому начинать проверки следует осторожно и лишь постепенно увеличивая количество потоков.

Все это справедливо. Данный сайт, содержащий на 12.10.2014 11:16:51 всего 247 статей, Xenu просканировал моментально, а вот базовый http://tdocs.su с числом страниц 6617 «прожевывал» в течение пяти часов и очень здорово грузил вычислительные ресурсы хостинг-провайдера - время открытия страниц увеличивалось вплоть до минуты при норме в несколько десятков миллисекунд. Поэтому запускать Xenu лучше всего тогда, когда посещаемость ресурса минимальна - от 3 до 5-ти утра или в выходные дни.