Как восстановить сайт из веб-архива?

13 Ноя 2012

Как восстановить сайт из веб-архива?

Заработок в интернете не ограничивается контекстной ре­к­ламой по типу AdSense! И причина не в сложностях, с ко­то­рыми сталкивается веб-мастер при обналичивании чека, присланного компанией Google. Дело в том, что чтобы по­лучить доход с рек­лам­ной веб-площадки, необходимо сна­чала просетапить эту самую площадку. А для начала не­пло­хо бы подобрать домен для компьютерного сайта.

Существует расхожее мнение, что все благозвучные до­мен­ные имена давно уже зарегистрированы, и нам не остается ничего, кроме длинных или труд­но­про­из­но­си­мых сло­во­со­че­та­ний. Не оспаривая в целом эту истину, отметим, что не­ко­то­рые занятые домены со временем ос­во­бо­жда­ют­ся в силу различных причин и об­сто­я­тельств. За­да­ча про­ныр­ли­во­го киберсквоттера — вовремя со­ри­ен­ти­ро­вать­ся, найти нужный свободный ресурс и скром­ным бюд­же­том за­ре­ги­стри­ро­вать его на себя.

Часто бывает так, что сайт име­ет бурную (или не очень) предысторию, и в случае ее по­­ло­­жи­­те­ль­­ной оценки у веб-мастера есть желание, да и все ос­но­ва­ния, восстановить прежний контент. Каким способом это сделать?

Эксперимент

Для того чтобы написать эту статью мы решили зарегистрировать на себя доменное имя interierplus.com, ко­то­рое ранее принадлежало одной торговой организации из Хмельницкого, специализировавшейся на торговле стро­и­тель­ными материалами для внутренней отделки помещений: линолеум, ламинат, обои, паркетная доска и т.п. На момент регистрации сайт салона «Интерьер Плюс» на других доменах найден не был. Это давало ос­но­ва­ния пред­по­лагать, что компания прекратила свою деятельность, и мы, восстановив контент пусть даже с ис­сле­до­ва­тель­ской целью, не ущемим ничьих интересов и не нарушим ничьи права.

Веб-история сайта «Интерьер Плюс»

То, что данные сайта Интерьер Плюс хранятся в веб-архиве мы знали и до его регистрации. Здесь нет особого know-­how, кроме разве что прямого знания о ресурсе, ведущего интернет-историю. Другое дело программа How­Many­Page, найденная здесь, которая обеспечивает пакетный доступ к веб-архиву. Результатом запроса утилиты является информация о количестве хранящихся копий (важный параметр $kol_files) и бек-линков (не­су­щест­вен­ный параметр $backYH).

Программа HowManyPage для восстановления сайта из Web-архива

Это уже кое-что. Имея на руках такую информацию, можно оценить трудозатраты при ручном восстановлении об­на­ру­женных в архиве страниц сайта или… Или попытаться найти способ роботизировать этот процесс.

Попытка восстановления с помощью утилиты CheckParams

Первоначально в качестве инструмента для восстановления сайта из архива мы взяли утилиту, чье название уже вынесено в подзаголовок. Использование бесплатной лицензии жестко регламентирует ее производитель, не в последнюю очередь и потому, что CheckParams — это многоцелевая программа, функциональность которой рас­ши­ря­ется с помощью скриптов, оформленных в виде отдельных модулей. Процедура получения лицензии следует из скрин-шота, поданного ниже:

Бесплатную лицензию на 3 дня дает утилита CheckParams для восстановления архивного сайта

Для достижения поставленной нами цели необходимо загрузить с сайта разработчика скрипт wa-grabber, пред­наз­на­чен­ный для препарации архивных данных в html-код искомого сайта. Работой Web-Archive Grabber'а уп­рав­ля­ет окно его установок, где можно задать все необходимые параметры. К числу их относится имя файла (на при­ме­ре внизу — это readme-wa-grabber.txt), в котором хранятся адреса оживляемых сайтов.

Опции Grabber для работы с Web Archive

Уже в редактировании поля URLs to grab проявился норов утилиты CheckParams: она регулярно "забывала" значение этого поля, предлагая по умолчанию выше приведенный текст, в то время, когда в поле Results dir отлично сохранялись введенные данные. В конце концов, неадекватность комплекса CheckParams плюс Web-Archive Grabber привела к тому, что восстановление сайта оказалось для него непосильной задачей.

Он-лайн парсер Robotools

Единственной надеждой для нас оставался веб-сервис, предлагаемый сайтом R-Tools. Условия его использования таковы, что новообращенный пользователь может восстановить из архива сайт (сайты), суммарным объемом не бо лее 360 страниц. При условии, что ему удастся зарегистрироваться :)

В сервисе R-Tools Можно ввести данные для восстановления любого сайта

Если регистрация прошла успешно (в случае возникновения проблем нужно просто войти в «Чат с админом» и со­з­дать сервис-тикет) , в личном кабинете мы вводим либо путь к упокоенному в архиве сайту, либо список до­ме­нов на восстановление.

Список доменов на восстановление в R-Tools выглядит так

В виду того, что мы не ставим перед собой задачу просуппортить сервис Robotools, часть промежуточных скрин-шотов этого увлекательного занятия  мы пропускаем и представляем «полуфинальный» снимок экрана, который за­сви­детельствовал несомненный успех. Сайт interierplus.com успешно восстановлен: у нас на балансе 56 его стра­ниц, общим объемом 2,6 мегабайта. Попутно отметим, что уровень нашего кредитования снизился до 339 стра­ниц. Это арифметика в пояснениях не нуждается.

Восстановление сайта из архива сервисом R-Tools успешно завершено

Еще один, предваряющий завершение процесса, снимок экрана дает количественное представление о про­де­лан­ной работе и позволяет встроить в код сайта параметры для биржевых операций. Судя по надстрочному ин­дек­су NEW, это опция появилась сравнительно недавно:

Результат восстановления сайта и приглашение сервисом R-Tools собрать архив

Дело техники: загрузить архив и выложить его на хостинг. Теперь у нас пусть и неполноценный сайт, в котором не­до­ста­ет большинства страниц и не работает часть внутренних ссылок, но, впрочем, рабочая площадка, которую смогут посещать роботы поисковых машин. Если веб-ресурс длительное время находился в дауне, требуется не­ко­то­рое время, для того, чтобы поисковики восстановили его в своих базах данных и присвоили ему со­от­вет­ству­ю­щий рей­тинг. Во всяком случае, сайт ожил, и он виден в мировой паутине:

Скрин-шот сайта http://interierplus.com

Мы проделали этот эксперимент с целью обзора современных программных средств по работе с вебом. Наш сле­ду­ю­щий шаг — продажа сайта на интернет-биржах. У нас теперь есть что предложить потенциальным кли­ен­там.

Теги: