
Заработок в интернете не ограничивается контекстной рекламой по типу AdSense! И причина не в сложностях, с которыми сталкивается веб-мастер при обналичивании чека, присланного компанией Google. Дело в том, что чтобы получить доход с рекламной веб-площадки, необходимо сначала просетапить эту самую площадку. А для начала неплохо бы подобрать домен для компьютерного сайта.
Существует расхожее мнение, что все благозвучные доменные имена давно уже зарегистрированы, и нам не остается ничего, кроме длинных или труднопроизносимых словосочетаний. Не оспаривая в целом эту истину, отметим, что некоторые занятые домены со временем освобождаются в силу различных причин и обстоятельств. Задача пронырливого киберсквоттера — вовремя сориентироваться, найти нужный свободный ресурс и скромным бюджетом зарегистрировать его.
Часто бывает так, что сайт имеет бурную (или не очень) предысторию, и в случае ее положительной оценки у веб-мастера есть желание, да и все основания, восстановить прежний контент. Каким способом это сделать?
Эксперимент
Для того чтобы написать эту статью мы решили зарегистрировать на себя доменное имя interierplus.com, которое ранее принадлежало одной торговой организации из Хмельницкого, специализировавшейся на торговле строительными материалами для внутренней отделки помещений: линолеум, ламинат, обои, паркетная доска и т.п. На момент регистрации сайт салона «Интерьер Плюс» на других доменах найден не был. Это давало основания предполагать, что компания прекратила свою деятельность, и мы, восстановив контент пусть даже с исследовательской целью, не ущемим ничьих интересов и не нарушим ничьи права.
Веб-история сайта «Интерьер Плюс»
То, что данные сайта Интерьер Плюс хранятся в веб-архиве мы знали и до его регистрации. Здесь нет особого know-how, кроме разве что прямого знания о ресурсе, ведущего интернет-историю. Другое дело программа HowManyPage, найденная здесь, которая обеспечивает пакетный доступ к веб-архиву. Результатом запроса утилиты является информация о количестве хранящихся копий (важный параметр $kol_files) и бек-линков (несущественный параметр $backYH).
Это уже кое-что. Имея на руках такую информацию, можно оценить трудозатраты при ручном восстановлении обнаруженных в архиве страниц сайта или… Или попытаться найти способ роботизировать этот процесс.
Попытка восстановления с помощью утилиты CheckParams
Первоначально в качестве инструмента для восстановления сайта из архива мы взяли утилиту, чье название уже вынесено в подзаголовок. Использование бесплатной лицензии жестко регламентирует ее производитель, не в последнюю очередь и потому, что CheckParams — это многоцелевая программа, функциональность которой расширяется с помощью скриптов, оформленных в виде отдельных модулей. Процедура получения лицензии следует из скрин-шота, поданного ниже:
Для достижения поставленной нами цели необходимо загрузить с сайта разработчика скрипт wa-grabber, предназначенный для препарации архивных данных в html-код искомого сайта. Работой Web-Archive Grabber'а управляет окно его установок, где можно задать все необходимые параметры. К числу их относится имя файла (на примере внизу — это readme-wa-grabber.txt), в котором хранятся адреса оживляемых сайтов.
Уже в редактировании поля URLs to grab проявился норов утилиты CheckParams: она регулярно "забывала" значение этого поля, предлагая по умолчанию выше приведенный текст, в то время, когда в поле Results dir отлично сохранялись введенные данные. В конце концов, неадекватность комплекса CheckParams плюс Web-Archive Grabber привела к тому, что восстановление сайта оказалось для него непосильной задачей.
Он-лайн парсер Robotools
Единственной надеждой для нас оставался веб-сервис, предлагаемый сайтом R-Tools. Условия его использования таковы, что новообращенный пользователь может восстановить из архива сайт (сайты), суммарным объемом не бо лее 360 страниц. При условии, что ему удастся зарегистрироваться :)
Если регистрация прошла успешно (в случае возникновения проблем нужно просто войти в «Чат с админом» и создать сервис-тикет) , в личном кабинете мы вводим либо путь к упокоенному в архиве сайту, либо список доменов на восстановление.
В виду того, что мы не ставим перед собой задачу просуппортить сервис Robotools, часть промежуточных скрин-шотов этого увлекательного занятия мы пропускаем и представляем «полуфинальный» снимок экрана, который засвидетельствовал несомненный успех. Сайт interierplus.com успешно восстановлен: у нас на балансе 56 его страниц, общим объемом 2,6 мегабайта. Попутно отметим, что уровень нашего кредитования снизился до 339 страниц. Это арифметика в пояснениях не нуждается.
Еще один, предваряющий завершение процесса, снимок экрана дает количественное представление о проделанной работе и позволяет встроить в код сайта параметры для биржевых операций. Судя по надстрочному индексу NEW, это опция появилась сравнительно недавно:
Дело техники: загрузить архив и выложить его на хостинг. Теперь у нас пусть и неполноценный сайт, в котором недостает большинства страниц и не работает часть внутренних ссылок, но, впрочем, рабочая площадка, которую смогут посещать роботы поисковых машин. Если веб-ресурс длительное время находился в дауне, требуется некоторое время, для того, чтобы поисковики восстановили его в своих базах данных и присвоили ему соответствующий рейтинг. Во всяком случае, сайт ожил, и он виден в мировой паутине:
Мы проделали этот эксперимент с целью обзора современных программных средств по работе с вебом. Наш следующий шаг — продажа сайта на интернет-биржах. У нас теперь есть что предложить потенциальным клиентам.