Когда может понадобиться веб-архив и что это такое?

22.06.2018

Каждый знает, что такое Википедия. Уникальная интернет-энциклопедия, дающая ответы практически на любые вопросы. Но не все знают, что существует ещё один глобальный веб-проект, поставивший перед собой цель создания архива сайтов, когда-либо существовавших на просторах интернета. Имя этому проекту - веб-архив, размещённый по адресу web.archive.org. Эта бесплатная платформа действительно даёт возможность посетить те веб-ресурсы, которые уже давно канули в вечность и найти их нельзя даже в кэше поисковых систем.

Более подробно об истории веб-архива можно почитать на https://infounion.com.ua/blog.html. В данном материале будут рассмотрены те ситуации, когда просмотр истории уже несуществующего сайта может быть актуален или даже необходим.

Ностальгия

Сайты как люди – рождаются, живут и умирают. И не всегда можно с уверенностью сказать, что новые веб-ресурсы значительно превосходят ушедшие в небытие. Тем не менее, причины закрытия интересных блогов, форумов-конференций, просто информативных тематических сайтов могут быть любыми – банкротство создателя, потеря интереса к проекту со стороны большинства. Что не уменьшает утраты для многих пользователей, оказавшиеся в меньшинстве. Ресурс web.archive.org позволяет найти заветные странички старых сайтов, причём не просто скриншоты, а полноценные страницы со ссылками и CSS.

Восстановление сайта

Случается, что в работе сайта происходит серьёзный технический сбой. И далеко не все делают регулярное резервное копирование своего веб-ресурса. В случае полного краша единственным способом восстановить сайт является его извлечение из веб-архива. Это не очень простой процесс, однако вполне действенный и многие собственники утерянных сайтов пользуются помощью web.archive.org в подобных аховых ситуациях.

Уникальный контент

Извлечение контента из страничек сайтов, которые уже давно не индексируются, может стать находкой при необходимости быстро и бесплатно наполнить актуальный веб-ресурс уникальным текстовым наполнением. Это уже не будет плагиатом, поскольку архивные данные не содержат коммерческого контента. Их содержимое уже никому не принадлежит и ни кем не оплачивается.

Как запретить сайту попадать в веб-архив?

Не всегда и не все сайты попадают в библиотеку web.archive.org. Запретить сайту передавать данные в веб-архив может абсолютно каждый. Ведь сканирование и копирование содержимого происходит во время индексирования. Необходимо просто прописать в файле robots.txt защитные строки. Выглядит это так:

User-agent: ia_archiver

Disallow: /

После этого копирование сайта в web.archive.org больше не будет происходить. Это уместно, когда ресурс содержит коммерческие данные.