Сегодня я хотел бы рассказать об одной очень легкой теме по получению уникального контента. Как говорят наши коллеги буржуи: «Content is King». Каждому хочется иметь много уникального, полезного и правильного текста, картинок и прочего на своем сайте. Самый правильный с точки зрения этики способ – это писать свои тексты, делать свои фотографии, т.е. создавать что-то свое. Но все мы прекрасно знаем, любим и используем всевозможные заменители этого процесса: генерации, синонимизации, рерайты, копирайты и прочее… Сегодня мы будем просто подбирать выброшенный текст. Текст, который не нужен автору и удален вместе с блогом.
Для примера я хотел бы рассмотреть нашумевший в прошлом в вебмастерских кругах блог одного очень интересного человека (smsm с умаксфорума, если не ошибаюсь). Его блог находился по адресу http://epavel.ru/blog/. Сейчас же там сияет надпись о том, что блог закрыт и все закончилось.
Наша цель – получить старое содержание блога. Его текст и фотки. Многие сразу же скажут – ВебАрхив! Да, согласен, из ВебАрхива часто можно вытащить полезные тексты, но есть «но»:
1. Его обрабатывают в промышленных масштабах.
2. Не всегда есть нужные страницы, а только главная или частично.
3. Работает не для всех сайтов.
Но в нашей схеме мы все же воспользуемся ВебАрхивом, для того чтобы как можно быстрей и точней получить бывший адрес RSS-фида. Идем по адресу http://web.archive.org/, вбиваем адрес нашего пациента epavel.ru/blog и по ссылке http://web.archive.org/web/*/http://epavel.ru/blog получаем доступные копии страниц этого блога.
Перейдя по ссылке http://web.archive.org/web/20080413165303rn_1/epavel.ru/blog/ мы видим копию старого блога и справа находим ссылку на RSS-фид.
А именно http://epavel.ru/blog/feed . Нам повезло. В этом случае мы могли бы найти легко бывший адрес фида всего двумя подстановками domain.com/RSS и domain.com/FEED без помощи вебАрхива. Но очень часто адреса фидов какие-то зашифрованные и длинные и/или используют сторонние сервисы, что делает практически невозможным угадывание адреса фида. Именно поэтому первым делом я рекомендую обращаться к вебархиву за помощью. Получили мы адрес фида. А что дальше? Он же пустой. Для того, чтобы получить содержание RSS-фида (а в данном случае и содержание блога) нам понадобится аккаунт в Google и их сервис Google Reader.
Заходим по адресу http://www.google.com/reader , вводим свой логин и пароль и попадаем внутрь акка (это для тех кто еще не использовал гугл-читалку). И кликаем на кнопку Add a subscription:
Выскочит новое окошко, в которое мы и должны вписать найденный адрес фида и нажать кнопку Add.
Все! Нам сразу начнут поступать все тексты и фотографии из блога за всю историю его существования. Осталось скопировать и вставить куда нужно. Для примера работоспособности данного метода я взял пост датированный Jul 14, 2007 (Акулий Оскал „Блогомонстра”).
Далее я запостил его в сервис бесплатных блогов WordPress. Желающие проверить – добавляем фид, находим этот пост и проверяем в гугле позиции моего блога с этим постом. Итак, в посте есть фразы «Акулий оскал и Сео тусовки», глубокие НЧ, но для наших целей самое то. Сам блог находится по адресу http://rxprulit.wordpress.com/ и на момент написания статьи находится на 5/6 месте в Ru-Google по запросу Акулий Оскал и на первом месте по запросу сео-тусовки.
Резюмируем: мы нашли (подобрали текст), вставили его к себе в сплог/блог/сайт и получили топ/траф. Все. Самое важное найти бывший RSS-фид сайта/блога и просто добавив его в Google – Reader получить содержание. Содержание, которое уже удалено из просторов интернета.
ВАЖНО! Очень часто популярные блоги страдают от разных RSS-агрегаторов, которые забирают текст по RSS и потом берегут его у себя. Перед использованием текста для серьезных целей, всегда проверяйте его в гугле „фразой в кавычках” на наличие дубликатов.
Где же брать источники (доноров) для использования? Я перечислю несколько методов, которые юзал сам:
1. Парсинг RSS-директорий и поиск ошибок. Т.е. если фид добавлен, но сейчас не работает, то есть существует вероятность, что блог удален. Директории можно парсить по необходимой нам теме.
2. Мониторинг Expired доменов с подстановками /RSS /FEED и / или проверкой по ВебАрхиву.
3. Все остальное.
Вот как пример: не так давно был шум вокруг Хронопея и кто-то там, писал что то там на блоге http://chronoplay.livejournal.com/ , потом блог закрыли и этим записями все делились по аськам и личкам как чем то „ВАУ, Ух-ты, дай почитать”. Кто успел делал сейвы, восстанавливал записи из кэша гугла. Но все гораздо проще. Почти все блоги на этой платформе имеют адрес фида http://USERNAME.livejournal.com/data/rss — просто добавьте http://chronoplay.livejournal.com/data/rss в Google Reader и сможете прочитать всю информацию с этого блога.
А вы знаете, что LiveJournal сейчас продает закрытые и удаленные блоги ? http://www.livejournal.com/misc/expunged_list.bml — по этому адреску. Намек понятен? Ну и дальше включаем фантазию подобным образом и находим свои уникальные источники!
Желаю всем успехов и денег! 🙂
Автор статьи: LoNduk.