Приветствую, читатели RXPBlog’а. В своей новой статье я хотел бы поговорить о такой насущной теме, как добыча уникального контента. Где обычно добываются тексты?
Заказывается рерайт, копирайт, нарушители правил используют скан, особо ленивые синомайз, лихие ребята ищут ещё не проиндексированные сайты и парсят оттуда. Но мы подойдём к решению проблемы из-за угла, я расскажу Вам о самом необычном способе добычи контента. Для начала пройдёмся по контенту в общем.
Все знают, что уникальный контент благотворно влияет на индексацию и ранжирование сайта в серпе. Рерайт и копирайт самые легальные и полезные способы, но и самые дорогие. В принципе, я не считаю, что на этом стоит заострять внимание, ибо всё настолько просто, что лишь создаст лишние буквы в статье. Советую зайти на серч, обширный выбор рерайтеров и хорошее качество.
Гораздо интереснее обстоят дела со сканом. Книги сканировать уже нет смысла, всё давно отсканировано и выложено. Сканировать можно журналы. Хотя, зачем их сканировать, если кто-то уже сделал это за нас и нам останется только вытащить текст. Журналы качаем на http://journal-plaza.net/, http://jurnalik.ru/ и им подобных порталов, коих в Интернете более чем достаточно. Но здесь тоже есть свои нюансы.
Надо либо качать самые свежие журналы, которые ещё не успели спарсить другие, либо искать редкие журналы. Я предпочитаю второе, потому что в первом случае всё дело в скорости. Новые сайты на свежем скане не поднять, т.к. время, за которое обычно из вышедшего журнала парсятся и выкладываются тексты идёт на часы. Нет, конечно через 2-4 часа после выхода журнала в выдаче ещё не будет текстов из него, но через 1-2 дня точно. Поэтому такой способ подходит только для уже готовых и хорошо индексируемых сайтов. Другое дело — редкие журналы. Я находил десятки выпусков редких журналов, которые даже и близко к выдаче не стояли. Такой контент остаётся уникальным практически вечно и хорошо подходит для подъёма новых сайтов.
Кратко опишу процесс добычи такого контента. Скачиваем журнал, который собираемся спарсить. Обычно они идут в формате .pdf. Для вытаскивания текста нам потребуется программа ABBYY Finereader. Я использую версию ABBYY Finereader 10.0.102.109, найти на торренте уже крякнутый вариант не составит труда. Версии ниже десятой использовать не советую, т.к. значительно страдает скорость процесса и качество получаемого текста. Десятка работает быстро и выдаёт текст практически без ошибок, подойдёт для любого СДЛ. После того, как имеем текст, нужно проверить его на уникальность. Под эти нужды я использую Advego Plagiatus. На сайте программы можно скачать последнюю версию, она заметно быстрее предыдущих. Однако я бы посоветовал приобрести также и версию 1.1.0.49, она значительно стабильнее всех вышедших после неё. Существуют также и другие утилиты, такие как «etxt антиплагиат» и «miratools», но я отдаю предпочтение Адвего, потому как он находит плагиат наиболее полно. Вот собственно и всё, что я хотел рассказать о стандартных способах. Вещи по сути известные и не требуют к себе особого внимания.
Если гора не идёт к Магомеду, то Магомед идёт к горе. Если тексты не идут к нам, то мы подойдём к текстам. Мы будем искать контент для ГС и текстовок под доры. Кто-то делает их на копипасте, кто-то на уникальном тексте. Дело вкуса. Под текстовки, если они нужны уникальные, как правило, используют синомайз. Дёшево, сердито и в половине случаев нечитаемо. Откуда ещё можно получить текст? Включаем фантазию и логику, не всё записывается на бумагу, существует ведь ещё и устная речь. А это просто кладезь уникального контента, тонны слов пропадают, так и не успев быть записанными. Не страшно, это можно исправить. Качаем демо-программу WaveToText по ссылке http://narod.ru/disk/28545455001/WaveToTextSetup.exe.html. Полную или крякнутую версию можно найти на торрентах, например на рутрекере. Предоставленная по ссылке версия исключительно для теста некоторых возможностей.
Вот краткое её описание:
Better Wave To Text is an English speech recognition-based dictation pad that has a wav to text converter.
The dictation pad lets you convert your voice to text in real-time, while the program’s wizard enables you to convert your Windows Audio WAV files (speech recorded) offline.
This speech utility is probably the most high speed way to convert speech to text, you don’t need to be conscious of what the computer is going to write, you also don’t miss a word as its stored in a wav file.
You may then high speed edit the converted text using a special editor which plays back every word which you can mark for editing purposes.
In addition, the text can be searched and easily cut, copied, and pasted into any application.
Устанавливаем, нужный нам экзешник находится в этой папке:
Программа читает файлы только в формате .wav, соответственно нам нужен конвертер, при помощи которого мы сможем переводить любые звуковые файлы в нужный нам аудиоформат. Я использую Aiseesoft Total Video Converter 6, погуглив, Вы легко найдёте крякнутую версию программы. Не гуглив, можно скачать ту же, что использую я http://rutracker.org/forum/viewtopic.php?t=3516415 Можно использовать, конечно, любой другой конвертер, однако я, перепробовав много вариантов остановился всё таки на этом. Скорость конверта и количество форматов радуют.
Аудиофайлом может быть что угодно. Будь то аудиокнига, песня, радиоэфир или дорожка из под целого фильма. Единственное, чем чище аудиодорога, тем читабельнее будет текст на выходе. Всё-таки его делает программа, вероятность ошибки или вставки не того слова достаточно велика. Получается механический текст, который достаточно трудно читаем. Для текстовок и ГС, подобные уникальные буквы сойдут на ура. Программа WaveToText работает только с английскими текстами. Для работы в русском сегменте рынка можно попробовать использовать программу «Горыныч». Лично я с ней не разобрался, ибо глюченная страшно.
Пока что тексты, получаемые таким методом схожи с синомайзом, но я считаю, что это идея для будущего. Программы развиваются постоянно, и возможно скоро они смогут распознавать произнесенные слова без единой ошибки. Я вижу в таком способе перспективу, не отрицаю и того, что в будущем многие тексты для СДЛ будут получаться именно таким способом, ведь из устной речи можно вытащить очень много интересного.
Побольше вам уникального контента, высоких позиций в выдаче и хороших продаж! Не забывайте искать новые, на первый взгляд безбашенные способы и делиться ими здесь, на блоге.
Автор статьи: The_Rock.