Шаг 7. О создании сайта на копипасте.
Наполнять сайт копипастом можно по разному. Можно уникализировать копипаст перед добавлением, меняя местами расположение блоков материала, изменяя заголовки. А можно просто скопировать как есть. Как показывает практика, Яндекс не так уж и плохо относится к не уникальному контенту, и наглядное подтверждение этому то, что он и не думает банить или фильтровать сайты новостных изданий, частенько тырящих друг у друга новости. И это я не про варезники всякие говорю, а про вполне солидные новостные издания. Да, там есть траст (доверие к сайту со стороны поисковых систем) но и не только это. Ведь в сущности, невозможно вообще всю информацию предоставлять в уникальном виде. Как например можно сделать рерайт стихотворения, интервью, или цитаты? Никак, потому что тогда, утратится стиль изложения, который имеет значение в данном случае.
Наполнять сайт копипастом можно по разному. Можно уникализировать копипаст перед добавлением, меняя местами расположение блоков материала, изменяя заголовки. А можно просто скопировать как есть. Как показывает практика, Яндекс не так уж и плохо относится к не уникальному контенту, и наглядное подтверждение этому то, что он и не думает банить или фильтровать сайты новостных изданий, частенько тырящих друг у друга новости. И это я не про варезники всякие говорю, а про вполне солидные новостные издания. Да, там есть траст (доверие к сайту со стороны поисковых систем) но и не только это. Ведь в сущности, невозможно вообще всю информацию предоставлять в уникальном виде. Как например можно сделать рерайт стихотворения, интервью, или цитаты? Никак, потому что тогда, утратится стиль изложения, который имеет значение в данном случае.
В общем, главное не думать о том, что это копипаст, и стараться предоставить его в новом изложении. Не нужно относится к копипасту как к грязи на Вашем сайте, и тогда все получится.
Копипастить материалы с других сайтов можно вручную, а можно использовать специальные программы. В том и в другом случае, эффект получится одинаковым, но вот времени и сил, автоматическое наполнение сайта сэкономит нам существенно.
Мы будем пользоваться Граббером, и Парсером предоставляемым одной кинопартнеркой.
Шаг 8. Парсер LoadPartners.
LoadPartners - это кинопартнерка, которая предоставляет парсеры для DLE и WordPress позволяющие автоматически загружать описания фильмов на сайты, работающие под управлением этих CMS. Преимущество использования этого парсера состоит в том, что мы не только получим более-менее уникализированный контент, но и будем иметь возможность заработать на трафике, если таковой вдруг заплывет на наш сайт.
Первым делом, регистрируемся в LoadPartners, входим в аккаунт, сразу переходим в "Промо", а за тем "Парсеры для DLE и WP". Жмем "СКАЧАТЬ ПАРСЕР ДЛЯ DLE" и сохраняем архив на компьютере. Распаковываем архив, достаем папку engineи файл install_parser_lp.php после чего бросаем их в корневую директорию сайта. На предложение Windows заменить существующую папку engine этой, отвечаем положительно. Вводим в браузере http://285.test1.ru/install_parser_lp.php (где 285 это папка с вашим сайтом) и видим что "Установка завершена". Идем в админку, открываем список всех разделов, и в самом низу обнаруживаем новый модуль - Loadpartners mod. Открываем его, и идем в "Настройки модуля". Здесь мы будем настраивать шаблон импорта, и все прочее. Но прежде, вернитесь в свой аккаунт на LoadPartners зайдите в "Промо" и узнайте свой партнерский ID, выглядит он примерно так: 13458-1. Впишите его в админке своего сайта в настройках модуля, вкладка "Основное" графа ID партнера.
В графе "Выберите адреса сайта для парсинга:" выберите playkino.com. Сохраните изменения.
Перейдите во вкладку "Жанры - соот-я ID" и установите флажок рядом с "Импортировать категории". Сохраните изменения.
Также, Вы можете выбрать, какие года, и жанры фильмов парсить.
Так, теперь, перед тем как настраивать "Шаблон оформления", мы должны определиться: будем загружать картинки на сервер или нет.
Есть ряд преимуществ в том, чтобы загружать картинки на сервер:
- Вы абсолютно не зависите от того, работает ли сервер LoadPartners. Картинки будут загружены в директорию uploads вашего сайта, и будут там находится в целости и сохранности, пока вы не решите их удалить.
- С вашего сайта не будет лишних ссылок, в виде картинок размещенных на чужом сервере. И хотя, их мы конечно можем скрыть тегом <noindex>, желательнее, чтобы внешних ссылок все таки не было.
- Картинки тоже индексируются Яндексом, и участвуют в соответствующем поиске. Да и Яндекс любит, когда в текстах присутствуют картинки, а у Вас их как бы не будет, ведь мы их скроем от индексации.
Из недостатков:
- Картинки грузить долго.
- Грузятся все картинки, включая скрины. Включить загрузку только постера - невозможно. Так что, картинки будут занимать довольно много места на сервере. Разве что, Вы можете потом вручную удалить скрины из папки uploads, это облегчит вес сайта. Но, на это у Вас может уйти много времени.
- Картинки на вашем сервере, будут создавать дополнительную нагрузку.
Решать Вам. Если хотите включить загрузку - включайте, если нет - не включайте. По умолчанию, загрузка картинок выключена.
Дальше, Настраиваем шаблон парсера LoadPartners
Шаг 9. Настраиваем шаблон парсера в LoadPartners.
Зайдите в "Настройки модуля" и откройте вкладку "Шаблон оформления".
С первого взгляда, шаблон Вам может показаться сложным, но на самом деле, все очень просто. Первым делом, давайте разберемся, что и как работает. Возьмем для примера строку из шаблона, и разберем его по частям:
[giv_type]<strong>Жанр фильма:</strong> [val_type][/giv_type]
Что мы видим? Строка состоит из 3-х частей. Я выделил эти части синим, зеленым, и красным цветом.
С зеленой частью надеюсь все понятно. Это обыкновенный текст в тегах стронг. Тег <strong> </strong> практически аналог тега <b> </b> или [B] [/B] в BBcode. Он выделяет текст, помещенный в его конструкцию, состоящую их открывающего (<strong>) и закрывающего (</strong>) тегов. Выглядеть это будет примерно так:
Жанр фильма:
Красная часть строки, как Вы наверное догададись, отвечает за то, какая именно информация будет парсится. В данном случае - это жанр фильма. Конструкция этого тега очень проста, и состоит из обязательного префикса val_ и уникального идентификатора. Вспомнили баннеры? Список всех доступных идентификаторов есть в настройках парсера, но я приведу его и здесь:
- id - id фильма (мультфильма) на сайте kinofilm24.com
- title - название фильма (мультфильма)
- description - описание фильма (мультфильма)
- movie_img - ссылка на постер к фильму (мультфильму)
- direct_link - прямая ссылка на страницу с фильмом (мультфильмом)
- partner_link - партнерская ссылка на страницу с фильмом (мультфильмом)
- year - год выпуска
- size - размер файла
- quality - качество
- actors - актеры, принимавшие участие в съемках
- director - режиссер
- original - оригинальное название
- country - страна
- slogan - слоган
- screenwriter - сценарист
- producer - продюсер
- operator - оператор
- composer - композитор
- budget - бюджет
- fees_usa - сборы в США
- fees_world - сборы в мире
- fees_rus - сборы в России
- premier - премьера в мире
- premier_rus - премьера в России
- reliz_dvd - релиз на dvd
- time_film - продолжительность
- imdb - рейтинг imdb
- reliz_bluray - релиз blu-ray
- rate_pg - рейтинг MPAA
- actors_dubl - роли дублировали
- trivia - интересный факт о фильме
- type - жанр фильма
- screen1 - 1-й скриншот
- screen2 - 2-й скриншот
- screen3 - 3-й скриншот
В нужном месте, в квадратных скобках пишите префикс val_ и добавляете к нему идентификатор, например premier_rus, получится должно следующее:
[val_premier_rus]
Этот тег, выведет дату премьеры фильма в России. В сочетании с зеленой частью строки, в которой мы напишем следующее:
<b>Премьера в России</b>
получим примерно следующее:
Премьера в России: 9 февраля 2011
Вы можете выделить тегами не только зеленую часть строки, но и красную, в таком случае, "9 февраля 2011" выведется полужирным, подчеркнутым, красным, зеленым, синим, или с каким хотите цветом или эффектом.
И наконец синяя часть строки, отвечает за проверку наличия той информации, которую требует [val_идентификатор]. Чтобы у вас не было пустых строк, добавляйте проверку. Принцип тот же что и у красной части, тег состоит из префикса giv_ и идентификатора. Разница лишь в том, что требуется закрывающий тег.
В общем, все очень просто. Теперь, когда мы разобрались что к чему, Вы можете отредактировать шаблон оформления по своему желанию. Рекомендую Вам сначала поменять местами строки, сгруппировать их по блокам, это позволит уникализировать материал. Также, замените все описания на свои. Например вместо "В ролях:" напишите "Актеры:" или "В фильме снимались". Шаблон для заголовка тоже обязательно измените.
Удалите все лишнее, например это:
<table><tr><td width="130" valign="top">
Не забудьте вставить ссылку для скачивания, предварительно заключив ее в теги [leech] [/leech] для предотвращения индексации:
[leech=[val_partner_link]]Скачать[/leech]
Если Вы решили загружать картинки, то на этом все с настройкой шаблона. Если нет, тогда конструкцию:
[img=left][val_movie_img][/img]
Возьмите в теги <noindex></noindex>. Должно получится вот так:
<noindex>[img=left][val_movie_img][/img]</noindex>
Тоже самое проделайте со скриншотами:
<noindex>[giv_screen1][center][thumb][val_screen1][/thumb][giv_screen2][thumb][val_screen2][/thumb][/giv_screen2][giv_screen3][thumb][val_screen3][/thumb][/giv_screen3][/center][/giv_screen1]</noindex>
Или, можете скрыть их при помощи хайда:
[hide][giv_screen1][center][thumb][val_screen1][/thumb][giv_screen2][thumb][val_screen2][/thumb][/giv_screen2][giv_screen3][thumb][val_screen3][/thumb][/giv_screen3][/center][/giv_screen1][/hide]
Все что помещается в теги [hide] [/hide] становится невидимым для незарегистрированных пользователей (по умолчанию). Роботы поисковых систем не зарегистрированные пользователи, так что, это то, что нам нужно.
Когда все это будет сделано, перейдите в "Основной раздел" парсера, и нажмите на кнопку "Первичный импорт базы".
Как только База загрузится, посетите раздел "Категории" в админпанели, и удалите все лишние, и пустые категории. Если до этого, вы зайдете на сайт, или в раздел "Редактировать новости" в админке, то увидите, что названия категорий не отображаются. На самом деле, они спарсились, просто еще не обновились. Пока вы не пересохраните любую категорию (или удалите одну из категория) или не очистите кеш, данные не обновляться.
Все, сайт наполнен контентом.
Шаг 10. Граббер.
Граббер потому и граббер, что позволяет грабить практически любые сайты работающие на DLE. Однако, он не дает возможности так хорошо настроить парсинг, как это позволяет сделать парсер LoadPartners. Поэтому, по возможности, старайтесь пользоваться именно парсером от LoadPartners. Сначала я не хотел даже писать о граббере, зачем, если есть такой хороший парсер? Но потом подумал: мало ли что может случится с LoadPartners, граббер будет работать всегда.
Для начала, скачайте граббер.
Распакуйте архив, достаньте из него папку grab и положите в корневую директорию сайта. Откройте в браузере http://285.test1.ru/grab/index.php (где 285 это имя папки, в которой у Вас лежит сайт). Никаких ошибок, не должно быть, все должно открыться без проблем. Теперь нам нужно найти как можно больше сайтов, работающих на DLE. Ну, это не трудно. Кстати, это не обязательно должен быть варезник. Можете выбрать любой сайт, который работает на DLE.
Перейдите в раздел "Настройки" и в обязательном порядке поставьте галочки перед:
- Проверять новость на существование
- Делать задержку перед скачиванием полного поста
- Делать хайд
В поле "Автор новостей:" укажите имя автора, свое, или придумайте какое-то.
Здесь Вы тоже можете выбрать, загружать картинки, или нет. Но в данном случае, их лучше все таки загружать.
Что касается синонимизации, то я бы посоветовал не пользоваться ею вообще. Это не скрасит Ваш сайт ни перед редким посетителем, ни перед поисковыми системами. Но если хотите, тогда сначала откройте в браузере http://285.test1.ru/grab/install.php (где 285 сами знаете что) и подождите, пока увидите сообщение о том, что "База установлена". Это нужно для того, чтобы в базу данных Вашего сайта, загрузилась база синонимов.
Перейдите во вкладку "Граббинг", введите адрес сайта работающего на DLE (любой версии) и укажите, с какой, по какую страницу грабить. Учитываются только те страницы, которые выводятся в навигации, в самом низу сайта. Категорию, в которую нужно загружать новости, пока можете не указывать. Но если Вы собираетесь грабить конкретный раздел сайта (для этого, введите полный путь к разделу в поле "Сайт:"), то можете указать заранее созданную категорию для новостей из этого раздела. Категории создаются в админпанели.
Жмите начать, и спустя некоторое время, все материалы из указанных страниц будут сграблены. Можете продолжить грабить и наполнять сайт. Но, не стоит все материалы брать только с одного сайта, и подряд.
Разбить материалы по категориям, когда Вы напарсите их достаточное количество, можно в админке, в разделе редактирования новостей. Откройте "Расширенный поиск новостей" и в поле "Поиск по новостям:" введите ключевое слово. Для этого, Вы должны хотя бы примерно знать, какие материалы загружались. Если парсился сайт с фильмами, то названия категорий обычно жанры фильмов, и так далее. Создайте категории, и переместите в них найденные при помощи расширенного поиска материалы.
Так, на этом с граббером закончим.
Комментариев нет:
Отправить комментарий