Среди своих рефов я очень часто встречаю схожие затруднения, у большинства из них есть спамилки, которые они либо покупают, либо находят где-то в интернете, но спамить им нечем, у них нет более ли менее хорошей конкурентноспособной базы. В этой статье я постараюсь изложить методы парсинга, т.е. постараюсь научить новичков собирать как можно больше.
Парсинг - это процесс сбора ресурсов (сайтов). Сбора не именно сайтов, а их адресов. Мы эти ресурсы собираем для последующего в них спама. Парсить можно все что угодно - гостевые книги, форумы, блоги, вики, главное чтобы в них можно было оставить свое сообщение со ссылкой на свой дор.
Запрос - это то, что мы вводим в поисковике.
Выдача - это те сайты, которые выдает поисковик на наш запрос.
Далее хочу заметить, что наиболее важное в парсинге это умение правильно пользоваться поисковиком. Поэтому нужно знать синтаксис запросов. Я остановлюсь на гугле т.к. у него самая большая база данных, относительно других поисковиков.
Синтаксис запросов гугла.
1)inurl:"xxx" - поисковик выдаст все сайты у адресе которых найдет ххх, вместо ххх мы можем вставить любое другое слово, например guestbook,forum и т.д.
2)intitle:"xxx" - поисковик выдаст все сайты в заголовке которых найдет ххх. Опять же вместо ххх может быть любое слово.
3)site:.xxx.com - поисковик выдаст все страницы с домена xxx.com, вместо ххх.соm может быть любой домен любого уровня. Это может быть jopa.mail.ru или например просто .ru, если мы просто оставим .ru, то поисковик выдаст нам все сайты с доменной зоны .ru. Вместо .ru могут быть .com, .org, .net и т.д.
4)intext:"xxx" - поисковик выдаст нам все сайты в тексте у которых было найдено слово ххх. Вместо ххх - любое слово.
5)"ххх" - поисковик выдаст нам сайты в которых было найдено слово ххх (найденно было везде в урле или в тексте или в заголовке, неважно).
6) -"ххх" - поисковик выдаст нам все сайты исключая те, в которых было найдено слово ххх. После минуса также могут стоять inurl:"xxx" intitle:"xxx" site:.xxx.com intext:"xxx" и др.
***Можно писать то же самое и без кавычек, но я настоятельно рекомендую всегда их ставить, т.к. кавычки показывает гуглу строгость запроса, и поэтому он не будет выдавать всякую дрянь, которая по его мнению тоже подходит под запрос.
Очень важно не только знать синтаксис запросов, но и уметь правильно комбинировать их. Этим мы сейчас и займемся. На самом деле все очень и очень просто.
Введение.
В мире существует огромное число гостевых книг, но все они грубо говоря делятся на два основных вида однотипные и неоднотипные. Однотипные гостевые - это гостевые которые имеют одинаковые окончания и одинаковые обязательные поля для заполнения.
Вот примеры некоторых однотипных гостевых.
http://www.saveus.org/guestbook/sign.asp?PagePosition=1
http://www.caltrap.org/guestbook/sign.a … Position=1
http://mail.bebat.be/guestbookf/sign.asp?PagePosition=1
или
http://www.becquet.com/addguest.html
http://www.vetgen.com/guest/addguest.html
http://www.newcreations.net/webmaster/g … guest.html
Чем эти гостевые удобны :
1) Легко парсятся
2) Легче анализируются (если не спамиться 10 гостевых этого типа, значит все остальные скорее всего тоже не спамятся)
Так вот новичкам я бы советовал начинать со сбора именно однотипных гостевых.
Типов гостевых существует огромное приогромное множество, соответственно различных однотипных гостевых тоже.
Займемся парсингом. Для начала мы должны определиться какой тип гостевой мы хотим собирать и чем (всмысле руками много не соберешь ). Когда я начинал, я пользовался программой AllSubmiter. В нем есть встроенный парсер. Программа как и все другие платная, но без триал срока. А если не крякать эту программу то она выполняет только функции парсера, хех, а нам именно это и нужно т.к. если мы скачам его и не активируем, то будет работать только парсер, парсер собирает все урлы со страницы исключая внутренние ссылки гугла, парсер отсеивает на дубликаты доменов и дубликаты ссылок.
AllSubmiter берем здесь
Для нового типа гостевых мы создаем новую базу данных.
Задаем ей имя.
Теперь приступим, я покажу на конкретном примере как собирать базу с помощью аллсубмитера. Давайте соберем, ну скажем тип гостевой - gbook.php?a=sign. Эти гостевые имеют одинаковые окончания При вводе в гугле inurl:"gbook.php?a=sign" в гугле их ~ 10,5К. Но гугл не выдает больше 1000 результатов с запроса, что же делать, как собрать больше 1К? Для этого необходимо много раз сузить запрос, обязательно чтобы выдача по запросу не превышала тысячу сайтов, таким образом мы можем собрать все результаты. Аналогией может быть то, что с девочки не снимешь всю одежду сразу одним махом, сначала одно, потом другое, потом лифчик и т.д. В результате она все равно станет голой, и трахаться будет тот, который снял всю одежду, а не тот, который попробовав снять все сразу одним махом, снял только кепку и подумал что ничего другого с нее не снимешь. Это я к тому что не заканчивается парсинг сбором гостевых по запросу inurl:"gbook.php?a=sign", но с него начинается. Желательно сделать запрос даже таким
inurl:"gbook.php?a=sign" -"error" -"warning" ,таким образом мы убираем часть плохих нерабочих сайтов.
После того как мы создали новую базу данных а allsubmitere, вводим в браузере программы google.com, и вводим там запрос. (Необходимо чтобы в гугле было поставленно - "выдавать по 100 урлов на странице", это ускорит сбор парсером аллсубмитера), вот что мы видим
Далее жмем на Базы Данных -> Импортировать из IE
Добавить
Добавилось 99 ссылок
Потом жмем ОК, потом в браузере программы "Назад" и то же самое проделываем со 2-й страницой выдачи, потом с третьей и т.д.
Проделав это составим другой запрос например >>
inurl:"gbook.php?a=sign" site:.com, т.е. соберем все гесты с доменной зоны .com, опять проделаем ту же процедуру сбора (см. картинки)
потом другой запрос
inurl:"gbook.php?a=sign" site:.net
inurl:"gbook.php?a=sign" site:.biz
inurl:"gbook.php?a=sign" site:.org
Вообще можно пребрать все типы доменов.
site:.com
site:.net
site:.biz
site:.org
site:.in
site:.name
site:.ru
site:.fr
site:.it
site:.edu
site:.gov
site:.mil
site:.info
site:.au
site:.at
site:.by
site:.be
site:.bg
site:.ca
site:.cn
site:.cz
site:.dk
site:.eg
site:.de
site:.gr
site:.hu
site:.ie
site:.il
site:.jp
site:.us
site:.uk
site:.ua
site:.ch
site:.se
site:.es
site:.pl
site:.nl
site:.ro
site:.to
site:.mx
Алсубмитер будет добавлять базу только уникальные домены, поэтому не стоит бояться делать любые запросы, дубликатов не будет ?
Затем можно сделать такие запросы
inurl:"guestbook/gbook.php?a=sign"
inurl:"gbook/gbook.php?a=sign"
inurl:"gb/gbook.php?a=sign"
inurl:"guest/gbook.php?a=sign"
А потом сделать такую фишку
inurl:"gbook.php?a=sign" - inurl:"guestbook/gbook.php?a=sign" -inurl:"gbook/gbook.php?a=sign" -inurl:"gb/gbook.php?a=sign" -inurl:"guest/gbook.php?a=sign"
т.е. отсеить то что уже напарсилось
Можно комбинировать самые и самые разные запросы вместе, можно используя “-”
отсеивать то, что вы уже напарсили, главное сделать как можно больше запросов.
Где искать новые типы гестов? Обычно я использовал два метода :
1) В интернете часто распостраняются готовые гостевые книги, а раз они распостраняются значит они массовые, т.е. для всех, то есть многие их себе устанавливают на разные сайты и т.д. Просто качаешь эти гесты заливаешь на фришник и смотришь на что они оканчиваются, а потом это окончание смотришь в гугле, если большая выдача значит имеет место ее собирать, небольшая - значит эти книги не пользуются популярностью и собирать их нет особого смысла.
2)Можно искать новые типы гестов в бэках у конкурентов, все может и говорят типо некрасиво и т.д., но очень и очень многие так делают, хотя имхо лучше комбинировать первый и второй способы.
Из нормальных автоматических парсеров очень рекомендую парсер Манго (253880089 – его ася), он недорогой, но очень быстро и качественно собирает, фильтрует на дубликаты и удаляет пхп сессии + распределяет по ПР.
Впринципе все, все вопросы и пожелания пишите тут, постараюсь ответить всем.
Доброго Вам времени суток уважаемые посететители нашей кафэшки. Сегодня хочу поделиться с Вами информацией о регистрации Вашего(а может и не вашего - без разницы) сайта в каталогах ссылок. В первую очередь давайте разъясним зачем это вабще нужно. Регистрация в каталогах это метод рассказать о своём сайте всему миру (но как правило используется для рассказа поисковику ) Прогон (таже регистрация) сайта по каталогам как правило наиболее простой и действенный способ набить хоть какое-никакое значение тИЦ и PR, прогон получил наибольшее распространение из-за дешевизны. Ведь раскрутка сама по себе дорогостоящий проект, требующий применение мозга и накопленных знаний, а с помощЪю регистрации вы получаете много бесплатных ссылок на Ваш сайт тем самым наращивая и трафик (минимальный) и заветные циферки... К сожалению метод прогона по
базам каталогов в настоящее время всё сильнее и сильнее теряет свою значимость, т.к поисковые системы начинают всё строже относиться к сайту на который приходится много линков в самом начале его развития. Но, тем не менее, регистрация в каталогах остаётся наиболее популярным методом продвижения сайта к вершинм ПС. Эх, хорошо написал, только таффтологии много и ошибок, Вы уж меня простите.
В первую очередь нам предстоит найти программу облегчающую регистрацию.(называется она allsubmitter и найти её можно в соседней теме "Софт для продвижения сайта"). AllSubmitter сам автоматически заполняет регистрационную форму, исходя из указанных в настройках данных. Ну будем считать что прогу мы нашли. Теперь стоит заняться Поиском базы каталогов (опятьже расскрою военную тайну - в теме "Софт для продвижения сайта" я постоянно выкладываю свежие базы каталогов посетителям кафе). Базы как правило просто так не распространяются поэтому народ их продаёт (причём не дёшево) купить базы можно на мастертоке и сёчэнжэниарс. Итак, базы мы тоже нашли, что дальше ? А дальше вот что:
1) URL – ссылка на главную страницу вашего сайта(с ввв, или без не имеет значения).
2) название(от 50 до 75 символов) – чаще всего будет являться анкором (текстом ссылки) на ваш сайт.
3) Краткое описание от 200 до 250 символов в среднем.
4) Подробное описание от 300 до 400 символов желательно
5) E-mail для спама/подтверждения регистрации/получения отказов.
6) ключевые слова (4-6 слов, можно больше)
7) Список категорий (соответствующей рубрики), где вы хотели бы видеть ваш сайт.
всю выше изложенную инфу надо заточить под себя (под свой сайт)
и обязательно (дабы не загреметь в бан и иметь пользу от прогона) прочтите это:
При составлении названий для Вашего сайта, учтите, что названия должны
выглядеть именно как названия, а не перечисления ключевых слов.
При составлении описаний кратко опишите, чем занимается ваша фирма/о чем ваш сайт.
Составляйтекороткие описания продвигаемого сайта. Чем больше будет разных вариантов, тем лучше.
В описании не указывайте контактные данные, воспользуйтесь генератором названий и описаний встроенным в allsubmitter (называется рандомайзер).
Правильный выбор рубрики (Списка категорий) – старайтесь найти и указать рубрику, максимально соответствующую тематике вашего сайта
Всё сделали ? готовы к авторегистрации в каталогах ? Чтож - осталось произвести заключительные действия: запускаем алсабмитер, создаём проект, в него вписываем всю информацию которую Вы получили выше и заточили под свой сайт, жмём Alt + 1, и импортируем базу в программу, затем жмём Alt + 4 (НЕ Ф4 !!!), выбирпем свой проект, и жмём сначала "точное совпадение" сразу после этого можно смело жать регистрация, и сматреть как утекает трафик (он потом вернётся в виде посетителей сайта). Регистрация завершена ! выдаёт алсабмитер, потом жмём "не точное совпадение" и бегло просматриваем каталоги на предмет попадения сайта не в ту что нужно категорию. Жмём регестрировать и наслаждаемся автоматизацией регистрации ))) иногда надо посматривать на панель - "ожидают ввода капчи" (ну тут сами разберётись) и на соединение с интернетом. Осталось последнее - все оставшиеся каталоги в левой части программы - это каталоги в которых придётся регестрироваться ручками, выбирая поля и категории. там по смыслу смотрите, и не регте свой сайт в разделах прочие и т.п. Это как правило ни к чему хорошему не приведёт.
В конце добавлю, не стоит прогонять сайт сразу по всем базам что у Вас есть, конечно ПС не банят за внешние
факторы, но и увлекаться не стоит... Будет очень подозрительно - почему на Ваш только что открывшийся сайт с нулевыми характеристиками ссылаются сразу по 10 000 сайтов с тИЦ в разы больше вашего ?
Вобщем думайте сами, решайте сами, а я спать. Всё для Ваших проектов, с уважением, 4fun.fantasy.