SEO истории от Mike
Сегодня мне задали вопрос “Как узнать сигнатуру для сайта с которого будешь грабить?”
Потому я решил написать небольшую практическую статью о том, как правильно составить сигнатуру для парсинга сайта источника:
для примера возьмём источник xttp://allcredits.ru/rss/
последовательность действий которые нужно выполнить:
1. открываем ленту браузером- я использую Firefox
2. далее открываем любую публикацию из тех что есть в ленте, например эту xttp://www.allcredits.ru/1/15346/
3. открываем исходный код публикации (source code) и ищем где в коде находится текст публикации, которую собственно мы будем грабить.
4. Суть метода: нужно составить такую комбинацию тэгов и команд {get} и {skip} чтобы парсер чётко знал какой участок грабить а какой пропустить. Напомню что команда {get} дает указание парсеру грабить, а команда {skip} - пропустить.
Парсер работает по принципу: ищем метку, грабим или пропускаем до следующей метки и так далее. Метками выступают в данном случае участки ХТМЛ кода.
Рассмотрим на примере - вот исходный код страницы источника:
в ХТМЛ коде самым близким уникальным тэгом к участку который нужно сграбить, есть код <span class=”date”>. Также, можно заметить что контент заканчивается тэгом <br clear=all>.
Остался маленький нюанс: нам нужно выбросить дату “5 июня 2008 года”, в это нам поможет команда {skip}.
Следовательно сигнатурой для парсинга этого источника будет “<span class=date>{skip}</span>{get}<br clear=all>“.
Эту команду нужно добавить в парсер в поле “Get content:”
Запускаем парсер, получаем результат:
Возможно кто-то заметил, что парсер как-то по другому работает, а именно добавление публикации происходит не так как в версии 1.4.x, а после парсинга каждой публикации, она сразу добавляется в блог. Это потому, что я использовал в этом обзоре новую версию парсера 1.5, которую сейчас тестируем. Также замечу, что добавление публикаций происходит через XML-RPC. Зачем это нужно? Очень нужно! Так как теперь без проблем будет работать кросспостинг в Лайвжорнал, и пинг, а также многое другое!
tupo
июня 5, 2008 21:46
через XML-RPC очень круто и дает одну возможность, я к сожалению не знаю у Вас она реализована или нет, поэтому вопрос подсказка - можно настроить один блог с вашим скриптом на выделенном сервере так что бы он парсил источники, раскладывал по категориям и этот контент через XML-RPC пополнял другие блоги на других хостингах, тоесть один блог со скриптом для управления, остальные только для отображения напарсенного контента. если такой возможности нет, может вы её реализуете. очень заинтересован.
Алекс
июня 6, 2008 05:01
сделал тоже самое
feedmaster 1.4.4 plus
на хостинге PHP Version 5.2.6
получилось :
Reading - catId: 0; source: http://allcredits.ru/rss/
Array
(
)
Mike
июня 6, 2008 07:46
с пхп 5.2.6 нужно использовать версию feedmaster 1.4.6. Напишите мне запрос на обновление.
Mike
июня 6, 2008 07:53
2tupo: такой возможности в версии 1.5 не будет. но скажу по секрету, что она в плане на версию 1.6
tupo
июня 6, 2008 09:46
Mike, тогда второй вопрос, а когда ждать 1.6
Watman
июня 6, 2008 10:41
Скажите а что в wp-feedmaster.php при выводе означает checked ?
В базе WP эти записи появляются , но в managet- не выводятся
Как их вевести или удалить ?
Mike
июня 6, 2008 21:25
2Watman: checked означает, что публикация не опубликована по какойто причине: например сработал фильтр запретных слов, или например выбрана сортировка по ключевым словам установлен “by keywords” а сам сортировщик не заполнен ключевыми словами.
Mike
июня 6, 2008 21:26
2tupo: июль-август.
www3
июня 21, 2008 10:14
Уважаемый Автор!
Сделайте, пожалуйста в версии 1.5 возможность подключать базу синонимов с удаленной БД.
Спасибо!
Mike
июня 21, 2008 18:50
в новой версии 1.5 база синонимов лежит в файле, база данных вообще не используется. Это связано с тем что на виртуальных хостингах возникали проблемы с нагрузкой на SQL сервер, потомы мы отказались от базы данных впринципе.
Guest
июня 23, 2008 20:49
Майк, что-то вы затянули с версией 1.5, обещали еще в середине апреля, сейчас 24 июня.. так когда же обещанная версия выйдет?
Mike
июня 24, 2008 11:30
2Guest: Тут как с красивой девушкой, чем больше ее гуляешь и ухаживаешь, тем приятнее потом ею обладать :). А если серьезно, то задержка вызвана тем, что техническое задание на версию 1.5 выросло в четыре раза, потому выход несколько раз откладывался. Сейчас мы тестируем новю версию, она уже готова. Вылавливаем ошибки, выпустим как только все ошибки устраним, это значит что уже очень скоро…
www3
июля 2, 2008 07:08
Стоимость версии 1.5 будет 90 у.е. или выше? Это принципиально.
Mike
июля 2, 2008 10:41
2www3: стоимость однозначно увеличиться.
Hinin
июля 5, 2008 17:59
> стоимость однозначно увеличиться.
А для уже купивших 1.4.* сколько будет???
Mike
июля 5, 2008 18:09
2Hinin: Плз, не беспокойтесь, для всех, кто купил 1.4.x выше, апдейты бесплатно.
ynas
июля 9, 2008 15:11
А в сигнатуре для парсинга можно несколько раз использовать инструкции {get} и {skip}?
Mike
июля 10, 2008 17:10
2ynas: да, это возможно.
Dmitr
июля 16, 2008 16:39
3 месяца задержки до новой версии - это слишком!
Особенно, когда еще покупал думал, вот-вот на днях новая весия, как раз вовремя купил, а прошло-то четверть года.
Ребята, ну вы как бы побыстрее хотелось бы… А то одни завтраки…
Сейчас и на это сообщение, какой-нибудь стандартный программерский ответ будет
Serge
июля 18, 2008 11:12
Когда планируется выход версии 1,5?
tupo
июля 19, 2008 06:14
говорили что в июль-август будет уже 1.6 версия, такими темпами наверное в следующем году будет.
poolk
июля 21, 2008 12:44
tupo проблема в защите, еслиб всякие бараны не барыжили и в паблик бы не выкладывали плагин, тогда бы нас ждал бы уже 1.7 версия
Halk
июля 22, 2008 11:10
Неужели поддержка плагина приказала долго жить?
Dark
июля 24, 2008 07:52
С такими темпами я на пенсии буду быстрей чем 1.5
Hinin
июля 26, 2008 18:45
Когда же прикрутите форум? Реально много вопросов возникает по ходу, которые пользователи решали бы сами и не беспокоили лишний раз разработчиков.
Chiki
июля 30, 2008 09:20
Майк,
какие версии рсс поддерживает ваш скрипт.
с некоторых сайтов контент выдирается, а с некоторых нет.
No active feeds!
или все тот же пустой массив
Reading - catId: 1; source: http://www.site.ru/?feed=rss2
заметил что с вордпресов ни с одного не смог вытащить контент хотя пробовал тащить даже с собственного где явно задал в каментах маркеры для вырезания
глюки
июля 30, 2008 15:40
в данном примере не правельное метку составил вордпресс
Буковинаобграла
Буковина обграла
а также буква Iі украниская не записівается в БД
“Буковина”обіграла ФК “Малин”
написано в рубрике: Буковина — Метки: Буковинаобграла, Малин
Guest
августа 1, 2008 12:48
Добрый день тов-щи
такое ощущение что проект перешел в стадию недвижимости и никто им не занимается, а тут для отписки ведуться какие-то коменты.
обещали в еще апреле 1.5 версию.. скоро уже лето закончится. Майк, имхо это не серьёзно.
Виталий
августа 4, 2008 11:29
у меня 1.4.4 плюс, посоветуйте локальный сервер или бесплатный хостинг чтоб проверить работает ли етот плагин. Уже задолбало чо токо не побывал не работает и все.
Если хто опытный хто может помочь дам доступ на бесплатный хостинг.
Mike
августа 6, 2008 16:05
Новую версию выпустили
Mike
августа 6, 2008 16:05
Напишите плз на емейл, попробуем решить.
Mike
августа 6, 2008 16:06
Поддерживает, ATOM, RSS, RSS2
Mike
августа 6, 2008 16:06
форум открыли, http://www.wpdot.com/forum пожалуста регистрируетесь!
Mike
августа 6, 2008 16:08
надеюсь мы все на пенсию выйдем еще в молодом возросте.
тое не работать и получать пассивный доход…
Mike
августа 6, 2008 16:08
просьба, пишите на емейл, отвечаю всегда
Mike
августа 6, 2008 16:09
согласен… я бы и не внедрял защиту если бы не барыги…
Mike
августа 6, 2008 16:09
1.6 в плане через 3-4 недели
Mike
августа 6, 2008 16:09
выпустили
Mike
августа 6, 2008 16:10
не хотел отвечать отговорками пока не сделали все.
Manual к плагину- парсеру для платформы WORDPRESS 2.5.1 и выше - Feedmaster версия 1.5.х | Stason
ноября 6, 2008 21:17
[...] Пожалуйста читайте тут http://www.wpdot.com/feedmaster/kak-uznat-signaturu-dlya-sajta-s-kotorogo-budesh-grabit.html [...]
Ссылки на социалки из wordpress | Wordpress, FeedМaster, СЕО, блоги.
февраля 20, 2009 07:22
[...] Reading - catId: 1; source: [...]
cherny
мая 12, 2009 07:10
а новая версия когда будет?
300+ русских шаблонов WordPress в одном архиве!
мая 12, 2009 08:28
[...] команды для парсинга [...]
Новая версия плагина feedmaster 1.3
июня 19, 2009 20:30
[...] как узнать RSS сайта [...]