Как узнать сигнатуру для сайта с которого будешь грабить?

05.06.2008 Mike
Добавить пост в: Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru
1 звезда2 звезды3 звезды4 звезды5 звезд (4 голосов, средний: 3 из 5)
Загрузка ... Загрузка ...

Сегодня мне задали вопрос “Как узнать сигнатуру для сайта с которого будешь грабить?”

Потому я решил написать небольшую практическую статью о том, как правильно составить сигнатуру для парсинга сайта источника:

для примера возьмём источник xttp://allcredits.ru/rss/

последовательность действий которые нужно выполнить:

1. открываем ленту браузером- я использую Firefox

RSS

2. далее открываем любую публикацию из тех что есть в ленте, например эту xttp://www.allcredits.ru/1/15346/

Источник

3. открываем исходный код публикации (source code) и ищем где в коде находится текст публикации, которую собственно мы будем грабить.

4. Суть метода: нужно составить такую комбинацию тэгов и команд {get} и {skip} чтобы парсер чётко знал какой участок грабить а какой пропустить. Напомню что команда {get} дает указание парсеру грабить, а команда {skip} - пропустить.

Парсер работает по принципу: ищем метку, грабим или пропускаем до следующей метки и так далее. Метками выступают в данном случае участки ХТМЛ кода.
Рассмотрим на примере - вот исходный код страницы источника:

HTML

в ХТМЛ коде самым близким уникальным тэгом к участку который нужно сграбить, есть код <span class=”date”>. Также, можно заметить что контент заканчивается тэгом <br clear=all>.

Остался маленький нюанс: нам нужно выбросить дату “5 июня 2008 года”, в это нам поможет команда {skip}.

Следовательно сигнатурой для парсинга этого источника будет “<span class=date>{skip}</span>{get}<br clear=all>“.

Эту команду нужно добавить в парсер в поле “Get content:

Запускаем парсер, получаем результат:

Результат парсинга

Возможно кто-то заметил, что парсер как-то по другому работает, а именно добавление публикации происходит не так как в версии 1.4.x, а после парсинга каждой публикации, она сразу добавляется в блог. Это потому, что я использовал в этом обзоре новую версию парсера 1.5, которую сейчас тестируем. Также замечу, что добавление публикаций происходит через XML-RPC. Зачем это нужно? Очень нужно! Так как теперь без проблем будет работать кросспостинг в Лайвжорнал, и пинг, а также многое другое!

Рубрики: Feedmaster | Комментарии (21) »

Апдейт Feedmaster 1.4.6

04.06.2008 Mike
Добавить пост в: Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru
1 звезда2 звезды3 звезды4 звезды5 звезд (1 голосов, средний: 5 из 5)
Загрузка ... Загрузка ...

На некоторых хостингах с пхп версий 5.2.5-5.2.6 возникала проблема вида

“Warning: xml_parse_into_struct() input conversion failed due to input error, bytes 0×98 0xD0 0xBD….”

Мы исправили ошибку в версии Feedmaster 1.4.6

Эта ошибка носила критический характер, потому мы выпустили обновление.

Долго не писал на блоге так как сильно загружены работой над новой версией 1.5.

Несколько слов по версии 1.5: реализовали 95% всего ТЗ, а это 48 доделок и модификаций, как мелких так и очень существенных. Например работа через XML-RPC.

Понимаю что многие уже устали ждать, но сырую версию выпускать нет смысла, потому “лучше позже - но лучше”. Также могу смело сказать, что продукт переходит на новый качественный уровень в плане реализации.

П.С. В последнее время очень редко выхожу в ICQ, так как убедился, что это очень неэффективный способ работы. Понимаю что это создаёт некоторые неудобства пользователям, за что приношу свои извинения. Прошу по всем вопросам писать мне на почту mike(dog)wpdot.com - отвечаю очень оперативно. Новую версию высылаю по запросу на емейл.

Рубрики: Feedmaster | Комментарии (7) »

Последний день акции

21.04.2008 Mike
Добавить пост в: Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru
1 звезда2 звезды3 звезды4 звезды5 звезд (6 голосов, средний: 3.83 из 5)
Загрузка ... Загрузка ...

Вот и подошла к концу акция “Купи сейчас и сэкономь 30%”

Хочу заметить что проявленная за время акции активность как новых так и старых пользователей, позволила основательно протестировать текущую версию, и как следствие я получил ряд пожеланий а также информацию об ошибках.

Данные доделки существенно расширили тз к версии 1.5 и как следствие мы не успели к текущей дате.

Чтобы пользователи четко понимали чего ждать от версии 1.5 в этой публикации я сообщаю перечень доработок:

  • возможность парсить ленты которые работают через федбурнер редирект
  • многоязычность интерфейса
  • заменять некоторые символу русского языка на латинские, которые внешне совпадают. а, с, o
  • добавление в блог публикаций через xml-rpc (данная доработка позволит решить проблему неотрабатывания других плагинов, пинг технологии и т.п. так как сейчас публикации добавляются напрямую в базу данных блога)
  • новый тэг title чтобы можно было парсить нужный заголовок
  • возможность вводить логин и пароль для использования платных прокси
  • исправление ошибки двойных тайтлов и альтов для картинок
  • произвольный разделитель в импорте базы синонимов чтобы можно было импортировать словосочетания
  • принудительная установка кодировки контента для статического парсера
  • экспорт/импорт всех настроек
  • замена словосочетаний (если таковые есть в базе)
  • многословные выборки логические команды в фильтре обязательных слов OR и AND
  • поддержка wpmu
  • “умная” вставка тэга more. Не в разрыв тегов типа b и i.
  • при активации плагина выполнение команды для базы данных ALTER DATABASE `база` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci
  • парсер всего сайта- “портатор”, задаем старотвую и парсер парсит все ссылки (также используется тэг {title} чтобы парсить заголоавки)
  • проверка новых версий

Кроме этого будет исправлено более 10 недочётов и багов, которые не существенно влияют на работу текущей версии но все-же должны быть исправлены.

Хочу сказать что текущее тз реализовано на 50-60% так что до выхода версии 1.5 осталось совсем не много. Не хочу объявить чёткий срок выхода, так как данный апдейт - самый обьемный за весь срок существования проекта (хочу заметить нам уже больше года), но могу сказать точно, что осталось не много, неделя-две.

Также хочу сообщить что вышла промежуточная версия плагина под индексом 1.4.5.
В ней исправлена проблема парсера при работе с последней версией пхп  а также встроена интересная возможность:
- замена некоторых символов русского языка на латинские, которые внешне совпадают “а, с, o” и т п.
Замечу что эта технология сейчас жестко встроена в код версии 1.4.5, и не имеет интерфейса. Интерфейс реализовывается в версии 1.5
Но уже сейчас можно поэкспериментировать с этой возможностью уникализации.
Понимаю что многие скажут - что это не востребовано, “байян” и прочее: пусть каждый решает сам для себя, нужна ему эта возможность или нет. Мы реализовали эту возможность уже сейчас по просьбе одного из пользователей.

Повторюсь, так как акция закончилась, с 22 апреля цена плагина опять 90wmz
Цена версии 1.5 - также будет 90wmz

Рубрики: Feedmaster | Комментарии (44) »

Купи сейчас и сэкономь 30%!

29.03.2008 Mike
Добавить пост в: Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru
1 звезда2 звезды3 звезды4 звезды5 звезд (7 голосов, средний: 4.14 из 5)
Загрузка ... Загрузка ...

Приветствую!

Рады сообщить что, перед выходом новой версии плагина, намеченого на 21 апреля мы объявляем акцию! Купи сейчас и сэкономь 30%!

только до выхода следующей версии 1.5, до 21 апреля вы можете преобрести плагин по цене всего 60WMZ!

В комплекте идет фирменная технология синонимизации наречиями, + 3 базы синонимов!
Но самое главное - Вы гарантировано получите беплатные апдейты!

по вопросам приобретения плагина обращайтесь:
ICQ 199304730
или
mike@wpdot.com

Рубрики: Feedmaster | Комментарии (16) »

Мануал к версии Feedmaster 1.4.4plus

27.02.2008 Mike
Добавить пост в: Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru
1 звезда2 звезды3 звезды4 звезды5 звезд (3 голосов, средний: 3.67 из 5)
Загрузка ... Загрузка ...

Мануал к версии Feedmaster 1.4.4plus можно скачать тут.

Рубрики: Feedmaster | Комментарии (25) »

Нужен уникальный контент? Есть решение! Feedmaster 1.4.4plus поможет Вам в этом!

13.02.2008 Mike
Добавить пост в: Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru
1 звезда2 звезды3 звезды4 звезды5 звезд (1 голосов, средний: 5 из 5)
Загрузка ... Загрузка ...

Нужен уникальный контент? Есть решение! Feedmaster 1.4.4plus поможет Вам в этом!

 

Каждый вебмастер время от времени стыкается с проблемой уникализации контента. Хочу предложить решение разработанное нашей командой.

 

 

Решение состоит из двух частей:

 

Суть перового метода – если добавить перед прилагательным наречие, то смысл текста не нарушится, а вот структура шинглов, будет нарушена и тем самым контент будет уникализирован. Как известно «Яшка»  вычисляет дублирование контента в Интернете используя в том числе алгоритм шинглов. В Интернете можно найти описание этого алгоритма. Замечу только, что если в текст предложения вставить новые слова, то такой текст для Яндекса становиться уникальным (ИМХО).

 

Таким образом мы интегрировали установку наречий перед прилагательными в отдельной версии плагина 1.4.4plus

В этой сборке предоставляется база прилагательных в количестве 78166 слов

 

Пример части базы прилагателных

 

длиннолицый

длинноногий

длинноносый

длиннополый

длиннорогий

длиннорукий

длинностволый

длинноствольный

длинноухий

длиннохвостый

длинношеий

длинношёрстный

 

 

 

а также база из 32 наречий. Таким образом в результате обработки текст остается приемлемо читаемым и в тоже время уникальным.

 

 

Второй метод – нами была отфильтрована база однозначных синонимов 7621 штук из общей базы синонимов, которая содержала более 48000 слов. Однозначные синонимы  это синонимы, которые при замене не нарушают смысл предложения.

 

Пример базы однозначных синонимов

(’бездна’, 24126),

 (’пропасть’, 24126),

 (’бездоказательный’, 24127),

 (’недоказанный’, 24127),

 (’бездомный’, 24128),

 (’бесприютный’, 24128),

 (’бездыханный’, 24129),

 (’мертвый’, 24129),

 (’безжалостность’, 24130),

 (’жестокость’, 24130),

 (’безжалостный’, 24131),

 (’беспощадный’, 24131),

 (’жестокий’, 24131),

 (’безжизненный’, 24132),

 (’мертвый’, 24132),

 (’беззаботный’, 24133),

 (’беззаботливый’, 24133),

 (’беззаконие’, 24134),

 (’безправие’, 24134),

 (’беззаконник’, 24135),

 (’законопреступник’, 24135),

 (’беззаконный’, 24136),

 (’преступный’, 24136),

 

Результат обработки текста этими двумя методами можно увидеть на тестовом блоге http://www.test.wpdot.com/

 

Цена плагина версии 1.4.4plus 90WMZ

Цена для имеющих лицензию на feedmaster 30WMZ

 

Повторюсь: за такую цену, Вы получаете технологию уникализации контента а также базу однозначных синонимов. Замечу что на создание базы однозначных синонимов был затрачен недельный труд одного человека. Так что ИМХО цена вменяемая за такой продукт.

Рубрики: Feedmaster | Комментарии (18) »

Шаблон “Source link:”, или как добавить копирайт?

12.02.2008 Mike
Добавить пост в: Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru
1 звезда2 звезды3 звезды4 звезды5 звезд (1 голосов, средний: 5 из 5)
Загрузка ... Загрузка ...

Добавил копирайт на моем блоге www.rugizmo.com

шаблон копирайта <noindex><a href=”%sourse_url%” rel=”nofollow”>источник</a></noindex>

Данный шаблон нужно добавить в поле “Source link:”

Доступные макроподстановки:

%sourse_domain% - в шаблоне будет заменено на имя домена источника, откуда взята публикация.
%sourse_url% - URL на оригинал публикации.
Таким образом используя эти макроподстановки можно настроить разные виды копирайта.

Рубрики: Feedmaster | Комментариев нет »

Пример блога на базе граббера Feedmaster 1.4.3

07.02.2008 Mike
Добавить пост в: Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru
1 звезда2 звезды3 звезды4 звезды5 звезд (2 голосов, средний: 4 из 5)
Загрузка ... Загрузка ...

Rugizmo.com пример блога на базе граббера Feedmaster 1.4.3. Вчера сделал за час.

Рубрики: Feedmaster | Комментарии (10) »

Рады сообщить о выходе новой версии плагина feedmaster 1.4.3

28.01.2008 Mike
Добавить пост в: Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru
1 звезда2 звезды3 звезды4 звезды5 звезд (2 голосов, средний: 5 из 5)
Загрузка ... Загрузка ...

Рады сообщить о выходе новой версии плагина feedmaster 1.4.3

В новой версии исправили ряд ошибок, и добавили новую функцию - принудительная установка кодировки контента источника.

Установка кодировки контента

С помощью этой опции можно задать кодировку контента источника если она явно не указана в meta charset страницы.

Для апдейта с версии feedmaster 1.4.x необходимо ОТКЛЮЧИТЬ plugin и выполнить в phpMyAdmin запрос
ALTER TABLE `wp_feedmaster_feeds` ADD `charset` INT NOT NULL

либо установить плагин по новому, удалив перед этим его таблицы из базы данных.

Рубрики: Feedmaster | Комментариев нет »

Проблемы с кодировкой таблиц базы данных

24.01.2008 Mike
Добавить пост в: Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru
1 звезда2 звезды3 звезды4 звезды5 звезд (1 голосов, средний: 5 из 5)
Загрузка ... Загрузка ...

Прошу обратить внимание на тот факт, что часто причиной проблем в работе плагина может быть неправильная кодировка таблиц плагина в базе данных.

Непосредственно эта проблема влияет на работу синонимизатора, сортировщика по категориям, фильтров и т.п.

Если у Вас в базе денных кодировка таблиц и базы в целом отличается от utf8_general_ci Вам необходимо перед установкой блога выполнить для пустой базы выполнить SQL команду ALTER DATABASE `база` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci

После этого установить блог, активировать плагин.

ниже на рисунке показано как должна выглядеть база в phpMyAdmin:

Проблемы с кодировкой таблиц базы данных

Рубрики: Feedmaster | Комментарии (2) »

« Раньше

Поиск:

Реклама:


Свежие записи

Категории

Последние комментарии:

Архив:

Мета: