В этой версии пара баг фиксов. Относительно ссылок на доргене, и онлайн синонимизации. Автор сайта seogenerator установил лимит в 20! обращений в минуту с одного IP (случилось это сразу после добавления этой функции в мой парсер, и не секрет в чем причина появления такого ограничения =)). Возможно уговорю его поднять хотяб до 60. Сейчас онлайн синонимизация работает оочень медленно. С этой версии на нее уходит больше времени но текст не заменяется на сообщение о превышении лимита обращений, как было ранее. Добавил лимит страниц. Если его установить например на 5, то для кадого поста будут парсится только первые 5 страниц. Это очень полезно при парсинге по списку. Фактически это лимит постов для каждого запроса. Помоему все изменения.
Список функций:
1.Парсинг по заданному слову или выражению. Результаты можно сортировать по дате публикации или по релевантности. При этом при сортировке по дате результаты более тематические.
2. Парсинг статей заданной категории. При этом парсятся только статьи указанной категории или метки.
3.Экспорт в отдельные html файлы, rss ленту или html файл для дальнейшего импорта в zebroid или WPT, или в формат из шаблона.
4.Парсить можно популярные блоги, блоги целиком(статьи и комментарии из блогов), записи из блогов, записи из микроблогов, коментарии из блогов и микроблогов, форумы, все блоги и форумы.
5.Можно парсить определенный сервис(livejournal и т.п.) или даже отдельный блог.
6. Функция замены слов в тексте.(Файл replace.txt в папке парсера. Для замены слова “пользователь” на “читатель” добавте туда строку “пользователь=читатель”, без кавычек.). Замена просиходит через регулярные выражения, что дает неограниченое пространство корректировки текста.
7.Рядом с каждой функцией есть знак вопроса, при нажатии на который вы получите краткую справку.
8. Удаление повторов. Парсер автоматически удаляет 90% повторных статей в случае если одна статья размещена на нескольких сервисах.(Присутствует с версии 1.1)
9.Добавлены стоп слова.(Файл stop_slova.txt в папке парсера. Писать надо по одному слову в строке. Если одно из этих слов встречается в тексте статьи то статья не сохраняется. Регистр значения не имеет. )
10.Можно парсить по собраному списку url статей, или запросов.
11. Можно указать лимит постов.
12. Есть предпросмотр постов позволяющий вручную отбирать подходящие посты. Показывает вид как в браузере, со ссылками и картинками, и чистый код стать который можно менять.
13. Автоматическая синонимизация текстов внутри парсера. Работает достаточно быстро и качественно. Есть синонимизация через сервер. Работает на очень неплохом уровне.
14. Автоматическое удаление указанных тегов.
15. Работа с прокси.
16. Поддержка профайлов. Это позволяет разбивать длинный парсинг на несколько этапов а также нет необходимости каждый раз настраивать парсер.
17. Можно разбивать текст на предложения и перемешивать. Это помогает уникализировать текст.
18.Опциональное добавление беклинка на источник, который в любом случе будет виден для поисковиков(даже если в парсере указать добавление к ссылкам).
19.Удобный и понятный интерфейс.
20.Сохранение последних настроек.
21.Встроенный генератор дорвеев.
22. Можно для каждого запроса указать количество обрабатываемых страниц базы. Это очень полезно при парсинге по списку.
Мой блог находят по следующим фразам
5 Комментариев
Оставайтесь на связи при разговоре, подпишитесь на рассылку RSS канала для комментариев на эту запись.
Кстати, если каждый напишет письмо с просьбой увеличить лимит запросов-то это может сильно помочь.
Только не стоит все повально говорить что пользуетесь моим парсером.
Так. Багу нашел ))
Версия – уже 2.2, а в файле, в который результаты отгружаются, записывается 1.1
Это мелочь. Я её исправил.
Да шутка это.
А где можно (если можно, конечно) почитать, как прога работает? Что за база, что в ней содержится, как в нее попадают сайты, и так далее.
База написана мной. Это серверный скрипт. Сайты она сама не ищет, она парсит выдачу яндекс поиск по блогам. Вообще м то-дальше тайна, по понятным причинам.