Перейти к содержимому


Версия 1.7

Вышла версия 1.7. Из нововведений-синонимизация(теперь парсер может сам синонимизировать тексты. Есть быстрый вариант с котроткой базой и более медленный.  Если что, базы можно исправить. Файлы syn_s и syn_b). Так же исправил баг с пустыми ответами от яндекса.

Список функций:
1.Парсинг по заданному слову или выражению. Теперь результаты сортировать можно по дате публикации или по релевантности. При этом при сортировке по дате результаты более тематические.
2. Парсинг статей заданой категории. При этом парсятся только статьи указаной категории или метки.
3.Экспорт в отдельные html файлы, rss ленту или html файл для дальнейшего импорта в zebroid или WPT, или в формат из шаблона.
4.Парсить теперь можно популярные блоги, блоги целиком(статьи и комментарии из блогов), записи из блогов, записи из микроблогов, коментарии из блогов и микроблогов, форумы, все блоги и форумы.
5.Можно парсить определенный сервис(livejournal и т.п.) или даже отдельный блог.
6. Функция замены слов в тексте.(Файл replace.txt в папке парсера. Для замены слова “пользователь” на “читатель” добавте туда строку “пользователь=читатель”, без кавычек.)
7.Рядом с каждой функцией есть знак вопроса, при нажатии на который вы получите краткую справку.
8. Удаление повторов. Парсер автоматически удаляет 90% повторных статей в случае если одна статья размещена на нескольких сервисах.(Присутствует с версии 1.1)
9.Добавлены стоп слова.(Файл stop_slova.txt в папке парсера. Писать надо по одному слову в строке. Если одно из этих слов встречается в тексте статьи то статья не сохраняется. Регистр значения не имеет. )
10.Можно парсить по собраному списку url статей, или запросов.
11. Можно указать лимит постов.
12. Есть предпросмотр постов позволяющий вручную отбирать подходящие посты.
13. Автоматическая синонимизация текстов внутри парсера.

Мой блог находят по следующим фразам

Категории Обновления парсера. С тегами , .

17 Комментариев

Оставайтесь на связи при разговоре, подпишитесь на рассылку RSS канала для комментариев на эту запись.

  1. Мои комментарии когда-нибудь пройдут апрув?

  2. admin said

    Вас антиспам кидал в спам и даже не писал об этом. Сорри. Теперь отключил его.

  3. wildva said

    Скачал новую версию. Почему-то не парсит. Пишет запрос к базе, потом через несколько попыток подключится ничего не находит. Пробывал разные настройки

  4. admin said

    Странно. На blogs.yandex.ru поискать можете?

  5. wildva said

    Тоже самое. Скорее всего что-то не так у меня. Для работы программы нужны какие-нибудь условия? Просто на одном компе работало норм, там инет через проксю. Сейчас на другом компе пробую не как не хочет парсить. Инет через vpn с зуальным ip. И там и там XP.

  6. admin said

    Требования не больше чем для прросмотра сайтов. Можете ли вы найти что то в поиске “blogs.yandex.ru”?

  7. admin said

    А что говорит программа?

  8. wildva said

    Пишет:
    Начал запрос 20:34
    Запрос к базе
    Обрабатываю ответ

  9. admin said

    А потом?

  10. wildva said

    Потом повторная попытка несколько раз. И пишет, что ничего не найдено

  11. admin said

    Попробуйте его переустановить только если.

  12. wildva said

    Переустановил. Ничего не изменилось. Попробую потом с под другой винды. Может на этой с чем-то конфликтует.

  13. Не работает парсер =)
    Пишет запрос к базе и не чего не происходит =)

  14. wildva said

    Не хочет парсить на той тачке где раньше парсил. Народ, неужели у меня одного такое?

    Admin, спасибо за то что делаешь! Так держать.

  15. admin said

    “Пишет запрос к базе и не чего не происходит =)” попробуйте ввести запрос из цифр. Странно что совсем ничего не происходит. Может инет медленный и вы мало ждете?

Продолжение дискуссии

  1. Нова версія нового парсера » Публикация » Бо Патамушта! связаны с этой записью on 23 ноября 2009

    [...] парсинг. На даний момент він повністю безкоштовний. Вийшла версія 1.7. З нововведень-сінонімізація (тепер парсер може сам [...]

Некоторые HTML коды

(обязательно)

(обязательно)

или, ответ на эту запись через trackback.