Хотелось бы двигатся в сторону комбайна, а не только навороченого парсера. Что, по вашему для этого надо? Что дорабатывать в первую очередь?
П.С. Вопрос-есть перспектива написать мультиязычный (парсящий любой язык, а не только русский) парсер, блогов, но парссящий не тематические страницы, а тематические блоги целиком. И чуть более узкий в настройках. Имеет смысл?
Мой блог находят по следующим фразам
3 Комментариев
Оставайтесь на связи при разговоре, подпишитесь на рассылку RSS канала для комментариев на эту запись.
прикрути хороший дорген можно взять все функции с джако но только чтоб контент был с парсера а не маркова!
хотелось бы опцией автоматическую разбивку на файлы указанного размера, сохранение в тхт (переделывать и разбивать подзайобсо).
+ ссылка на источник опционально в ноиндекс,
и ещё говорят вполне прокатывает тупо неактивная ссылка
Полностью согласен с идеей парсить тематические блоги полностью, также необходимо добавить формат txt.