Перейти к содержимому


парсер яндекс каталога

Вот парсер яндекс каталога. Простенький скрипт парсит pda версию. Может кому пригодится. Подобных парсеров яндекс каталога навалом, теперь есть и у меня. Вседа можно переделать по свои цели

<?php
set_time_limit(0);
$cat = 'Computers/Internet/Catalogues/'; // указываем раздел который нужно парсить
$np_pat = '/след. /U';
$yc_pat = '/
  • n.*
  • /isU'; $delay = '3'; $a=1; $url = 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat; $data = file_get_contents($url); $col=preg_match_all("!

    (.*?)

    !si",$data,$ok); $col=substr($ok[0][0],strpos($ok[0][0],":")+1); $col=trim($col); $col_pages=$col/20; for($i=0;$i<$col_pages;$i++) { $page=$i.".html"; $url = 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat.$page; while ($data = file_get_contents($url)) { #$data = iconv('utf-8', 'cp1251', $data); preg_match_all($yc_pat, $data, $o1, PREG_SET_ORDER); foreach ($o1 as $o) echo $a++.".".$o[1].""; flush(); preg_match($np_pat, $data, $o2); $url = ($o2 ? $o2[1]:FALSE); sleep($delay); } } ?>

    Мой блог находят по следующим фразам

    Категории Программирование, инструменты. С тегами , , .

    0 Комментариев

    Оставайтесь на связи при разговоре, подпишитесь на рассылку RSS канала для комментариев на эту запись.

    Некоторые HTML коды

    (обязательно)

    (обязательно)

    или, ответ на эту запись через trackback.