Changeset 783

Show
Ignore:
Timestamp:
06/20/07 05:45:15 (6 years ago)
Author:
paul
Message:

abc_website: limit detail page failures

Files:
2 modified

Legend:

Unmodified
Added
Removed
  • grabbers/abc_website

    r766 r783  
    490490                } else { 
    491491                        if ((!$opt_cheap) && ($unprocessed_url[$i] ne "")) { 
    492                                 $stats{portal_detail_pages}++; 
    493492                                &get_one_abc_event($cache_key, $unprocessed_url[$i]); 
    494493 
     
    531530{ 
    532531        my ($cache_key, $url) = @_; 
     532 
     533        if ($stats{failed_to_fetch_portal_detail_page} >= 3 or $stats{failed_to_parse_portal_detail_page} >= 9) 
     534        { 
     535                &log("Skipping detail page because too many failures."); 
     536                return; 
     537        } 
     538 
    533539        my $seen_programme = 0; 
    534  
    535540        my $data = Shepherd::Common::get_url(url => $url, debug => $debug); 
    536541        my $tree = HTML::TreeBuilder->new_from_content($data) if ($data); 
    537542        if (!defined $tree) { 
    538543                &log("failed to fetch $url; skipping"); 
     544                $stats{failed_to_fetch_portal_detail_page}++; 
    539545                return; 
    540546        } 
     
    621627                printf "WARNING: failed to parse any programme data from '%s' - blocked/rate-limited/format-changed?\n",$url; 
    622628                $stats{failed_to_parse_portal_detail_page}++; 
    623         } 
     629                return; 
     630        } 
     631        $stats{portal_detail_pages}++; 
    624632} 
    625633 
  • status

    r782 r783  
    55grabber         yahoo7widget        1.86 
    66grabber         rex                 3.5.5 
    7 grabber         abc_website         3.04 
     7grabber         abc_website         3.05 
    88grabber         sbsnews_website     0.16 
    99grabber         oztivo              1.00