Sto scrivendo un crawler e per questo sto implementando il parser robots.txt, sto usando il lib standard robotparser.Robotparser non sembra analizzare correttamente
Sembra che robotparser è non analisi correttamente, io sono il debug mio crawler utilizzando Google di robots.txt.
(esempi che seguono sono da IPython)
In [1]: import robotparser
In [2]: x = robotparser.RobotFileParser()
In [3]: x.set_url("http://www.google.com/robots.txt")
In [4]: x.read()
In [5]: x.can_fetch("My_Crawler", "/catalogs") # This should return False, since it's on Disallow
Out[5]: False
In [6]: x.can_fetch("My_Crawler", "/catalogs/p?") # This should return True, since it's Allowed
Out[6]: False
In [7]: x.can_fetch("My_Crawler", "http://www.google.com/catalogs/p?")
Out[7]: False
E 'buffo perché a volte sembra di "lavorare" e, talvolta, sembra venire a mancare, ho anche provato lo stesso con il robots.txt da Facebook e StackOverflow. Si tratta di un bug dal modulo robotpaser
? O sto facendo qualcosa di sbagliato qui? E allora?
mi chiedevo se this bug aveva tutto ciò che riguarda
Inoltre sto usando Python 2.7.3 su una macchina Linux (Arch Linux) –