Top Menu

淘宝内容抓取频率

今天在调试的时候发现,网页在运行的时候突然中断,并且中断后无法再次运行,需要等待一会后才能再次运行。尝试了几次以后发现原来是淘宝的访问频率限制,导致程序无法正常抓取导致的运行失败。这下终于解释了为什么在本机运行时没问题的,但是放到主机上就出现运行中断,原因应该是在本机运行的时候,CPU的限制导致抓取频率不会非常快,不会被淘宝屏蔽,但是主机的CPU使得抓取的频率超过了淘宝的上限,导致在网页读取中断。这样只有一种解决办法,就是在php抓取的循环中添加sleep,不过这样使得搜索的时间变得非常的长。而且在网上搜了下,没有找到淘宝对访问频率的限制到底是多少,也就只能靠不断的尝试和加大每次访问的间隙来避免被屏蔽。

There are no comments yet

  • Hello, guest

Powered by WordPress. Designed by WooThemes