经过了几天的开发,已经部署并开始自动获取数据,抓取范围从之前的单分类增加到了所有分类,抓取速度从之前的10条/min,增加到了110条/min。
Archive | ANFtools
ANFtools V3 Update
因为淘宝的防抓取机制更新后更加严格,导致原先的Curl抓取方式基本上作废了,这次的更新主要就是把抓取核心从Curl换成selenium,因为是模拟浏览器访问网页,所以相比Curl来说抓取更加的直观和易操作。
ANFtools数据库统计
自从今年4月份开始把ANFtools搜索的论坛店铺抓取的结果存入数据库之后,至今已有了4万条数据,总大小已经达到了23MB。
ANFtoolsV2核心更新
这次双十一之后,发现淘宝更改了屏蔽策略,直接抓取店铺会被跳转到登陆页面。
ANFtools V2 开发笔记
上次4月份更新到V1版本后,已经很久没有更新了,期间小范围优化了部分代码,但是因为坚持能用就行的原则,一直没有更新结构,这次下决心要重写一下代码,因为数据库越来越大,搜索也变得很困难。