因为淘宝对抓取次数由限制,故在抓取的过程中要被打断多次,每次都需要手动更改循环初始参数非常麻烦,所以试着保存程序最后处理状态,在下次运行程序时可以直接读取最后的处理状态。
Archive | DEV
抓取淘宝店铺的信用等级数据
今天尝试抓取淘宝店铺的信用等级,由于淘宝的信用等级是按照图片来进行显示的,所以需要根据显示的图片来转换到对应的信用等级。
延迟载入技术对抓取的影响
最近很多单页主题都用到了这个技术,其实这个技术很早就有了。延迟载入技术的核心就是将图片等需要占用下载带宽的大元素放在非标准的DOM结构参数中,然后通过JavaScript读取参数,并在网页载入完成后再动态生成这些元素,这样可以明显的加快网页第一次加载完成的速度,不会因为部分图片的瓶颈,使得整个网页的加载被拖延。
A&F Tools V1.1 Update
今天完成了搜索页面的代码,实现了搜索特定关键词、限定查找商品的价格区间、按价格排序等功能。在下一个小幅更新中,将会加入关键词输入框、价格区间选择框、排序选择等功能。在下一个重大更新中,将会逐步进行店铺信息的完善,将店铺的信息与商品对应。
AF淘宝店铺数据抓取完成
上次说到要尝试下延长抓取间隔,后来还是不行。碰巧今天发现了电信的光猫保存设置会自动重新连接这个特性,可以比较方便的重新获取IP,绕过淘宝的屏蔽机制。