今天尝试抓取淘宝店铺的信用等级,由于淘宝的信用等级是按照图片来进行显示的,所以需要根据显示的图片来转换到对应的信用等级。
Archive | DEV
延迟载入技术对抓取的影响
最近很多单页主题都用到了这个技术,其实这个技术很早就有了。延迟载入技术的核心就是将图片等需要占用下载带宽的大元素放在非标准的DOM结构参数中,然后通过JavaScript读取参数,并在网页载入完成后再动态生成这些元素,这样可以明显的加快网页第一次加载完成的速度,不会因为部分图片的瓶颈,使得整个网页的加载被拖延。
A&F Tools V1.1 Update
今天完成了搜索页面的代码,实现了搜索特定关键词、限定查找商品的价格区间、按价格排序等功能。在下一个小幅更新中,将会加入关键词输入框、价格区间选择框、排序选择等功能。在下一个重大更新中,将会逐步进行店铺信息的完善,将店铺的信息与商品对应。
AF淘宝店铺数据抓取完成
上次说到要尝试下延长抓取间隔,后来还是不行。碰巧今天发现了电信的光猫保存设置会自动重新连接这个特性,可以比较方便的重新获取IP,绕过淘宝的屏蔽机制。
AF TOOLS 更新
由于最近淘宝屏蔽得厉害,原本可以实时搜索的,现在基本都不行了。只能想办法把商品信息存入数据库,然后搜索缓存数据了。原本实时搜索只抓取一页的搜索结果,这次更新了下代码,使得能够自动判断分页,然后抓取所有搜索结果了。根据以往得测试结果,在间隔10秒情况下,抓取第50次的时候会被屏蔽,然后计算了下,如果要抓取179个店铺的第一页结果也要好几个小时,只能放在晚上跑,看看是否能通过延长抓取间隔避免被屏蔽。