Top Menu

抓取淘宝店铺的信用等级数据

今天尝试抓取淘宝店铺的信用等级,由于淘宝的信用等级是按照图片来进行显示的,所以需要根据显示的图片来转换到对应的信用等级。

查看淘宝的源码,发现店铺的信用在店铺首页的如下代码中

<span class="shop-rank"> <a class="rank-icon J_TGoldlog" target="_blank" href="http://rate.taobao.com/user-rate-UvFcbMFNbvF8L.htm?spm=a1z10.1.0.0.TCWOEx" data-goldlog-id="/tbwmdd.1.045" data-spm-anchor-id="a1z10.1.0.0"> <img class="rank" border="0" align="absmiddle" src="http://pics.taobaocdn.com/newrank/s_blue_1.gif"> </a> </span>

Continue Reading 1

延迟载入技术对抓取的影响

最近很多单页主题都用到了这个技术,其实这个技术很早就有了。延迟载入技术的核心就是将图片等需要占用下载带宽的大元素放在非标准的DOM结构参数中,然后通过JavaScript读取参数,并在网页载入完成后再动态生成这些元素,这样可以明显的加快网页第一次加载完成的速度,不会因为部分图片的瓶颈,使得整个网页的加载被拖延。

例如淘宝店铺的商品页面,所有的图片都是放在data-ks-lazyload 这个非标准DOM参数中,而在IMG标签中用一个小图片来进行代替。

<img alt="现货 Abercrombie Fitch AF 2014春秋款刺绣水钻套头女式圆领卫衣" data-ks-lazyload="http://img01.taobaocdn.com/bao/uploaded/i1/T1eilqFUpcXXXXXXXX_!!0-item_pic.jpg_180x180.jpg" src="http://a.tbcdn.cn/s.gif">

Continue Reading 0

A&F Tools V1.1 Update

今天完成了搜索页面的代码,实现了搜索特定关键词、限定查找商品的价格区间、按价格排序等功能。在下一个小幅更新中,将会加入关键词输入框、价格区间选择框、排序选择等功能。在下一个重大更新中,将会逐步进行店铺信息的完善,将店铺的信息与商品对应。

Continue Reading 0

AF TOOLS 更新

由于最近淘宝屏蔽得厉害,原本可以实时搜索的,现在基本都不行了。只能想办法把商品信息存入数据库,然后搜索缓存数据了。原本实时搜索只抓取一页的搜索结果,这次更新了下代码,使得能够自动判断分页,然后抓取所有搜索结果了。根据以往得测试结果,在间隔10秒情况下,抓取第50次的时候会被屏蔽,然后计算了下,如果要抓取179个店铺的第一页结果也要好几个小时,只能放在晚上跑,看看是否能通过延长抓取间隔避免被屏蔽。

Continue Reading 0

Powered by WordPress. Designed by WooThemes