如何用Python程序抓取亚马逊商品评论数据?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2470个文字,预计阅读时间需要10分钟。
亚马网站用户的评论可直接查看,反映当前商品价值是否值得购买,评分信息也可获取,做评分有参考价值。亚马评论区由用户ID、评论、评论、地区时间、评论正文组成。
亚马逊网站用户的评论能直观的反映当前商品值不值得购买,评分信息也能获取到做一个评分的权重。
亚马逊的评论区由用户ID,评分及评论标题,地区时间,评论正文 这几个部分组成,本次获取的内容就是这些。
测试链接:
www.amazon.it/product-reviews/B08GHGTGQ2/ref=cm_cr_arp_d_paging_btm_14?ie=UTF8&pageNumber=14&reviewerType=all_reviews&pageSize=10&sortBy=recent
一、分析亚马逊的评论请求
首先打开开发者模式的Network,Clear清屏做一次请求:
你会发现在Doc中的get请求正好就有我们想要的评论信息。
可是真正的评论数据可不是全部都在这里的,页面往下翻,有个翻页的button:
点击翻页请求下一页,在Fetch/XHR选项卡中多了一个新的请求,刚才的Doc选项卡中并无新的get请求。这下发现了所有的评论信息是XHR类型的请求。
获取到post请求的链接和payload数据,里面含有控制翻页的参数,真正的评论请求已经找到了。
这一堆就是未处理的信息,这些请求未处理的信息里面,带有data-hook=\"review\"的就是带有评论的信息。分析完毕,下面开始一步一步去写请求。
本文共计2470个文字,预计阅读时间需要10分钟。
亚马网站用户的评论可直接查看,反映当前商品价值是否值得购买,评分信息也可获取,做评分有参考价值。亚马评论区由用户ID、评论、评论、地区时间、评论正文组成。
亚马逊网站用户的评论能直观的反映当前商品值不值得购买,评分信息也能获取到做一个评分的权重。
亚马逊的评论区由用户ID,评分及评论标题,地区时间,评论正文 这几个部分组成,本次获取的内容就是这些。
测试链接:
www.amazon.it/product-reviews/B08GHGTGQ2/ref=cm_cr_arp_d_paging_btm_14?ie=UTF8&pageNumber=14&reviewerType=all_reviews&pageSize=10&sortBy=recent
一、分析亚马逊的评论请求
首先打开开发者模式的Network,Clear清屏做一次请求:
你会发现在Doc中的get请求正好就有我们想要的评论信息。
可是真正的评论数据可不是全部都在这里的,页面往下翻,有个翻页的button:
点击翻页请求下一页,在Fetch/XHR选项卡中多了一个新的请求,刚才的Doc选项卡中并无新的get请求。这下发现了所有的评论信息是XHR类型的请求。
获取到post请求的链接和payload数据,里面含有控制翻页的参数,真正的评论请求已经找到了。
这一堆就是未处理的信息,这些请求未处理的信息里面,带有data-hook=\"review\"的就是带有评论的信息。分析完毕,下面开始一步一步去写请求。

