本文档旨在爬取美国亚马逊官网的用户评论,以做用户体验数据分析,但近期因美国官网已被墙故而需要翻墙才能访问,请知悉。
1.代码及文件配置说明:
- Amazon.py:网页爬取和页面缓存(download)
 - Amazon_review.py:页面解析和数据输出(analysis)
 - Id.xlsx:储存亚马逊产品的唯一编号ASIN码,实现自动输入
 - newUA.txt:储存cookie和IP池,实现随机变换IP反爬虫
 
输出文件csv说明:
| 字段 | 说明 | 
|---|---|
| Product_ASIN | 产品编码 | 
| review_date | 评论日期(美) | 
| date_format | 评论标准日期 | 
| total_review | 总评论数 | 
| average_star | 平均星评 | 
| Title | 评论标题 | 
| review_content | 评论文本 | 
| Star | 星评 | 
| star_class | 星评分类 | 
| reply_num | 评论回复数 | 
| agree_num | 评论点赞数 | 
| User | 评论者 | 
| VP | 认证购买 | 
| link_id | 评论链接 | 
| record_date | 采集日期 |