2020年抓取亚马逊Review新方法-Web Scraper实际应用
亚马逊的链接混淆大法是出了名的强,同一个链接不同人,不同IP下手缺不能打开,用类似抓取速卖通运费模板的Python直接抓json的方式行不通了,这次就用上了Web Scraper的可视化数据抓取插件。
软件工具
- Chrome 浏览器 (浏览器标配)
- Web Scraper 插件 (Chrome应用商城链接)
Rewiew内容
- 用户名 username
- 评分 score
- 简述 short description
- 属性 property
- 已认证购买 Verified Purchase
- 详情 details
创建sitemap
Cmd
+Option
+i
(MacOs) 或Ctrl
+Alt
+i
(Windows) 打开网页调试模式- 选到
Web Scraper
选项卡,注意调试栏目未知为Dock to Bottom
- 点击
Create Sitemap
创建选项卡 - 添加sitemap名称和需要抓取review的产品链接,点击
Create Sitemap
标记数据集
- 在
Selector
页面的_root
视图添加一个Type
为Element Click
的Selector
,取名items
- 点击
Select
后将会出现浮窗,建议点击浮窗里的Enable key
,此时可以通过按键来实现数据的标记
S
为选择,P
为父视图,C
为子视图,选中的item回变成红色覆盖,此时需要通过按S
勾选上所有需要抓取的数据,一般情况下,选择2个相同的item后,就会自动把剩下类似的item标记成红色,此时点击Done Selecting!
即可完成item的标记。- 再为
Click Selector
配置选择点击下一页的按钮,并选择类型为Unique HTML
- 接下来滑倒下面,勾选上
Multiple
,表示选中的是重复的数据,再Save Selector
即可。
标记子数据
- 进入
items
视图,参照 Review需要抓取的内容添加新的选择器 - 子数据的列别
Type
均为Text
,此时不需要勾选Multiple
- 标记过程中可以点击
Element preview
来随时预览标记的情况
开始抓取
- 标记完成后点击
Scrape
选项 - 根据实际情况更改抓取的等待时间和间接时间,默认不改变也可以,太快得抓取容易被识别成机器人
- 点击
Scraping
后回自动新建窗口,自动打开页面抓取,并自动刷新页面进行下一页的抓取。 - 抓取时候可以点击
Refresh Data
查看已抓取的数据 - 抓取完成后选择选项卡中的
Export data as CSV
,点击Download now
可保存数据到csv文件 - 用Excel打开后可以删除前2列,替换替换一些不需要的文本,就可以分析需要查找的有用的信息。
例如:评分人数的占比,留评的产品比例等等
完整sitemap代码
复制下方的代码,在Web Scraper
中可直接Import Sitemap
,再次抓取review只需要更改链接即可。
{"_id":"amazon-review-scraper","startUrl":["https://www.amazon.com/Miracase-Liquid-Silicone-Compatible-Protection/product-reviews/B07WS9W3FD/ref=cm_cr_dp_d_show_all_btm?ie=UTF8&reviewerType=all_reviews"],"selectors":[{"id":"items","type":"SelectorElementClick","parentSelectors":["_root"],"selector":".a-row div.a-section.celwidget","multiple":true,"delay":0,"clickElementSelector":".a-last a","clickType":"clickOnce","discardInitialElements":"do-not-discard","clickElementUniquenessType":"uniqueHTML"},{"id":"name","type":"SelectorText","parentSelectors":["items"],"selector":"span.a-profile-name","multiple":false,"regex":"","delay":0},{"id":"score","type":"SelectorText","parentSelectors":["items"],"selector":"i.a-icon-star","multiple":false,"regex":"","delay":0},{"id":"short_description","type":"SelectorText","parentSelectors":["items"],"selector":".a-size-base.a-link-normal span","multiple":false,"regex":"","delay":0},{"id":"property","type":"SelectorText","parentSelectors":["items"],"selector":"a.a-size-mini","multiple":false,"regex":"","delay":0},{"id":"verified_purchase","type":"SelectorText","parentSelectors":["items"],"selector":"span.a-size-mini","multiple":false,"regex":"","delay":0},{"id":"detail","type":"SelectorText","parentSelectors":["items"],"selector":".review-text span","multiple":false,"regex":"","delay":0}]}