2020年抓取亚马逊Review新方法-Web Scraper实际应用

亚马逊的链接混淆大法是出了名的强,同一个链接不同人,不同IP下手缺不能打开,用类似抓取速卖通运费模板的Python直接抓json的方式行不通了,这次就用上了Web Scraper的可视化数据抓取插件。

软件工具

Rewiew内容

  • 用户名 username
  • 评分 score
  • 简述 short description
  • 属性 property
  • 已认证购买 Verified Purchase
  • 详情 details

创建sitemap

  1. Cmd + Option + i (MacOs) 或 Ctrl + Alt + i (Windows) 打开网页调试模式
  2. 选到Web Scraper选项卡,注意调试栏目未知为 Dock to Bottom
  3. 点击Create Sitemap创建选项卡
  4. 添加sitemap名称和需要抓取review的产品链接,点击Create Sitemap

标记数据集

  1. Selector页面的_root视图添加一个TypeElement ClickSelector,取名items
  2. 点击Select后将会出现浮窗,建议点击浮窗里的Enable key,此时可以通过按键来实现数据的标记
  3. S为选择,P为父视图,C为子视图,选中的item回变成红色覆盖,此时需要通过按S勾选上所有需要抓取的数据,一般情况下,选择2个相同的item后,就会自动把剩下类似的item标记成红色,此时点击Done Selecting!即可完成item的标记。
  4. 再为Click Selector配置选择点击下一页的按钮,并选择类型为Unique HTML
  5. 接下来滑倒下面,勾选上Multiple,表示选中的是重复的数据,再Save Selector即可。

标记子数据

  1. 进入items视图,参照 Review需要抓取的内容添加新的选择器
  2. 子数据的列别Type均为Text,此时不需要勾选Multiple
  3. 标记过程中可以点击Element preview来随时预览标记的情况

开始抓取

  1. 标记完成后点击Scrape选项
  2. 根据实际情况更改抓取的等待时间和间接时间,默认不改变也可以,太快得抓取容易被识别成机器人
  3. 点击Scraping后回自动新建窗口,自动打开页面抓取,并自动刷新页面进行下一页的抓取。
  4. 抓取时候可以点击Refresh Data查看已抓取的数据
  5. 抓取完成后选择选项卡中的Export data as CSV,点击Download now可保存数据到csv文件
  6. 用Excel打开后可以删除前2列,替换替换一些不需要的文本,就可以分析需要查找的有用的信息。
    例如:评分人数的占比,留评的产品比例等等

完整sitemap代码

复制下方的代码,在Web Scraper中可直接Import Sitemap,再次抓取review只需要更改链接即可。

{"_id":"amazon-review-scraper","startUrl":["https://www.amazon.com/Miracase-Liquid-Silicone-Compatible-Protection/product-reviews/B07WS9W3FD/ref=cm_cr_dp_d_show_all_btm?ie=UTF8&reviewerType=all_reviews"],"selectors":[{"id":"items","type":"SelectorElementClick","parentSelectors":["_root"],"selector":".a-row div.a-section.celwidget","multiple":true,"delay":0,"clickElementSelector":".a-last a","clickType":"clickOnce","discardInitialElements":"do-not-discard","clickElementUniquenessType":"uniqueHTML"},{"id":"name","type":"SelectorText","parentSelectors":["items"],"selector":"span.a-profile-name","multiple":false,"regex":"","delay":0},{"id":"score","type":"SelectorText","parentSelectors":["items"],"selector":"i.a-icon-star","multiple":false,"regex":"","delay":0},{"id":"short_description","type":"SelectorText","parentSelectors":["items"],"selector":".a-size-base.a-link-normal span","multiple":false,"regex":"","delay":0},{"id":"property","type":"SelectorText","parentSelectors":["items"],"selector":"a.a-size-mini","multiple":false,"regex":"","delay":0},{"id":"verified_purchase","type":"SelectorText","parentSelectors":["items"],"selector":"span.a-size-mini","multiple":false,"regex":"","delay":0},{"id":"detail","type":"SelectorText","parentSelectors":["items"],"selector":".review-text span","multiple":false,"regex":"","delay":0}]}