可视化网页内容抓取(采集)工具

作者: 微歌 分类: 网站建设 发布时间: 2014-07-16 09:45 ė 6 没有评论

  在某论坛看到有人在显摆介绍他的惊人发现,据称是所谓的不要写规则,纯粹可视化的采集工具,原文并没有公布工具的名称,更没有下载地址,只给出了一张图片。虽然微歌不喜欢采集,也懂写火车头的规则,但对这款可视化的采集工具还是有非常大的兴趣,于是决定找出这款工具。终于找到了,这个『神器』就是 Portia Spider,虽然微歌目前比较忙,没有时间测试这个工具,但有不少网友称已经测试成功。

  工具名称:Portia Spider(孔蛛)

  Portia Spider 号称是世界上最聪明的蜘蛛,也有人翻译为波西亚蜘蛛(波西亚跳蛛)。
  事实上,Portia 是 scrapyhub 开源的一款可视化的爬虫规则编写工具。它提供可视化的 Web 页面,你只需要通过点击标注页面上你需要抽取的数据,不需要任何编程知识即可完成规则的开发。这些规则可以在 #Scrapy# 中使用,用于抓取页面。
  不过,Portia Spider 需要在 Python 环境下运行。

  Portia Spider 团队博客地址:http://blog.scrapinghub.com/
  Portia Spider 详细介绍:点击这里进入
  Github:点击这里进入
  Portia Spider 官方介绍视频:点击这里进入

  下载地址:

  Github: 点击这里进入
  网盘下载:点击这里下载

  因为时间关系,加之没有相应的 Python 环境,微歌并没有调试这个程序,今天写这篇文章,算是先把资料收集在这里,方便以后要使用时易于查找。

本文出自微歌,转载时请注明出处及相应链接。

本文永久链接: https://wego2.com/ke-shi-hua-wang-ye-nei-rong-zhua-qu-cai-ji-gong-ju.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

Ɣ回顶部