百度 | 神马 | 搜狗 | 技术文档 | 学习资料分享 - 记录帝国CMS及运维技术的点点滴滴
你的位置:首页 > 实用IT技术 » 正文

【经典网站】Import.io:智能网页转化应用平台

发布时间:2020-09-16

作品分类:经典网站  数据  网页  抽取  转化  网页  智能  平台  Import

Import.io:智能网页转化应用平台是一个可以让用户点击几下就能把任意网页转化为一个API的平台,帮助开发者轻松的从网络上抓取数据,进行对数据进行二次开发和使用。

Import.io的服务是通过将网页转化为电子表格来抽取相关数据,从而更容易获得网站数据。网页是给人阅读的,但机器需要用其他方法来理解信息。通过Import.io,用户可手动或通过API查询数据。

Import.io是连接数据以快速获得信息的新服务的代表,以往要获得这些信息需要大量手工作业。随着越来越多人从不同数据来源中发现相关性,数据整合也成了热门话题。Import.io和其他服务提供了数据整合工具,让机器把网络当做数据库来处理,从而从设计给人阅读的网页中理解更多信息。

为了将一个网页转化成一个对开发者友好的API,import.io提供了一个沙盒式的定制浏览器。

用户加载浏览器,打开想要将网页转化API的URL,然后开始选择页面上想要抽取数据的特定元素(比如一个搜索页的每个结果),import.io就会开始弄清楚你想要抽取什么数据。点击保存,命名,你就有API了。这一数据还可以导出为HTML、CSV或XLS格式。

有了新的数据工厂,import.io基本上就能抛弃原来的独立浏览器了,也不用再点击很多次了。虽然他们会继续提供独立浏览器,他们也开始发布一个Chrome拓展,在Chrome上增加一个import.io按钮。import.io的数据工厂按钮的工作方式有两种:

如果import.io已经识别出了一个网址,当你点击按钮时,import.io会立即提供该网页的API及其数据。

如果import.io之前未识别过该网址,当你点击按钮时,它会对页面进行截屏。你需要手动选取感兴趣的元素,然后它们就会发送给import.io。import.io的人(在伦敦或印度的一个“工厂”中)会很快准备好API并发送回来。从这点来看,该页面对于未来的用户就有了可直接使用的API。

Top