百度 | 神马 | 搜狗 | 技术文档 | 学习资料分享 - 记录帝国CMS及运维技术的点点滴滴
你的位置:首页 > 实用IT技术 » 正文

【工具类】Url2io|在线网页正文提取工具

发布时间:2020-09-17

作品分类:工具类  提取  网页  识别  在线  提取  网页  工具  正文

Url2io 是一个提供简单且强大的网页正文提取服务,提供ESTful API 接口,用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

URL2Article 用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、发布日期提取、下一页链接提取等,功能特色如下:

1、标题识别:不仅仅是简单地提取 title 标签,而是智能识别网页正文的标题;

2、正文识别:提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

3、发布日期识别:智能识别文章的发布日期;

4、下一页链接识别:智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面,所以这个功能会非常有用。

Top