• 微信

36氪(www.36kr.com)最新文章提取正则规则

430次浏览 更新日期:2020-11-08 22:34:49 分类:综合 评论:0

admin 2016-11-20 09:47:27
36氪为您提供创业资讯、科技新闻、投融资对接、股权投资、极速融资等创业服务,致力成为创业者可以依赖的创业服务平台,为创业者提供最好的产品和服务.

印象中已经帮论坛同学写过一次,不过这次又有要的,干脆发个帖子出来。

首页(http://36kr.com)的新文章提取规则

引用:
下面为导出的方案对应SQL语句,高级设置中,执行SQL语句,可快速新建本方案!

insert into rule(isdo,code,url,before,after,regular,buquan,cookie,tindex,uindex,oindex,ua,class,url,name,type) values('0','0','http://36kr.com/','feedPostsLatest','sidebarNewsflash','"id":"(d*)","column_id.*?"title":"(.*?)","catch_title":".*?","summary":"(.*?)"(d*),','http://36kr.com/p/[1].html','','2','1','3','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0',1,'http://36kr.com/','36氪','0')

已经测试正常,可取首页最新的20条文章

采集模式用的是时间倒序排列。无法使用比较id,因为id排序的杂乱无章。
7×24h 快讯(http://36kr.com/newsflashes)新文章监控规则:
引用:
insert into rule(isdo,code,url,before,after,regular,buquan,cookie,tindex,uindex,oindex,ua,class,url,name,type) values('0','0','http://36kr.com/newsflashes','newsflashList','hotPosts','"title":"(.*?)",.*?"description":"(.*?)",.*?"news_url":"(.*?)",(d*)','[3]','','1','1','2','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0',1,'http://36kr.com/newsflashes','36氪_快讯','0')

这个规则顺便把资讯的描述也放到软件的备用中了。直接在软件上可阅读快讯的简要。



JokerL 2016-11-21 08:23:58
感激大大!!!!!!!!!!!!!!!!


我来说两句
发布新帖
版主信息