• 微信

虎嗅网(www.huxiu.com)最新文章匹配规则

486次浏览 更新日期:2020-11-08 22:34:49 分类:综合 评论:0

空中小白 2016-10-23 23:02:52

网站介绍:虎嗅网是一个有视角的、个性化商业资讯与交流平台,核心关注对象是包括公众公司与创业型企业在内的一系列明星公司


今天看了视频教程,然后自己折腾,弄了半个小时,一直提示截取源码为空,后面才找到原因,原来我用的是中文结束标记匹配,而网页GBK编码没勾掉,因为我监控的是utf-8格式的网页,大家别像我一样啊。

然后又遇到问题了,标题明明按教程一样用的万能匹配符 (.*?),但是其它信息能出来,就是看不到标题,百度又找了原因,最后看百度知道看到的回答,又在</h2>前加了一次万能匹配,终于出自己想要的结果了。

弄的好累,不过幸好还是弄好了。

正则匹配规则:

引用:
<h2><a href=http://bbs.kakawz.com/333/"/article/(/d*).html(.*?)target="_blank">(.*?)(.*?)

SQL语句:
引用:

insert into rule(isdo,code,url,before,after,regular,buquan,cookie,tindex,uindex,oindex,ua,class,url,name,type) values('0','0','https://www.huxiu.com','mod-info-flow','点击加载更多','<h2><a href=http://bbs.kakawz.com/333/"/article/(/d*).html(.*?)target="_blank">(.*?)(.*?)','https://www.huxiu.com/article/[1].html','','3','1','1','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0',1,'https://www.huxiu.com','虎嗅网','0')


我自己测试正常,能提取文章,大家有需要的用吧:lol

空中小白 2016-10-23 23:04:33
感谢能这么快审核了,这个网站匹配的有难度啊,发出来以后我有用时候再来复制回去,做个备忘


admin 2016-10-23 23:06:42

引用:
空中小白 发表于 2016-10-23 23:04
感谢能这么快审核了,这个网站匹配的有难度啊,发出来以后我有用时候再来复制回去,做个备忘


多谢能分享规则给大家 我还在论坛上 一刷新提醒有新审核 所以审核的快 运气好 :victory:

超级大鸡吧 2016-10-24 22:03:47
我自己做了半天都失败了,难哦


空中小白 2016-11-01 21:13:52

引用:
超级大鸡吧 发表于 2016-10-24 22:03
我自己做了半天都失败了,难哦


呵呵。加油{:bigsmile:}

fhqswcan 2016-11-11 16:36:11
能把 2.1的数据库共享下吗


38722856 2018-08-02 11:42:38
{:ladyvam:}新学员崇拜


我来说两句
发布新帖
版主信息