全球主机交流论坛

标题: 正文提取算法 [打印本页]

作者: God    时间: 2011-1-3 17:32
标题: 正文提取算法
基本是给垃圾站加上了核动力


比如下面这个,没有针对163写任何规则,自动提取网页正文,



[ 本帖最后由 God 于 2011-1-3 17:35 编辑 ]
作者: bux518    时间: 2011-1-3 17:32
什么东东?看似很牛X啊 、
作者: 狒狒    时间: 2011-1-3 17:33
提示: 作者被禁止或删除 内容自动屏蔽
作者: cookie    时间: 2011-1-3 17:33
什么?
作者: mslxd    时间: 2011-1-3 17:34
没看懂啊?什么意思嘛
作者: cnshayo    时间: 2011-1-3 17:48
原理很简单的,呵呵,没啥特别的
作者: 挨个搞    时间: 2011-1-3 17:53
正则。。。
作者: puper    时间: 2011-1-3 18:32
不用正则,我这里有几份算法
作者: 狒狒    时间: 2011-1-3 18:36
提示: 作者被禁止或删除 内容自动屏蔽
作者: foxconndmd    时间: 2011-1-3 18:42
没看懂
作者: ineme    时间: 2011-1-3 18:47
这种即使有小偷了,也流量不大吧,不懂得基本都是sina啊,搜狐啊、网易的,懂得吗,基本不去搜索这个新闻,不是吗?
作者: 挨个搞    时间: 2011-1-3 18:51
原帖由 puper 于 2011-1-3 18:32 发表
不用正则,我这里有几份算法


字符处理,应该还是正则最强大吧
非专业人员。。。
作者: lvhuan    时间: 2011-1-3 19:02
这个有什么?简单的正则啊~
作者: greensnow    时间: 2011-1-3 19:04
很多正规的门户站,比如163,sina,正文部分一般都会用<p>标签分段的,把聚团的<p>节点的父节点提出来应该就是正文,然后从上面查找h1,h2什么的就是标题了。。。
作者: fish    时间: 2011-1-3 19:28
google一搜一大堆
http://scholar.google.com.hk/sch ... s=1&oi=scholart

大多没有实用价值,不如正则好用




欢迎光临 全球主机交流论坛 (https://loc.193.gs/) Powered by Discuz! X3.4