全球主机交流论坛

标题: 正文提取算法 [打印本页]

作者: God 时间: 2011-1-3 17:32
标题: 正文提取算法
基本是给垃圾站加上了核动力

比如下面这个，没有针对163写任何规则，自动提取网页正文，

[ 本帖最后由 God 于 2011-1-3 17:35 编辑 ]

作者: bux518 时间: 2011-1-3 17:32
什么东东？看似很牛Ｘ啊　、

作者: 狒狒 时间: 2011-1-3 17:33
提示: 作者被禁止或删除内容自动屏蔽

作者: cookie 时间: 2011-1-3 17:33
什么？

作者: mslxd 时间: 2011-1-3 17:34
没看懂啊？什么意思嘛

作者: cnshayo 时间: 2011-1-3 17:48
原理很简单的，呵呵，没啥特别的

作者: 挨个搞 时间: 2011-1-3 17:53
正则。。。

作者: puper 时间: 2011-1-3 18:32
不用正则，我这里有几份算法

作者: 狒狒 时间: 2011-1-3 18:36
提示: 作者被禁止或删除内容自动屏蔽

作者: foxconndmd 时间: 2011-1-3 18:42
没看懂

作者: ineme 时间: 2011-1-3 18:47
这种即使有小偷了，也流量不大吧，不懂得基本都是sina啊，搜狐啊、网易的，懂得吗，基本不去搜索这个新闻，不是吗？

作者: 挨个搞 时间: 2011-1-3 18:51

原帖由 puper 于 2011-1-3 18:32 发表
不用正则，我这里有几份算法

字符处理，应该还是正则最强大吧
非专业人员。。。

作者: lvhuan 时间: 2011-1-3 19:02
这个有什么？简单的正则啊~

作者: greensnow 时间: 2011-1-3 19:04
很多正规的门户站，比如163，sina，正文部分一般都会用<p>标签分段的，把聚团的<p>节点的父节点提出来应该就是正文，然后从上面查找h1,h2什么的就是标题了。。。

作者: fish 时间: 2011-1-3 19:28
google一搜一大堆
http://scholar.google.com.hk/sch ... s=1&oi=scholart

大多没有实用价值，不如正则好用

欢迎光临全球主机交流论坛 (https://loc.193.gs/)