全球主机交流论坛
标题:
正文提取算法
[打印本页]
作者:
God
时间:
2011-1-3 17:32
标题:
正文提取算法
基本是给垃圾站加上了核动力
比如下面这个,没有针对163写任何规则,自动提取网页正文,
[
本帖最后由 God 于 2011-1-3 17:35 编辑
]
作者:
bux518
时间:
2011-1-3 17:32
什么东东?看似很牛X啊 、
作者:
狒狒
时间:
2011-1-3 17:33
提示:
作者被禁止或删除 内容自动屏蔽
作者:
cookie
时间:
2011-1-3 17:33
什么?
作者:
mslxd
时间:
2011-1-3 17:34
没看懂啊?什么意思嘛
作者:
cnshayo
时间:
2011-1-3 17:48
原理很简单的,呵呵,没啥特别的
作者:
挨个搞
时间:
2011-1-3 17:53
正则。。。
作者:
puper
时间:
2011-1-3 18:32
不用正则,我这里有几份算法
作者:
狒狒
时间:
2011-1-3 18:36
提示:
作者被禁止或删除 内容自动屏蔽
作者:
foxconndmd
时间:
2011-1-3 18:42
没看懂
作者:
ineme
时间:
2011-1-3 18:47
这种即使有小偷了,也流量不大吧,不懂得基本都是sina啊,搜狐啊、网易的,懂得吗,基本不去搜索这个新闻,不是吗?
作者:
挨个搞
时间:
2011-1-3 18:51
原帖由
puper
于 2011-1-3 18:32 发表
不用正则,我这里有几份算法
字符处理,应该还是正则最强大吧
非专业人员。。。
作者:
lvhuan
时间:
2011-1-3 19:02
这个有什么?简单的正则啊~
作者:
greensnow
时间:
2011-1-3 19:04
很多正规的门户站,比如163,sina,正文部分一般都会用<p>标签分段的,把聚团的<p>节点的父节点提出来应该就是正文,然后从上面查找h1,h2什么的就是标题了。。。
作者:
fish
时间:
2011-1-3 19:28
google一搜一大堆
http://scholar.google.com.hk/sch ... s=1&oi=scholart
大多没有实用价值,不如正则好用
欢迎光临 全球主机交流论坛 (https://loc.193.gs/)
Powered by Discuz! X3.4