全球主机交流论坛

标题: 有人能搞出這樣子的源碼嗎? [打印本页]

作者: skwinx    时间: 2010-11-30 23:29
标题: 有人能搞出這樣子的源碼嗎?
  我試著用開源的蜘蛛去抓取頁面 儲存快照 分類儲存頁面

類似  web.archive.org  這樣的網站

我抓到的中文字都是亂碼 誰有這樣子的源碼? 我也來整個互聯網存檔。
作者: cnweb    时间: 2010-11-30 23:30
太庞大啦
你能搞出来  就伟大了
作者: skwinx    时间: 2010-11-30 23:32
本地蜘蛛從hao123開始爬 目前吸收到了900多MB的快照頁面了
作者: cnweb    时间: 2010-11-30 23:33
我想都不敢想能搞這樣的網站
作者: skwinx    时间: 2010-11-30 23:37
生命在於蛋疼嘛

算了一下 普通的VPS沒有那麼大的硬盤 那些無限虛擬主機能有文件數限制的吧
作者: cnweb    时间: 2010-11-30 23:38
原帖由 skwinx 于 2010-11-30 23:37 发表
生命在於蛋疼嘛

算了一下 普通的VPS沒有那麼大的硬盤 那些無限虛擬主機能有文件數限制的吧



  哈哈 你還真是蛋疼!。
作者: 我行我素    时间: 2010-11-30 23:45
原帖由 skwinx 于 2010-11-30 23:37 发表
生命在於蛋疼嘛

算了一下 普通的VPS沒有那麼大的硬盤 那些無限虛擬主機能有文件數限制的吧


嗯,你这文件估计很多,虚拟主机肯定不行,上服务器
作者: themyth    时间: 2010-11-30 23:47
原帖由 skwinx 于 2010-11-30 23:29 发表
  我試著用開源的蜘蛛去抓取頁面 儲存快照 分類儲存頁面

類似  web.archive.org  這樣的網站

我抓到的中文字都是亂碼 誰有這樣子的源碼? 我也來整個互聯網存檔。 ...



楼主,我也有你这样的想法。
作者: skwinx    时间: 2010-11-30 23:47
公益事業 讓人搭乘「時光機」回去看看以前的網頁為目的。

上獨服不太合算,研究一下怎麼減少那些文件數
作者: skwinx    时间: 2010-11-30 23:48
  現有的這個蜘蛛是整個網頁一鍋端 什麽JS CSS 全部下載下來了
作者: cnweb    时间: 2010-11-30 23:49
做這個玩意
沒有點美元或人民幣是不可能的撒
作者: liheyuan    时间: 2010-12-1 00:15
爬这么多有啥用么。。我一直就很不解。。垃圾站的意义是什么?除了赚点钱。。
你搞几个机器在你本地爬,一周能爬好几十T的。
作者: drivel    时间: 2010-12-1 01:04
对于中文网页,要正确的读出 encode 的方式

可以从网页头部,HTTP header 读出,然后 decode 一下
作者: drivel    时间: 2010-12-1 01:10
另外,这样做最大的问题在于截图如何经济有效的存贮和调用

毕竟是文件,不能使用现成的一些 Map/Reduce 或者 NoSQL 之类的数据模型
作者: 狒狒    时间: 2010-12-1 07:01
提示: 作者被禁止或删除 内容自动屏蔽
作者: 狒狒    时间: 2010-12-1 07:05
提示: 作者被禁止或删除 内容自动屏蔽
作者: moto72    时间: 2010-12-1 07:15
nutch 开源的
作者: qqpcc    时间: 2010-12-1 08:53
一个很不错的想法,但你可能得为些付出一辈子的努力。
因为你的想法……,可能不是一个人的财力、精力……能完成的。




欢迎光临 全球主机交流论坛 (https://loc.193.gs/) Powered by Discuz! X3.4