全球主机交流论坛

标题: 有人能搞出這樣子的源碼嗎？ [打印本页]

作者: skwinx 时间: 2010-11-30 23:29
标题: 有人能搞出這樣子的源碼嗎？

我試著用開源的蜘蛛去抓取頁面儲存快照分類儲存頁面

類似 web.archive.org 這樣的網站

我抓到的中文字都是亂碼誰有這樣子的源碼？我也來整個互聯網存檔。

作者: cnweb 时间: 2010-11-30 23:30
太庞大啦
你能搞出来就伟大了

作者: skwinx 时间: 2010-11-30 23:32

本地蜘蛛從hao123開始爬目前吸收到了900多MB的快照頁面了

作者: cnweb 时间: 2010-11-30 23:33
我想都不敢想能搞這樣的網站

作者: skwinx 时间: 2010-11-30 23:37
生命在於蛋疼嘛

算了一下普通的VPS沒有那麼大的硬盤那些無限虛擬主機能有文件數限制的吧

作者: cnweb 时间: 2010-11-30 23:38

原帖由 skwinx 于 2010-11-30 23:37 发表
生命在於蛋疼嘛

算了一下普通的VPS沒有那麼大的硬盤那些無限虛擬主機能有文件數限制的吧

哈哈你還真是蛋疼！。

作者: 我行我素 时间: 2010-11-30 23:45

原帖由 skwinx 于 2010-11-30 23:37 发表
生命在於蛋疼嘛

算了一下普通的VPS沒有那麼大的硬盤那些無限虛擬主機能有文件數限制的吧

嗯，你这文件估计很多，虚拟主机肯定不行，上服务器

作者: themyth 时间: 2010-11-30 23:47

原帖由 skwinx 于 2010-11-30 23:29 发表
我試著用開源的蜘蛛去抓取頁面儲存快照分類儲存頁面

類似 web.archive.org 這樣的網站

我抓到的中文字都是亂碼誰有這樣子的源碼？我也來整個互聯網存檔。 ...

楼主，我也有你这样的想法。

作者: skwinx 时间: 2010-11-30 23:47

公益事業讓人搭乘「時光機」回去看看以前的網頁為目的。

上獨服不太合算，研究一下怎麼減少那些文件數

作者: skwinx 时间: 2010-11-30 23:48

現有的這個蜘蛛是整個網頁一鍋端什麽JS CSS 全部下載下來了

作者: cnweb 时间: 2010-11-30 23:49
做這個玩意
沒有點美元或人民幣是不可能的撒

作者: liheyuan 时间: 2010-12-1 00:15
爬这么多有啥用么。。我一直就很不解。。垃圾站的意义是什么？除了赚点钱。。
你搞几个机器在你本地爬，一周能爬好几十T的。

作者: drivel 时间: 2010-12-1 01:04
对于中文网页，要正确的读出 encode 的方式

可以从网页头部，HTTP header 读出，然后 decode 一下

作者: drivel 时间: 2010-12-1 01:10
另外，这样做最大的问题在于截图如何经济有效的存贮和调用

毕竟是文件，不能使用现成的一些 Map/Reduce 或者 NoSQL 之类的数据模型

作者: 狒狒 时间: 2010-12-1 07:01
提示: 作者被禁止或删除内容自动屏蔽

作者: 狒狒 时间: 2010-12-1 07:05
提示: 作者被禁止或删除内容自动屏蔽

作者: moto72 时间: 2010-12-1 07:15
nutch 开源的

作者: qqpcc 时间: 2010-12-1 08:53
一个很不错的想法，但你可能得为些付出一辈子的努力。
因为你的想法……，可能不是一个人的财力、精力……能完成的。

欢迎光临全球主机交流论坛 (https://loc.193.gs/)