全球主机交流论坛

标题: 分享下:豆瓣电影、百度网盘的采集思路和源码 [打印本页]

作者: cdwyd    时间: 2016-10-16 22:26
标题: 分享下:豆瓣电影、百度网盘的采集思路和源码
本帖最后由 cdwyd 于 2016-10-16 22:37 编辑

昨天发了一个帖子(http://loc.193.gs/thread-334396-1-1.html),说是打算接一些爬虫抓取类的单子,从论坛(发了两个论坛)来了不少朋友加好友,有些朋友对数据感兴趣,不过采集的数据不太适合公开,所以把思路和部分源码分享下吧。

## 豆瓣电影


因为豆瓣电影有api,所有采集豆瓣最方便的方式还是先获取id。豆瓣的电影、图书等id。获取到id后直接调用api抓取就行。豆瓣api有限制,可以使用拨号或者大量代理。

## 百度网盘

百度网盘的主要思路是先获取用户uk,通过uk可以拿到分享列表,然后获取到分享数据。

### UK获取的方式:
        1. 循环抓取用户的粉丝还有用的订阅
        2. 从各个网盘搜索站点抓取
        3. 利用大量关键词从bing搜索,google搜索的结果中提取。
        利用上面三种方法总共抓取了大概500W的有效分享用户

### 失效链接检测
        这个是很多网盘搜索站做的不太好的地方,很多资源都是失效。快速检测失效链接的方法是用head请求判断百度的返回信息就可以知道资源是否有效。用这种方式单台电脑每天能查询1000W左右的资源是否失效。

### 百度的反爬虫策略
        除了限制IP抓取频率外,百度还对同一个UK的最大抓取有限制,超过限制后会随机返回数据。


豆瓣的源码附件中就有,百度的就不发了,主要原因是里面涉及一点百度反爬虫的东西,一旦公开估计很快就会被封。另外豆瓣的抓取源码是最初可用版本,重构后的那一份找不着了。。。写的比较随意,所以见笑见笑。



按照惯例广告最后的应该是广告:有需要数据抓取,爬虫定制、工具开发方面的需求的朋友欢迎联系QQ:2870698831。关于数据,目前确实没打算出售主要还是考虑两个方面一个是影响另一个是公开后可能自己又要去找新的绕过方式,如果感兴趣的朋友比较多,价格合适的话我考虑下统一价格出售给需要的朋友。

还有一点关于接单价格,我给自己定了个原则目前低于200的不做,有些功能可能就几行十几行代码,还希望能理解。200算是一个小小的门槛吧,我不太希望技术变得太过廉价。
作者: lgp7226    时间: 2016-10-16 22:36
纯支持一下楼主。
作者: suzizi    时间: 2016-10-16 22:38
提示: 作者被禁止或删除 内容自动屏蔽
作者: guonning2000    时间: 2016-10-16 22:40
纯支持
作者: hdwan.net    时间: 2016-10-16 22:41
早就有大神做出来了。。。演示  www.rrrys.com
作者: 爱吹海绵的泡泡    时间: 2016-10-16 23:19
大神啊!都是膜拜!!
作者: wechat    时间: 2016-10-16 23:24
技术再好,没有思路是不行的,学习lz思路
感谢乐于分享的人
作者: thxhejin    时间: 2016-10-16 23:25
hdwan.net 发表于 2016-10-16 22:41
早就有大神做出来了。。。演示  www.rrrys.com

大神,球带
作者: 张大牛    时间: 2016-10-17 01:13
大神,,,膜拜一下!
另外想问一下,怎么获取豆瓣电影、图书的id呢?谢谢
作者: 左手写爱    时间: 2016-10-17 04:30
3人。。。。这域名也是没谁了
作者: 有容乃大    时间: 2016-10-17 06:29
马克
作者: 今晚我是你的    时间: 2016-10-17 06:50
没有技术用火车头就可以搞定,只不过要手动
作者: MagicHen    时间: 2016-10-17 07:18
提示: 作者被禁止或删除 内容自动屏蔽
作者: 单调    时间: 2016-10-17 07:24
有技术就是好
作者: zsl198854    时间: 2016-10-17 07:42
看来大家学 python 都很努力啊  
作者: 潇洒哥er    时间: 2016-10-17 08:43
牛b楼主 技术贴 支持
作者: 王表弟    时间: 2016-10-17 11:41
大神,觉得拼凑的tdk,效果会好吗
作者: cdwyd    时间: 2016-10-17 11:48
王表弟 发表于 2016-10-17 11:41
大神,觉得拼凑的tdk,效果会好吗

之前拼过,包括内容也是自动组合的 流量小的谷歌不管,多了就K
作者: 王表弟    时间: 2016-10-17 11:50
cdwyd 发表于 2016-10-17 11:48
之前拼过,包括内容也是自动组合的 流量小的谷歌不管,多了就K

如果能呆七八天,那也算可以了,可以赚得不错了
作者: gger    时间: 2016-10-17 22:08
最近这个模式真火啊
作者: 986285227    时间: 2016-10-18 15:08
豆瓣我爬了5w+数据,数据得定时更新一下
作者: cdwyd    时间: 2016-10-19 20:06
986285227 发表于 2016-10-18 15:08
豆瓣我爬了5w+数据,数据得定时更新一下

电影有十几万,书有300多万呢
作者: 986285227    时间: 2016-10-21 19:10
cdwyd 发表于 2016-10-19 20:06
电影有十几万,书有300多万呢

去重了吗,我是按标签爬的
作者: cdwyd    时间: 2016-10-21 21:04
986285227 发表于 2016-10-21 19:10
去重了吗,我是按标签爬的

去重了 这些也不全。按标签也有好处都是比较热门的,遍历抓取来的有很多冷门的,尤其是书,很多都是根本就没有人关注的书。我专门筛选了一下有评论的书就十几万
作者: 左手写爱    时间: 2016-10-22 09:16
知乎有人分享过了




欢迎光临 全球主机交流论坛 (https://loc.193.gs/) Powered by Discuz! X3.4