本文介绍如何获取纳豆app中视频的播放源链
前言
相信看到这篇文章的很多同学都是在写爬虫的过程中遇到了问题,既然是爬虫,那么你的操作可能也会使得其他人或者自己的工作量变得大,这么说的原因有二:
1 | 1.提供服务的那一方可能会因为一些不友好的爬虫,不断地修改策略 |
由于博主很长一段时间(一年半多)至今都是从事抓取相关的工作,也是由开始的”不友好的爬虫”慢慢意识到自己的很多的”爬虫工作”都更像是在攻击,而不是正正经经的”爬虫”。所以特别想在本文开始之前说一些关于爬虫应该稍微注意的点,不仅仅是为了个人的工作,更是觉得所有为大家贡献代码和思路的探路者都很不容易,总结一下就是:破解不易,且用且珍惜
以下几点
1 | 访问频率/访问量,可以根据你对这个网站的数据量评估和自己的数据量需求,控制在一个合理的值,除非特殊情况,不要想着一天能百万千万 |
注意到以上几点,最起码对方不会把你当成一个恶意程序,像一个正常访问的请求,不会对服务器造成什么不好的影响,何乐而不为
问题
在收集一款app叫做”爱奇艺头条”(现已更名为:纳豆)上的短视频时,找寻其播放源链
分析
前期抓包
请求网站:http://m.toutiao.iqiyi.com/top_126hd0mujy.html
观察其中的参数,只有t和vf不同,这个t很明显能看出来是一个时间戳(13位的),而这个vf就得继续研究了
找寻加密方法
猜想是不是由某个js文件加密生成的
于是我按下f12,刷新了下页面,发现在这个播放链出来之前加载了如下几个js文件
注:最下面的那个请求是获取详细播放链的url
在图中的js文件中,很轻易便能看到有一个特别显眼的js文件:app_detail_video.18f1b586.js
http://static.qiyi.com/assets/js/page/detail/app_detail_video.18f1b586.js
我们进入到以上的js文件中,检索 vf= 这个关键词,找到相关的代码如下
1 | function(e, t, a) { |
这里的 a.vf = window.cmd5x ? window.cmd5x(n) : “”, a
意思是:若window这个对象有cmd5x这个方法(属性),就返回window.cmd5x(n);否则返回””空字符串, 后面的a是第二个返回值
到这里就出现两个问题:
1.cmd5x这个函数在哪儿?
2.这个n是怎么得到的?
找寻cmd5x这个加密函数
在所有加载的js文件中都找了一遍,但是还没有明确地看到cmd5x这个function,但是在网上查到的一份有关爱奇艺的vf算法js文件看到如下一段代码
1 | o.exports = { |
能看出来以上是部分关于发送验证请求的代码,主要看beforeSend这一部分,大概能够知道
1 | url: c.h5tmtsUrl + e.tvid + "/" + e.vid + "/", |
以上,我们还找到h5tmtsUrl这个未知的变量,又找到如下的代码
注:e.url.replace(new RegExp(“^https?://“ + t, “ig”), “”)
这是将”https://“+e.url的域名 , “ig”表示不区分大小写,统统替换成成空字符串,结合下面提到的来说,也就是将”https://cache.m.iqiyi.com/jp/tmts/" 这一段字符替换成空字符串
1 | function(e, t, i) { |
可以知道
1 | var o = window.location.protocol; |
h5tmtsUrl其实就是一个通信协议+指定字符串:”https” + “//cache.m.iqiyi.com/jp/tmts/“
所以,到这里我们需要解决的是什么呢?cmd5x这个函数我们依然不知道,且我们只能大概知道作为其参数的e.url是一个被替换掉了”https://cache.m.iqiyi.com/jp/tmts/" 的正常url字符串,其可能的参数有如下
1 | url = c.h5tmtsUrl + e.tvid + "/" + e.vid + "/" |
由于其js文件实在太混乱,所有参数都不知道怎么来的,没法推算出我们应该给这个cmd5x传一个什么样的值,更重要的是js中的cmd5x在哪儿,我该怎么用py去调用都不知道。最后还是在万能的google上扎到了答案,感谢贡献代码的大佬,一路带我前行
来自大佬的微笑
参考了几篇博客,自己也尝试着构造请求,也成功了,大概有以下这些参数是必要的
1 | head = "/jp/tmts/tvid/vid/?" |
将param构造成一个字符串,再在头部拼接上head即是一个正常的cmd5x需要的参数,一个正常的出参数值为:
1 | /jp/tmts/12476488409/12476488409/?src=02020031010000000000&callback=tmtsCallback&uid=&sgti=13_12e9e055c713deba092399c62d8cb2b2_1489561211612&agenttype=13&cupid=&t=1521388096000&qdv=1&platForm=h5&rate=2&__jsT=sgve&k_ft1=8&qds=0&nolimit=&qdy=x&type=mp4&qdx=n&qyid=&&vf=39f7f4c1b39089dbfe887ad15f1ffb7a |
加上对应的头部文件:
“http://cache.m.iqiyi.com"
其返回的数据格式化后如下:
1 | { |
其中的m3u就是视频真正的播放地址了
cmd5x也有破解好的对应几个版本,其实也叫做vf的算法,针对不同类型
1 | import hashlib |
这里我们使用第一个即可
代码
代码放在github了,有需要的可以看看
2018/07/12更新
看了下日志,爱奇艺大概是从6月27号更新了策略。不知道是不是被抓的多了….
以上app端的加盐md5算法失效了,花了点时间找到了cmd5x更新后的方法,说下思路:其关键函数藏在一个js文件中,参数也更新了,并且还需要注意某一个参数的先后顺序.
注:我没有使用新的cmd5x方法去加密原始的参数,所以不知道原始的参数是不是能使用。最好还是都替换成新的吧,因为app_detail_video.xxxx.js文件也换了新的
由于怕被封,暂时先不把方法写到这里,还是那句话,接口且用且珍惜.
End
在找参数的过程中用到了一个动态调试js的方法,由于本篇篇幅太长,放在下一篇里面单独讲讲这种方法
参考网址:
http://zhuhaidong.win/TP/index.php/Home/Index/article/id/32.html
https://blog.icehoney.me/posts/2016-12-19-Reverse-JavaScript
https://github.com/zhangn1985/ykdl/issues/19