效果
输入要爬取的视频的BV号即可爬取该视频的弹幕。
过程
基本思路
基本的思路很简单,还是老步骤:
1、构造爬取的url
2、解析返回的数据
3、使用json或Xpath或正则表达式提取数据
4、保存数据
寻找url地址
第一步
刚开始还是从网页版中寻找url地址,结果请求很多,找了半天也没有找到
第二步
于是我们可以访问一下手机版的页面,而根据常识,弹幕这种东西一般是通过ajax来请求的,所以我们过滤一下,只看异步请求。
此时请求就变得少了很多,但是依然没有找到我们需要的弹幕数据,此时才发现我们并没有点击播放视频。
第三步
弹幕是在视频播放的过程中播放的,理所当然只有当我们播放视频并且打开弹幕后才会请求弹幕的数据,我们点击播放。
点击播放后我们可以发现请求变多了,再次寻找我们发现 168881748.xml
请求的地址便是弹幕数据了。
第四步
到这里我们就想到了,这种地址是怎么请求的呢?不同的视频请求的地址肯定是不一样的,应该是js生成的吧!现在我们来搜索一下该文件名``168881748`
很显然这是构造出来的地址,我们点进去看一下
不出所料是js构成的请求地址,我们可以发现这便是页面的数据,我们进一步去验证一下,刷新页面,查看一下网页的数据。
果然在该页面的文档中我们找到了
现在的思路
现在思路就很清晰了
1、通过视频url获取弹幕文件url
2、爬取弹幕文件url
3、提取数据
代码实现
1 | # coding=utf-8 |
这里只打印了弹幕,并没有保存,可以根据自己的需求进行更改!