本来其实我是很懒很懒的,所以好久都没有更新网站了,没想到今天白天更新了一下,晚上又发现了一个很好的东西来进行更新,那就是题目。

目前抖音已经上线了网页版,那么我们想要爬去他的视频就不需要钻研安卓了,我们只需要通过python,来进行爬去就可以了。

https://www.douyin.com/这个是抖音的官网,一进去就发现其实这个页面是非常干净的,没有什么垃圾广告之类的,不过其实大多数的网站都没有什么小弹窗。

不过发现看视频也没有广告,不过我预计后期可能会加广告,毕竟通过网页来看短视频其实并没有用手机看舒服。
抖音主页面

现在我有一个不知道是好是坏的习惯,就是看见视频页面就理所应当的f12查看一下这个视频是否能够下载,既然如此,那么我们就看一下这个视频吧。
抖音视频页
可以很容易的发现我们找到了想要的东西,我们只需要找到链接然后右键open in new web即可,然后就能将视频下载下来了,这里就不写python代码了,太简单了,只是简单的分析一下而已。

然后其实接下来就是分析一下链接了

https://www.douyin.com/video/6976573531568016678?previous_page=search_result&extra_params=%7B%22search_id%22%3A%2220210622202739010212081217280CAE8C%22%2C%22search_result_id%22%3A%226976573531568016678%22%2C%22search_type%22%3A%22video%22%2C%22search_keyword%22%3A%22%E6%88%91%E7%9A%84%E4%B8%96%E7%95%8C%22%7D
找了一个视频页来进行分析一下啊,首先开头到video都是没有什么意义的东西,然后就是6976573531568016678这个是视频的id,然后previous_page=search_result这个应该是说明视频是从哪里来的,后面的内容大概猜了一下就是我搜索的内容然后再加上一些标记来记录这个搜索词,之所以这么认为是因为如果我从这个人的主页打开的话,那么视频页的链接就不是这样的了。
https://www.douyin.com/video/6954614178195721480?previous_page=others_homepage后面的previous_page=others_homepage,这个应该是说明这个视频是从作者的主页打开的,所以我们其实这个视频只需要获取id即可修改打开所有的网页。

然后再说一下搜索页,https://www.douyin.com/search/我的世界?aid=24c82fdf-b203-44c4-b5ef-bf7489162346&publish_time=0&sort_type=0&source=normal_search&type=video这里我搜的是我的世界,aid这个应该是随机的进行记录,然后再就是publish_time这个我猜应该是搜索用的时间不过大概率不是,意思是发布时间,但是结果是0。。。。
搜索页面
然后发现这个有一个发布时间的选项,点击尝试,发现这个publishtime是这个一天内一周内半年内的修改值。我随便修改一个值发现没啥用,所以这个应该是定值,0,7,182,分别是一天内,一周内和半年内。
在接下来是sort_type这个有了上面的基础,很容易就知道是排序,值分别是0,1,2代表的是综合,最多,最新。
source=normal_search这个我只发现了两个值一个实history_search一个是normal_search,后面的是普通搜索,前面的我猜是通过搜索历史来搜索。
还有一个值是search_sug,这个是通过下拉菜单搜索得到的值。
然后最后就是type这个就是video和user了,分别是视频和用户。
然后再简单分析一下用户主页的链接吧。
https://www.douyin.com/user/MS4wLjABAAAAvs39O22rH-34wotF0Zzz5DrGhanbUEJsfeZ79eCPgz4?enter_method=video_title&author_id=94869865259&group_id=6954614178195721480&log_pb=%7B%22impr_id%22%3A%22021624364984797fdbddc0100fff0030a0c325800000034b9e876%22%7D&enter_from=video_detail
是这里user其实跟视频一样,就是在说明这个页面是干啥的页面。然后MS4wLjABAAAA我发现是固定的。后面是随机的,我猜是标记,因为这个同一个人是不变的。之后enter_method这个是进入主页的方式,video_title这个值应该是我们通过点击这个人进入的主页,没发现别的凡是,然后author_id这个是作者的id,然后再就是group_id这个是记录你从那个页面进入主页的,目前我发现的是通过某个视频进入这个主页,那么group_id就会是这个视频的id。
后面的就不知道是啥意思了,如果有懂的可以评论一下大家交流一下。

最后修改:2021 年 06 月 22 日 08 : 49 PM
如果觉得我的文章对你有用,请随意赞赏