如何获得 Youtube 视频字幕
现在视频成了传递信息的重要媒介,但是并不是所有的信息都适合使用视频这个媒介。厨师王刚的介绍做菜使用视频当然没有问题,财经类的信息使用视频实在是降低了信息获取速度。本文介绍如何获取视频的文字稿。内容直接启发自 https://twitter.com/shell909090/status/1351371503019847681 由于原推主锁推,引用如下。
最近在看很多财经频道,里面一个人说说说讲了半天,其实干货可能就十句话。问题是怎么从几十分钟的内容里看到这10句干货呢?我找了一个简单办法。先用youtube-dl -f ’bestaudio[ext=m4a]’下载音频。然后用下面这个项目转换为字幕。最后直接看字幕,三分钟完事。https://github.com/agermanidis/autosub
下载 Youtube 视频的音频内容
youtube-dl -f 'bestaudio[ext=m4a]' "URL"
使用 autosub 获取字幕,autosub 的原始仓库现在已经不维护,我使用的是目前活跃维护的 fork 版本,简介有简体中文。
Ubuntu 下的安装
pip install git+https://github.com/BingLingGroup/autosub.git@alpha ffmpeg-normalize langcodes```
使用
```autosub -s zh-CN -i audio.m4a```
简单尝试发现使用的效果一般。不过总比看十几分钟的视频快多了。转文字利用的是 Google Cloud Speech 的 API,需要将音频文件分段转为文字,所以速度不算快。不过敲好命令可以看别的去。总体来说还是节约了大量时间的。
如果懒得自己折腾的,可以考虑提供类似功能的商业服务 (未尝试): Get The tldr Of Any YouTube Video In Seconds <https://you-tldr.com/>