
Buzz:开箱即用,一键语音转文字并翻译

众所周知,OpenAI Whisper 是一个功能强大且准确率很高的语音转文字工具,但对于普通用户来说,直接使用它还是存在一定的难度。在这里推荐 GitHub 上一款基于 Whisper 开发的音频转录和翻译工具 Buzz。
它是一个完全开源免费、界面简洁且易于使用的工具,能够一键将音频或视频中的语音转换为文本,并且可在本地电脑上离线运行。
文件导入
导入文件非常简单,只需按以下步骤操作:
在文件菜单中点击“导入媒体文件”(或工具栏上的“+”图标,或者按 Command/Ctrl + O)。
选择一个音频或视频文件。
选择任务、语言和模型设置。
点击“运行”。
当转录状态显示“完成”时,双击该行(或选择该行并点击“⤢”图标)以打开转录内容。
字段 | 选项 | 默认值 | 描述 |
---|---|---|---|
导出为 | "TXT", "SRT", "VTT" | "TXT" | 导出文件格式 |
单词级时间戳 | 关闭 / 开启 | 关闭 | 如果选中,转录将为音频中的每个单词生成单独的字幕行。仅在“导出为”设置为“SRT”或“VTT”时启用。 |
实时录音
要开始实时录音,请按以下步骤操作:
- 选择一个录音任务、语言、质量和麦克风。
- 点击“录音”。
注意: 使用默认的 Whisper 模型进行音频转录需要大量资源。建议使用 Whisper.cpp Tiny 模型以获得实时性能。
字段 | 选项 | 默认值 | 描述 |
---|---|---|---|
任务 | "转录", "翻译" | "转录" | “转录”将输入音频转换为所选语言的文本,而“翻译”将其转换为英文文本。 |
语言 | "检测语言" | "检测语言"将尝试根据前几秒的音频检测所说的语言。然而,推荐选择语言(如果已知),因为这会在很多情况下提高转录质量。 | |
质量 | "非常低", "低", "中", "高" | "非常低" | 转录质量决定了用于转录的 Whisper 模型。“非常低”使用“tiny”模型;“低”使用“base”模型;“中”使用“small”模型;“高”使用“medium”模型。较大的模型生成更高质量的转录,但需要更多系统资源。 |
麦克风 | [可用的系统麦克风] | [默认系统麦克风] | 录音输入音频的麦克风。 |
录制电脑播放的音频(macOS)
要录制计算机上应用程序播放的音频,可以安装音频回环驱动程序(一个允许您创建虚拟音频设备的程序)。以下指南将使用BlackHole在 Mac 上进行,但您可以根据操作系统使用其他替代方案(例如LoopBeAudio、LoopBack和Virtual Audio Cable)。
通过 Homebrew 安装 BlackHole
brew install blackhole-2ch
从 Spotlight 或
/Applications/Utilities/Audio Midi Setup.app
打开音频 MIDI 设置。点击左下角的“+”图标并选择“创建多输出设备”。
将默认扬声器和 BlackHole 添加到多输出设备中。
将此多输出设备选择为您的扬声器(应用程序或系统范围)以将音频播放到 BlackHole。
打开 Buzz,选择 BlackHole 作为麦克风,并按之前的步骤录制以查看通过 BlackHole 播放的音频的转录内容。
录制电脑播放的音频(Windows)
要转录系统音频,需要配置虚拟音频设备,并将您要转录的应用程序的输出连接到此虚拟扬声器。然后可以在 Buzz 中选择它作为音源。
- 安装VB CABLE作为虚拟音频设备。
- 使用 Windows 声音设置进行配置。右键单击系统托盘中的扬声器图标并选择“打开声音设置”。在“选择您的输出设备”下拉菜单中选择“CABLE 输入”以将所有系统声音发送到虚拟设备,或使用“高级声音选项”选择将声音输出到该设备的应用程序。
录制电脑播放的音频(Linux)
如Ubuntu Wiki所述,在任何带有 pulse audio 的 Linux 上,您都可以将应用程序音频重定向到虚拟扬声器。然后可以在 Buzz 中选择它作为音源。
总体步骤:
- 启动将产生您想要转录声音的应用程序并开始播放。例如,在媒体播放器中启动视频。
- 启动 Buzz 并打开实时录音屏幕,以便查看设置。
- 在 PulseAudio 音量控制(
pavucontrol
)的录音
选项卡中,配置要转录声音的应用程序的声音路由到 Buzz。
安装
PyPI:
pip install buzz-captions python -m buzz
macOS:
brew install --cask buzz
Windows:
下载并运行 发布页面 中的 .exe
文件。
Linux:
sudo apt-get install libportaudio2 libcanberra-gtk-module libcanberra-gtk3-module
sudo snap install buzz
sudo snap connect buzz:audio-record
sudo snap connect buzz:password-manager-service
sudo snap connect buzz:pulseaudio
sudo snap connect buzz:removable-media
Buzz 作为一个免费开源的语音转文字和翻译工具,其功能强大且易于使用。对于需要处理大量音频内容的用户来说,它无疑是一个得力助手。无论是文件导入还是实时录音,它都提供了详细的设置选项,让用户可以根据需求灵活调整。同时,Buzz 还支持翻译功能,对于需要多语言处理的场景也非常友好。