采访转录。不同的录音,相同的效果。

电话语音备忘录、Zoom 通话、领夹式麦克风或便携式录音机 — 上传采访录音,获得带有说话人标签、时间戳的文本,可直接引用。

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ 看看输出结果

两个声音进来。 两个声音出去,标有标签。

大多数采访是一个设备上的两个人 — 桌子上的手机、你们之间的录音机。我们甚至从单声道频道中将采访音频分离为记者和受访者,然后为每个转折处标注时间戳以供引用。

便携式录音机 · WAVREC 2 个说话人 · 38:42
自动检测 en-US48 kHz 单声道 · 1411 kbps
~90s
转录 · 流式传输94% 准确率
S1

你能跟我讲一下十八号早上你看到的情况吗?

S2

我大约六点到那里。装货湾的门已经开了,本来不应该开的。

S1

你之前报告过门的问题 — 向谁报告的?

S2

向设施部的 Diane Okafor 报告的,3 月报告了两次。我有邮件。

94% on field WAVDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

三个真实选项 · 诚实比较

Rev 人工。Otter 或 Trint。 或是我们。

Rev 将你的音频发送给人工转录员 — 慢且昂贵,但在困难音频上保证高保真度。Otter 和 Trint 同我们一样是 AI 优先,针对记者和研究人员调优。以下是每个的适用场景。

Option 01

Rev 人工转录

真人输入你的采访。在困难音频上最佳,但需要等待且成本高。

转折时间通常 12–24 小时
清晰音频上的准确率99%(声称)
说话人标签手动、包含
语言EN 人工 · 30+ AI
成本 · 每分钟$1.50 人工 · $0.25 AI
隐私音频发送给承包商
Best for在法庭或出版物中使用的采访,音频质量差,需要人工审听且有一天的等待时间。
Option 02

Transcription.Solutions

AI 转录,说话人分离,几分钟内完成。电话备忘录、Zoom 或便携式录音机采用相同引擎。

转折时间每小时音频约 3 分钟
清晰音频上的准确率94–96%
说话人标签自动 · 在编辑器中重命名
语言99 种、自动检测
成本 · 每分钟$0.03
隐私音频在 24 小时后删除 · 无训练
Best for每周进行多个采访的记者、研究人员和制片人,需要快速、可引用的文本,无需上传给承包商。
Option 03

Otter / Trint

AI 转录,配备研究型编辑器。英文强势,仅限月度计划。

转折时间实时到约 5 分钟
清晰音频上的准确率约 90–93%
说话人标签是 · EN 调优
语言Otter 仅 EN · Trint 30+
成本$17–80/用户/月(订阅)
隐私默认存储在账户中
Best for希望托管每次录制采访的库并且不介意每个用户按月支付的团队。

定价和功能标志截至 2026 年准确。Rev 人工转折时间因队列深度和音频长度而异。

采访特定

通用转录工具上会困扰用户的三件事。

采访音频很少是清晰的。翻转这些设置,转录在引用时就能经受考验。

出错的地方

  1. 1单声道频道上的交叉对话。当你的受访者强调并插话打断你的问题时,通用话者分离会将两者合并到一个说话人块中。
  2. 2源名字和地点(Okafor、Tigray、Maranello)返回时是音标。对于转录的事实检查毫无用处。
  3. 3非记录时刻最终出现在与可引用材料相同的转录中 — 无法将区域标记为已编辑。

在这里要翻转的内容

  1. 1如果你的便携式录音机写入两频道 WAV(每个轨道一个麦克风),直接上传该文件。我们检测每通道并完全跳过话者分离。
  2. 2将你的准备笔记 — 源名字、组织、地点名称 — 粘贴到工作表单上的自定义词汇。识别器将其视为已知专有名词。
  3. 3转录到达后,在编辑器中将区域标记为非记录。在 DOCX 和 TXT 中将其导出为 `[REDACTED 14:22–15:08]`,无论如何源音频在 24 小时后删除。

采访的推荐工作设置

上传采访文件,这些默认打开。从表单按工作覆盖。

话者分离
立体声时按频道 · 否则声学
说话人模型
采访 · 2–4 个说话人
语言
自动检测 · 代码转换打开
填充词
保留(逐字模式)
摘要
关键引言 + 主题索引
导出
带时间戳的 DOCX · 纯 TXT · JSON

Accuracy · real-world numbers

好的夹领话筒能达到 96%。 咖啡馆录音仍可读。

采访准确率由麦克风实际听到的内容所限制。每个说话人各一个近距离麦克风的立体声是上限;放在嘈杂桌子上的手机是下限。以下数字来自生产采访文件,而非合成基准。

96%
双夹领式麦克风 · 录音室安静

每个说话人一个麦克风,独立频道(Zoom H5/H6、Tascam DR-40)。话者分离微不足道 — 错误仅在文本上。

94%
便携式录音机放在桌子上

两个说话人之间放一个单声电容麦克风,房间安静。声学话者分离在 4 英尺以内可靠分离声音。

90%
电话语音备忘录 · 近距离

iPhone 或 Pixel 语音备忘录放在桌子上。名字和数字偶尔漏掉;节奏适合引用。

84%
便携式录音 · 咖啡馆或街道

浓缩咖啡机、交通、附近的第三个声音。我们数据中最坏的情况 — 可用于导航,根据音频验证引言。

常见问题

人们对采访转录提出的 8 个问题。

01我可以在已发表的文章中使用这些转录而不验证音频吗?+
对于直接引用 — 否,始终根据音频验证。94% 准确率的 AI 转录平均每 17 个字中仍会误读一个字,引用中的错字是更正。转录用于导航和草稿;音频是事实的来源。
02我的录音机保存了一个立体声 WAV,每个说话人一个麦克风。我应该怎么做?+
直接上传该文件 — 不要先转换为单声道。我们检测两个频道并将每个路由到其自己的话者分离轨道,这是我们拥有的最高准确率路径。在安静的房间中预期 96%+。
03通过���话通话录制的采访呢?+
电话音频是 8 kHz 窄带,即使在清晰的线路上也将准确率限制在约 88%。如果你的录音机应用分别捕获了两方(大多数这样做),我们仍然使用频道分离来分离这两方。WhatsApp 或 Signal 上的 VoIP 通话听起来比 PSTN 好一点。
04我可以在分享转录之前编辑非记录部分吗?+
可以。在编辑器中,选择时间戳范围并将其标记为 `[REDACTED]`。导出用编辑标记替换文本,但保留时间戳,以便文档仍然跟踪音频。
05你们在我的采访录音上训练模型吗?+
否。源音频在完成后 24 小时内从我们的基础设施中删除,在任何计划下我们都不使用客户录音进行模型训练。转录文本在你删除它之前保留在你的账户中。
06小组采访时有三个或四个人 — 话者分离仍然有效吗?+
最多约六个不同的声音,是的,但每增加一个人,说话人分配的准确率就会下降,当两个说话人声音相似时情况会更糟。转录到达后,计划进行 2–3 分钟的说话人筹码重命名。
07你们可以转录英文以外的语言采访吗?+
99 种语言,自动检测。代码转换(英文源在句子中途滑入西班牙语)在 12 个语言对中处理。准确率因语言而异 — 欧洲语言与英文匹配;低资源非洲和中亚语言运行低 5–10 分。
08我在 Zoom 通话上录制 — 我应该使用你的 Zoom 页面吗?+
相同引擎,相同结果。Zoom 页面涵盖云录制细节(每个参与者音频、拨入降级)。如果你通过 Zoom 一次进行一个采访,任何路径都有效 — 在这里放下 MP4,说话人标签出来相同。

上传你的采访录音。 看看输出结果。

每月 30 分钟免费。无需卡。说话人标签、99 种语言、所有导出包含。

免费开始