播客转录。一次生成笔记和 SRT。

放入你的播客节目母版——MP3、WAV 或 YouTube 链接。获得带说话人标签的转录稿、包含关键点和标���的 AI 笔记,以及视频剪辑的 SRT 文件。

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ 一个文件输入,四个产物输出

节目母版进来。转录、 笔记、SRT、标签出来。

大多数播客以混音后的立体声 MP3 格式出现,主持人和嘉宾已混合在一起。我们在声学层面分离他们,检测音乐开头,并从第一句话开始转录。

第 142 集母版REC 2 位说话人 · 48:21 · MP3 192 kbps
自动检测 en-US44.1 kHz 立体声 · 混音后
~90s
转录稿 · 实时流95% 准确率
S1

欢迎回到节目。今天我与 Priya Anand 讨论她关于供应链的新书。

S2

感谢邀请,Jordan。自上次交谈以来已经三年了,期间变化很大。

S1

那么这本书以苏伊士阻塞���件开篇——为什么从这里开始?

S2

因为那是非物流从业者突然关心集装箱的时刻。

立体声混音后的 95% 准确率SRT · DOCX · TXT · 笔记 MD

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

三个真实选择 · 诚实对比

Descript。Castmagic。 还是我们。

Descript 是编辑器优先,转录其次。Castmagic 是笔记优先,转录其次。我们专注于文件 → 转录 → 笔记的流程,不涉及编辑工作。

Option 01

Descript

内置转录功能的音频编辑器。非常适合文本编辑工作流,但如果你只想要转录稿的话功能过剩。

主要用途DAW + 文本编辑
说话人分离声学方式,英文强
笔记Underlord AI 附加组件
导出SRT · TXT · 项目文件
免费额度每月 1 小时转录
价格$24/用户/月(Creator)
Best for独立播客制作者,他们通过删除转录稿中的单词来编辑节目,并希望用一个应用完成一切。
Option 02

Transcription.Solutions

放入节目母版。一次生成转录、笔记、标签和 SRT——四个产物一次完成。无编辑器,无锁定。

主要用途转录 + 笔记
说话人分离声学方式 + 单轨上传
笔记所有计划均免费
导出SRT · VTT · DOCX · MD · JSON
免费额度每月 30 分钟,无需卡
价格 · 每分钟$0.03
Best for已有编辑器(Logic、Hindenburg、Reaper)的节目,只需要节目混音后的干净文本和笔记。
Option 03

Castmagic

笔记即服务。拖入文件,获得精美的内容包。转录稿只是附带产物。

主要用途内容再利用
说话人分离是的,英文优化
笔记多种模板,仅付费
导出SRT · TXT · 模板 MD
免费额度仅试用
价格~$23+/月(Starter)
Best for营销为主的节目,需要每集 12 条社交媒体帖子、4 份通讯草稿和一个 LinkedIn 轮播。

截至 2026 年的价格约数,各供应商可能有所变化。免费额度和附加 AI 功能频繁轮换。

播客特定功能

播客编辑者在通用转录工具上遇到的三个问题。

上传时告诉我们一些关于节目的信息,输出就不再需要清理了。

哪里容易出错

  1. 1音乐开头转录为乱码。识别器试图读取歌词或哼唱模式,在前 30 秒插入'啦啦啦'之类的无意义内容。
  2. 2嘉宾名字拼写错误。'Priya Anand' 变成 'Pria Anan' 或类似的,而且每次出现都是错的。
  3. 3笑声和插话被渲染为填充词或分配给错误的说话人,特别是在充满活力的对话中。

这里怎么调整

  1. 1在任务表单上开启跳过音乐开头/结尾。我们检测非言语段落,从第一句话开始转录——时间戳偏移自动调整。
  2. 2将嘉宾名字和品牌提及粘贴到自定义词汇中。我们将其作为识别器提示,确保拼写在整个节目中保持一致。
  3. 3开启笔记功能获得 2-4 句摘要、3-7 个关键点、行动项和 3-8 个主题标签,以 markdown 格式呈现——直接粘贴到你的 CMS。

播客的推荐任务设置

放入节目后这些默认值会打开。可按任务从表单中覆盖。

说话人分离
2 位说话人时使用立体声分离
音乐检测
跳过开头/结尾段落
填充词
默认移除
笔记
摘要 + 关键点 + 标签
章节
从关键点生成
导出
SRT · DOCX · 笔记 MD

Accuracy · real-world numbers

97% 在录音棚麦克风节目中。 在远程嘉宾通话中也能保持。

播客准确率主要取决于嘉宾的录制方式,而非主持人。一个录音棚主持人配合仅限 Zoom 的嘉宾时表现就像最差的那一方。下面的数字来自真实客户节目,不是实验室音频。

97%
单轨上传(Riverside / SquadCast)

每位说话人一个独立 WAV 文件。我们独立转录每个轨道,跳过说话人分离。最干净的情况。

95%
立体声混音,2 位说话人

主持人左声道,嘉宾右声道,混音后。这是最常见的播客格式。说话人分离基本上是立体声分离的副产物。

91%
单声道混音,3-4 位说话人

圆桌节目或小组讨论格式混为单声道。相似的声音可能会每小时合并一两次——2 分钟的清理就能解决。

86%
远程通话 / 麦克风不佳

嘉宾通过酒店 WiFi 上的 AirPods ��话。数字和专有名词受影响最大。自定义词汇可以恢复大部分。

常见问题

人们对播客转录提出的 8 个常见问题。

01我能直接粘贴 YouTube 或 SoundCloud 链接吗?+
可以。粘贴公开的 YouTube URL 或托管节目链接(SoundCloud、Buzzsprout、Transistor、Libsyn 直链 MP3),我们会在我们这边拉取音频。对于私密源,下载文件后上传。
02音乐开头会被转录为'啦啦啦'乱码吗?+
如果开启了跳过音乐开头/结尾就不会(默认开启)。我们检测非言语音频并从第一句话开始转录。SRT 中的时间戳会自动调整,所以 YouTube 字幕仍然同步。
03笔记文件里到底有什么?+
2-4 句节目摘要、3-7 个关键点列表、提及的行动项,以及 3-8 个主题标签。以 markdown 格式呈现,可以直接粘贴到 WordPress、Ghost、Substack 或你的播客平台的节目页面。
04你能为 Apple Podcasts 和 Spotify 生成章节标记吗?+
能。章节从关键点生成并带有时间戳。导出为单独的 chapters.txt 或嵌入 WAV/M4A。注意 Spotify 仅在 Anchor 托管的节目上识别章节,所以 txt 文件是备用方案。
05我从 Riverside / SquadCast 有单轨文件——应该上传这些吗?+
请上传。分别上传每位说话人的 WAV 并用名字标记。我们独立转录每个轨道并按时间戳合并。这种设置的准确率约 97% ——我们看到的最干净的情况。
06它能标记赞助商播读或广告段落吗?+
暂时还不能——这在规划中。现在你可以在编辑中放一个标记(短暂的静音或铃声),我们会把它作为转录稿中的时间戳显示。你也可以在之后通过粘贴查找赞助商品牌名称来标记广告段落。
07节目可以多长?+
一次上传最多 6 小时。大多数节目 30-90 分钟,从上传到四个产物完成需要 4-8 分钟。对于 3 小时的访谈节目,预期大约需要 12-15 分钟。
08SRT 能干净地替换 YouTube 的自动字幕吗?+
可以。SRT 在约 42 字处换行,带有正确的标点��可选的说话人前缀。在 YouTube Studio 中上传 → 字幕 → 添加语言 → SRT。它会完全覆盖自动生成的字幕轨道。

上传节目。获取转录稿、 笔记和 SRT。

每月免费 30 分钟。无需卡。包括说话人标签、笔记、章节以及所有导出选项。

免费开始