WAV转文本 — 使用说话人标签转录WAV文件，无损品质

用说话人标签转录WAV文件。无损品质。

直接从你的野外录音机、DAW输出或采访包中放入WAV录音。我们保持24位的余量完整，在原始PCM上运行说话人分离，并在几分钟内返回带时间戳的转录文本和SRT。

Drop your audio or video

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

直接在浏览器里录音

注册只要 30 秒——之后直接在控制台里开始录音。

No card required~90s per 60-min fileSRT · VTT · DOCX · TXT文件 24 小时后自动删除

原始PCM输入。清晰转录输出。

无损WAV意味着每个s音、爆破音和安静的词语都保持完整 — 没有MP3对辅音的模糊。如果文件是多轨的（每个频道一个说话人），我们完全跳过声学说话人分离，按频道布局拆分。

WAV · 48 kHz / 24-bitREC 2 tracks · 1h 12m · 743 MB

auto-detected en-GBstereo PCM · uncompressed

~90s

转录 · 流式输出97%准确度

请回到七八年的那个早晨 — 电话是什么时候打来的？

大约四点四十五。我还记得壶在烧。

从那里你直接开到港口了？

直接去船厂。我进去时灯还亮着。

多轨WAV上的97%准确度SRT · DOCX · TXT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2导出

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

待办事项

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Option 01

Adobe Audition / Premiere

Adobe时间线内的转录面板。与Creative Cloud和项目文件相关联。

RequiresCreative Cloud subscription

Speaker diarization支持，仅混缩版本

Multi-track WAVSTT前被平坦化

ExportSRT · CSV · XML

Languages18，手动选择

Cost~$23/mo（单个应用）

Best for已在Premiere或Audition中剪辑且想将字幕缝合到时间线的编辑。

Option 02

Transcription.Solutions

放入WAV。如果是多轨则按频道进行说话人分离。源文件在24小时内删除。

Requires无 — 仅需要文件

Speaker diarization按轨道或声学

Multi-track WAV最多16个频道

ExportSRT · VTT · DOCX · TXT · JSON

Languages99，自动检测

Cost · per min$0.03

Best for持有原始WAV的任何人 — 野外录音师、从DAW输出的播客制作人、口头历史存档师、研究人员。

Option 03

Descript

将你的WAV导入Descript编辑器。功能强大，但必须在其中工作。

RequiresDescript账户 + 导入

Speaker diarization声学，针对英语调优

Multi-track WAV作为单独剪辑导入

ExportTXT · SRT · DOCX

Languages23，准确度有所不同

Cost$16–24/user/mo

Best for想通过编辑转录来编辑音频的播客编辑 — 这是Descript的实际超级能力。

Pricing accurate as of 2026. Adobe and Descript feature flags change frequently; check current docs before committing.

的8个常见问题关于WAV转录

01WAV文件的最大大小是多少?+

标准计划每个文件5 GB，大约8小时的立体声48 kHz / 24位，或2.5小时的96 kHz / 24位。较大的文件在团队计划中没问题 — 只需在上传前与我们联系。

02你们支持Zoom F系列或MixPre的32位浮点WAV吗?+

支持，原生支持。我们读取浮点样本而不在0 dBFS处裁剪，因此你计划在后期拉低的大音量瞬变仍能被清晰转录。大多数通用上传工具会先默认向下转换为16位。

03我有一个来自野外录音机的4频道WAV — 每个人一个麦克风。说话人分离会使用这个吗?+

会的。直接上传多声部WAV（首先不要反弹到立体声）。我们从WAV头解析频道布局，并为每个轨道分配一个说话人 — 比相似声音的声学说话人分离更可靠。

04你们会对我的96 kHz WAV进行下采样吗?+

识别器在内部以16 kHz运行 — 这是人类语音清晰度的上限。但我们保持你的原始文件不变，并将其用于任何后处理，如噪声门控。你的导出参考原始时间线。

05WAV真的比MP3在转录中更准确吗?+

边��上是的 — 在干净的语音上通常是1-2个WER点。更大的差距出现在s音和安静的段落上，MP3的心理声学压缩会丢弃识别器会使用的信息。对于存档或法医工作，WAV是正确的选择。

06BWF元数据和时间码是否被保留?+

我们读取BWF块（bext、iXML），并使用开始时间码将转录与你的会话时间线对齐。原始WAV永远不会被修改 — 我们处理一个在24小时内删除的副本。

07我能从DAW会话导出放入一个WAV文件文件夹吗?+

可以。批量上传一次接受最多50个文件。每个WAV获得自己的任务和转录。如果它们是来自一个会话的音轨，你也可以在上传前将它们合并为单个多轨WAV，我们会按频道进行说话人分离。

081小时立体声WAV实际需要多长时间?+

上传是最慢的部分 — 1小时48 kHz / 24位立体声WAV约600 MB，在典型宽带上需要2-5分钟。上传后，转录本身在标准队列上大约需要4-6分钟。

用说话人标签转录WAV文件。无损品质。

Drop your audio or video

Paste a link, we’ll fetch the audio

直接在浏览器里录音

原始PCM输入。清晰转录输出。

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Adobe Audition。Descript。或我们。

Adobe Audition / Premiere

Transcription.Solutions

Descript

在通用转录工具上坑人的三件事。

什么会出错

这里要改什么

WAV的推荐任务设置

多轨WAV上97%+。WAV 为识别器提供最纯净的信号。

的8个常见问题关于WAV转录

放入你的WAV。保持无损品质。看看输出的是什么。

用说话人标签转录WAV文件。无损品质。

Drop your audio or video

Paste a link, we’ll fetch the audio

直接在浏览器里录音

原始PCM输入。 清晰转录输出。

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Adobe Audition。Descript。 或我们。

Adobe Audition / Premiere

Transcription.Solutions

Descript

在通用转录工具上坑人的三件事。

什么会出错

这里要改什么

WAV的推荐任务设置

多轨WAV上97%+。WAV 为识别器提供最纯净的信号。

的8个常见问题 关于WAV转录

放入你的WAV。保持无损品质。 看看输出的是什么。

原始PCM输入。清晰转录输出。

Adobe Audition。Descript。或我们。

的8个常见问题关于WAV转录

放入你的WAV。保持无损品质。看看输出的是什么。