MP3 转文字 — 将 MP3 音频转换为文字或转录，快速完成

将 MP3 转录为文字。说话人标签，100+ 种语言。

上传任意比特率（64 到 320 kbps）的 MP3 文件。获得 99 种语言的带时间戳、带说话人标签的文字稿 — 无需格式转换、无需重新编码、无需排队等待。

Drop your audio or video

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

直接在浏览器里录音

注册只要 30 秒——之后直接在控制台里开始录音。

No card required~90s per 60-min fileSRT · VTT · DOCX · TXT文件 24 小时后自动删除

MP3 进，分说者文字稿出。

我们直接读取 MP3 帧头 — 支持 VBR、CBR、联合立体声、任何编码器（LAME、Fraunhofer、FFmpeg）。如果文件是真立体声且说话人在不同声道，我们用此分离语音。单声道混音则回退到声学分说者识别。

interview-tape-04.mp3REC 192 kbps · 立体声 · 38:42

自动检测 en-GB44.1 kHz · LAME 3.100

~90s

文字稿 · 流式传输95% 准确率

那你什么时候意识到档案不完整的？

大概在 2019 年，当我们开始数字化这些盘带的时候。

那些丢失的磁带呢 — 有地方编目过吗？

有一份 78 年的纸质索引，但有一半被水浸了。

192 kbps 立体声准确率 95%SRT · DOCX · TXT · JSON · VTT

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2导出

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

待办事项

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Option 01

Whisper 本地 / 开源

如果你有 GPU 和一个下午，免费。开箱没有说话人分离。

设置Python + CUDA + 10 GB 模型

说话人分离不包含（pyannote 插件）

速度 · 1 小时 MP3消费级 GPU 上 5–40 分钟

语言99 种，但小模型低于 80%

导出TXT / SRT / VTT / JSON

成本免费 + 你的电费

Best for已经拥有 GPU、不需要说话人标签、需要完整本地隐私的工程师。

Option 02

Transcription.Solutions

上传 MP3。获得带说话人标签的文字稿，几乎实时返回 × 0.025。

设置拖放即可，无需账户即可试用

说话人分离内置（专业版和企业版计划）

速度 · 1 小时 MP3约 90 秒

语言99 种，自动检测

导出SRT · VTT · DOCX · TXT · JSON

成本 · 每分钟$0.03

Best for任何有 MP3 的人 — 记者磁带、播客导出、语音备忘录、归档副本 — 只想快速获得准确的文字。

Option 03

Otter / Sonix

精美的仪表板，月度分钟限制，英文优化。文件上传感觉像个副功能。

设置账户 + 付费计划

说话人分离声学，偏向英文

速度 · 1 小时 MP3队列中 5–10 分钟

语言Otter 仅英文；Sonix 约 40 种

导出被锁定在付费层后

成本$17+/月或 $10+/小时（Sonix）

Best for想要转录编辑和协作界面的团队，而不是干净的 API 风格的文件→文字流程。

定价和功能可用性截至 2026 年 5 月准确。Whisper 性能因模型大小和硬件而异。

8 个常见问题。关于 MP3 转录的

01MP3 的最小比特率是多少仍能给出可用的文字稿？+

64 kbps 是实用下限。以下那会，嘶音（s、sh、f）会压缩成噪音，词错率会攀升超过 20%。如果你在录制新内容，目标 128 kbps 单声道或 192 kbps 立体声 — 高于此对语音来说是浪费的。

02我需要先将 MP3 转换为 WAV 吗？+

不需要。重新编码 MP3 → WAV 不会增加任何准确度，因为编码器丢弃的数据永久丧失了。直接上传 MP3。我们在内存中解码帧并将 PCM 馈送给识别器。

03立体声 MP3 相比单声道会给我更好的说话人标签吗？+

仅当说话人实际上在不同声道录音时 — 大多数立体声 MP3 两边音频相同（'双单声道'），受益无。真正的声道分离（如 Riverside 导出、双麦田野录音）让我们跳过声学分说者，几乎完美标签说话人。

04你接受的最大 MP3 文件大小是多少？+

每次上传 5 GB，大约 192 kbps 下 60 小时或 128 kbps 下 90 小时。如果文件更大，我们会显示分块上传 — 无需你自己拆分。

0560 分钟的 MP3 需要多长时间才能转录？+

通常从上传完成到文字稿就绪 90 秒，与比特率无关。解码 MP3 帧很快；时间在识别器。分说者在多说话人文件上增加 5-10 秒。

06我的 MP3 有背景音乐 — 文字稿会被毁掉吗？+

语音下的安静音乐床不碍事。与语音竞争的大声音乐（开头音效、配乐配音在采访中）有时会在重叠音节上触发误识。在任务表单上切换音乐抑制以预过滤。

07你能处理从手机语音邮件或应答机拉出的 MP3 吗？+

可以，虽然这些通常是从 8 kHz 窄带重新编码成 MP3 — 音频质量天花板由原始 PSTN 捕获设置，而不是 MP3 包装。期待那种来源上 78-85% 的准确率，这和我们在底层通话上的准确率一样。

08文字稿完成后你们会保留我的 MP3 吗？+

文件默认在 30 天后删除，或通过仪表板请求后立即删除。文字稿保留在你的账户中直到你删除。我们不用客户音频训练任何模型 — 永远不会。

将 MP3 转录为文字。说话人标签，100+ 种语言。

Drop your audio or video

Paste a link, we’ll fetch the audio

直接在浏览器里录音

MP3 进，分说者文字稿出。

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

免费本地 Whisper。Otter 或 Sonix。或者选我们。

Whisper 本地 / 开源

Transcription.Solutions

Otter / Sonix

三个陷阱。通用转录工具上常见的

哪里出错

我们改用什么

MP3 上传的推荐任务设置

192 kbps 立体声 95%+ 准确率。 64 kbps 单声道仍可用。

8 个常见问题。关于 MP3 转录的

上传你的 MP3。 90 秒内获得文字。

将 MP3 转录为文字。说话人标签，100+ 种语言。

Drop your audio or video

Paste a link, we’ll fetch the audio

直接在浏览器里录音

MP3 进， 分说者文字稿出。

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

免费本地 Whisper。Otter 或 Sonix。 或者选我们。

Whisper 本地 / 开源

Transcription.Solutions

Otter / Sonix

三个陷阱。 通用转录工具上常见的

哪里出错

我们改用什么

MP3 上传的推荐任务设置

192 kbps 立体声 95%+ 准确率。 64 kbps 单声道仍可用。

8 个常见问题。 关于 MP3 转录的

上传你的 MP3。 90 秒内获得文字。

MP3 进，分说者文字稿出。

免费本地 Whisper。Otter 或 Sonix。或者选我们。

三个陷阱。通用转录工具上常见的

8 个常见问题。关于 MP3 转录的