MP3 轉文字 — 將 MP3 轉換為文字或轉錄 MP3 音頻，快速

將 MP3 轉錄為文字。講者標籤、100+ 種語言。

以 64 到 320 kbps 的任何比率上傳 MP3 檔案。以 99 種語言取得時間戳記、標註講者的記錄——無需格式轉換、無需重新編碼、無需等待隊列。

把音訊或影片丟進來

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

直接在瀏覽器裡錄音

註冊只要 30 秒——進到後台立刻就能開始錄。

No card required~90s per 60-min fileSRT · VTT · DOCX · TXT檔案 24 小時後自動刪除

MP3 輸入。標註講者的記錄輸出。

我們直接讀取 MP3 幀頭——VBR、CBR、聯合立體聲、任何編碼器（LAME、Fraunhofer、FFmpeg）。如果檔案是真立體聲且講者在不同頻道，我們使用它來分割聲音。單聲道混合回退到聲學講者分化。

interview-tape-04.mp3REC 192 kbps · 立體聲 · 38:42

自動偵測 en-GB44.1 kHz · LAME 3.100

~90s

記錄 · 串流95% 準確度

所以你什麼時候才意識到檔案庫不完整？

大約 2019 年，當我們開始將卷帶數位化時。

那些遺失的卷帶——它們在任何地方都被編目過嗎？

有一份來自 78 年的紙質索引，但一半被水毀。

192 kbps 立體聲 95%SRT · DOCX · TXT · JSON · VTT

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

摘要 5逐字稿 1,420講者 2匯出

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

重點摘要

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

待辦事項

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Option 01

Whisper 本地/開源

如果你有 GPU 和一個下午就免費。沒有開箱即用的講者分化。

設置Python + CUDA + 10 GB 模型

講者分化未包含（pyannote 附加元件）

速度 · 1 小時 MP3消費級 GPU 上 5–40 分鐘

語言99，但小模型降至 80% 以下

匯出TXT / SRT / VTT / JSON

成本免費 + 你的電費

Best for已經擁有 GPU、不需要講者標籤並想要完全本地隱私的工程師。

Option 02

Transcription.Solutions

上傳 MP3。以約 0.025 倍即時速度取回標註講者的文字。

設置拖放，無需帳號試用

講者分化內建（Pro 和 Business 方案）

速度 · 1 小時 MP3~90 秒

語言99，自動偵測

匯出SRT · VTT · DOCX · TXT · JSON

成本 · 每分鐘$0.03

Best for任何擁有 MP3 的人——記者錄音帶、播客匯出、語音備忘錄、存檔副本——只想從另一端獲得準確文字。

Option 03

Otter / Sonix

設計精良的儀表板、每月分鐘上限、英文調整。檔案上傳感覺像是附加功能。

設置帳號 + 付費方案

講者分化聲學��傾向英文

速度 · 1 小時 MP3佇列中 5–10 分鐘

語言Otter 僅限英文；Sonix ~40

匯出被付費層鎖定

成本$17+/月或 $10+/小時（Sonix）

Best for想要記錄編輯器和協作 UI 而不是簡潔的 API 風格檔案→文字流的團隊。

定價和功能可用性以 2026 年 5 月為準。Whisper 性能因模型大小和硬體而異。

人們常問的 8 件事，關於 MP3 轉錄。

01最低的 MP3 比率是多少仍然能提供可用的記錄？+

64 kbps 是實際的底線。低於此值，嘶音（s、sh、f）壓縮為雜音，字錯誤率上升至 20% 以上。如果你正在新錄制，目標針對 128 kbps 單聲道或 192 kbps 立體聲——任何更高的都是對語音過度。

02我需要先將我的 MP3 轉換為 WAV 嗎？+

不需要。重新編碼 MP3 → WAV 不增加準確度，因為編碼器丟棄的資料永遠消失了。直接上傳 MP3。我們在記憶體中解碼幀並將 PCM 提供給識別器。

03立體聲 MP3 會給我比單聲道更好的講者標籤嗎？+

只有在講者實際上在不同頻道錄制的情況下——大多數立體聲 MP3 在兩側都有相同的音頻（「雙單聲道」）並未獲得任何收益。真正的頻道分割（例如 Riverside 匯出、雙麥田野設備）讓我們跳過聲學講者分化並近乎完��地標籤講者。

04你接受的最大 MP3 檔案大小是多少？+

每次上傳 5 GB，大約是 192 kbps 的 60 小時或 128 kbps 的 90 小時。如果你的檔案更大，我們會顯示分塊上傳——無需自己分割。

0560 分鐘的 MP3 轉錄需要多長時間？+

通常從上傳完成到記錄就緒需要 90 秒，無論比率如何。解碼 MP3 幀很快；時間在識別器中。講者分化在多講者檔案上增加 5-10 秒。

06我的 MP3 有背景音樂——記錄會被毀掉嗎？+

語音下的安靜背景音樂沒問題。與語音競爭的大聲音樂（介紹音樂、訪談下的評分）有時會在重疊的音節上觸發誤識別。在工作表單上切換音樂抑制進行預過濾。

07你能處理從電話語音信箱或自動應答機擷取的 MP3 嗎？+

可以，儘管這些通常是 8 kHz 窄帶重新編碼為 MP3——音頻質量上限由原始 PSTN 捕獲設置，而不是 MP3 包裝器。預期該類型源頭上的準確度為 78-85%，這與我們在基礎呼叫上獲得的相同。

08轉錄完成後你會保留我的 MP3 嗎？+

檔案預設在 30 天後刪除，或通過儀表板按請求立即刪除。記錄在你刪除前保留在你的帳戶中。我們永遠不使用客戶音頻來訓練任何模型。

將 MP3 轉錄為文字。講者標籤、100+ 種語言。

把音訊或影片丟進來

Paste a link, we’ll fetch the audio

直接在瀏覽器裡錄音

MP3 輸入。標註講者的記錄輸出。

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

免費本地 Whisper。Otter 或 Sonix。或我們。

Whisper 本地/開源

Transcription.Solutions

Otter / Sonix

三件在通用轉錄工具上會咬人的事。

什麼會出錯

我們改為做什麼

MP3 上傳推薦的工作設置

192 kbps 立體聲 95%+。可用至 64 kbps 單聲道。

人們常問的 8 件事，關於 MP3 轉錄。

上傳你的 MP3。在 90 秒內取回文字。

將 MP3 轉錄為文字。講者標籤、100+ 種語言。

把音訊或影片丟進來

Paste a link, we’ll fetch the audio

直接在瀏覽器裡錄音

MP3 輸入。 標註講者的記錄輸出。

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

免費本地 Whisper。Otter 或 Sonix。 或我們。

Whisper 本地/開源

Transcription.Solutions

Otter / Sonix

三件在通用轉錄工具上會咬人的事。

什麼會出錯

我們改為做什麼

MP3 上傳推薦的工作設置

192 kbps 立體聲 95%+。 可用至 64 kbps 單聲道。

人們常問的 8 件事， 關於 MP3 轉錄。

上傳你的 MP3。 在 90 秒內取回文字。

MP3 輸入。標註講者的記錄輸出。

免費本地 Whisper。Otter 或 Sonix。或我們。

192 kbps 立體聲 95%+。可用至 64 kbps 單聲道。

人們常問的 8 件事，關於 MP3 轉錄。

上傳你的 MP3。在 90 秒內取回文字。