訪談轉錄。不同的錄音,同樣的結果。

手機備忘錄、Zoom 通話、領夾式麥克風或手持現場錄音機 — 上傳訪談錄音,獲得帶有說話人標籤、時間戳的文本,可直接引用。

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ 看看會得到什麼

兩個聲音進去。 兩個聲音出來,有標籤。

大多數訪談是一個設備上的兩個人 — 桌上的手機或兩人之間的錄音機。我們即使在單一單聲道中也能將訪談音頻分離為記者和受訪者,然後為每個回合添加時間戳以便引用。

現場錄音機 · WAVREC 2 位說話人 · 38:42
自動檢測 en-US48 kHz 單聲道 · 1411 kbps
~90s
轉錄 · 實時傳輸94% 準確度
S1

能告訴我你在 18 號早上看到的情況嗎?

S2

我大約六點到達。裝卸灣的門已經打開了,本不應該打開的。

S1

你之前報告過門的問題 — 向誰報告的?

S2

向設施部門的 Diane Okafor 報告,三月報告了兩次。我有郵件記錄。

現場 WAV 上 94% 準確DOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

三個真實選項 · 誠實比較

Rev 人工轉錄。Otter 或 Trint。 或是我們。

Rev 將你的音頻發送給人工轉錄員 — 速度慢且費用高,但在困難音頻上保真度高。Otter 和 Trint 如我們一樣是 AI 優先的,針對記者和研究人員調整。以下是各自適用的場景。

Option 01

Rev 人工轉錄

真人輸入你的訪談。在困難音頻上效果最好,但需要等待且費用高。

完成時間通常 12–24 小時
清晰音頻上的準確度99%(聲稱)
說話人標籤手動,已包含
語言英文人工 · 30+ AI
成本 · 每分鐘$1.50 人工 · $0.25 AI
隱私音頻發送給承包商
Best for法庭相關或發布前的訪談,音頻質量差且需要人工審核,且你有時間等待。
Option 02

Transcription.Solutions

AI 轉錄,分離說話人,數分鐘內完成。手機備忘錄、Zoom 或現場錄音機使用同一引擎。

完成時間每小時音頻約 3 分鐘
清晰音頻上的準確度94–96%
說話人標籤自動 · 在編輯器中重命名
語言99 種,自動檢測
成本 · 每分鐘$0.03
隱私音頻 24 小時後刪除 · 無訓練
Best for每週進行多個訪談的記者、研究人員和製作人,他們需要快速、可引用的文本,無需上傳到承包商。
Option 03

Otter / Trint

AI 轉錄和研究導向的編輯器。英文強勢,限於月度計畫。

完成時間實時至約 5 分鐘
清晰音頻上的準確度約 90–93%
說話人標籤是 · 英文調優
語言Otter 僅英文 · Trint 30+
成本$17–80/用户/月(訂閱)
隱私默認存儲在帳戶中
Best for想要一個錄製的每個訪談的託管庫的團隊,且不介意每個用户的月度座位費。

定價和功能標誌截至 2026 年準確。Rev 人工服務完成時間因隊列深度和音頻長度而異。

特定於訪談

會害人的三件事。 通用轉錄工具

訪談音頻很少是乾淨的。翻轉這些設置,轉錄在引用時會經得起考驗。

出錯的地方

  1. 1單聲道上的交叉講話。當你的受訪者變得強調並打斷你的問題時,通用說話人分離會將兩者合併成一個說話人區塊。
  2. 2受訪者名字和地點(Okafor、Tigray、Maranello)返回的是音標。對於針對轉錄的事實核查沒有用。
  3. 3保密時刻最終與可引用的材料在同一個轉錄中 — 無法將區域標記為編輯。

在這裡翻轉什麼

  1. 1如果你的現場錄音機寫的是雙聲道 WAV(每個麥克風一個軌道),直接上傳該文件。我們檢測按聲道並完全跳過說話人分離。
  2. 2將你的準備筆記 — 受訪者名字、組織、地名 — 粘貼到工作表單上的自訂詞彙中。識別器將它們視為已知的專有名詞。
  3. 3轉錄完成後,在編輯器中將區域標記為保密。它在 DOCX 和 TXT 中導出為 `[REDACTED 14:22–15:08]`,源音頻無論如何在 24 小時後刪除。

推薦的訪談工作設置

上傳訪談文件後,這些默認開啟。每個工作表單可覆蓋。

說話人分離
立體聲按聲道 · 否則聲學分離
說話人模型
訪談 · 2–4 位說話人
語言
自動檢測 · 代碼轉換開啟
填充詞
保留(逐字模式)
摘要
關鍵語句 + 主題索引
導出
帶時間戳的 DOCX · 純文本 TXT · JSON

Accuracy · real-world numbers

優質無線電視麥克風 96%。 在咖啡館錄音仍可讀。

訪談準確度受限於麥克風實際聽到的內容。每位說話人的近麥克風立體聲是上限;放在吵雜桌子上的手機是下限。下面的數字來自實際訪談文件,不是合成基準測試。

96%
雙領夾麥克風 · 錄音室靜音

每位說話人一個麥克風,分開的聲道(Zoom H5/H6、Tascam DR-40)。說話人分離是微不足道的 — 錯誤僅在文本層面。

94%
手工錄音機置於桌上

兩位說話人之間的單個電容麥克風,安靜的房間。聲學說話人分離在 4 英尺以內可靠地分離聲音。

90%
手機語音備忘錄 · 靠近

iPhone 或 Pixel 語音備忘錄放在桌上。名稱和數字偶爾會漏掉;節奏對引用來說是可以的。

84%
現場錄音 · 咖啡館或街道

濃縮咖啡機、交通、附近第三方聲音。我們數據中最差的情況 — 可用於導航,針對音頻驗證引用。

常見問題

人們對常問的 8 個問題。 訪談轉錄

01我可以在發布的文章中使用這些轉錄,無需針對音頻驗證嗎?+
對於直接引用 — 不可以,始終針對音頻驗證。94% 準確度的 AI 轉錄平均仍會誤讀 17 個詞中的 1 個,引用中的錯誤詞是一個更正。轉錄用於導航和起草;音頻是事實來源。
02我的錄音機保存了帶有每位說話人一個麥克風的立體聲 WAV。我應該怎麼辦?+
直接上傳該文件 — 不要先轉換為單聲道。我們檢測這兩個聲道並將每個路由到自己的說話人分離軌道,這是我們擁有��最高精度路徑。靜音房間中預期 96%+ 的準確度。
03通過電話通話錄製的訪談怎麼樣?+
電話音頻是 8 kHz 窄帶,這會將準確度限制在即使在清晰線路上也約 88%。如果你的錄音應用分別捕獲了他們(大多數都這樣做),我們仍然使用聲道分離來分離兩方。VoIP 通話通過 WhatsApp 或 Signal 的聲音比 PSTN 要好一點。
04我可以在共享轉錄之前編輯保密部分嗎?+
是的。在編輯器中,選擇時間戳範圍並將其標記為 `[REDACTED]`。導出用編輯標記替換文本,但保留時間戳,以便文件仍然跟蹤音頻。
05你會在我的訪談錄音上訓練模型嗎?+
不會。源音頻在完成後 24 小時內從我們的基礎設施中刪除,我們不在任何計畫下使用客户錄音進行模型訓練。轉錄文本保留在你的帳戶中,直到你刪除它。
06三四個人參加小組訪談 — 說話人分離還能工作嗎?+
最多約 6 個不同的聲音,是的,但每增加一個人,說話人分配的準確度都會下降,當兩位說話人聲音相��時會變得更差。計畫在轉錄完成後進行 2–3 分鐘的說話人芯片重命名。
07你可以用英語以外的語言轉錄訪談嗎?+
99 種語言,自動檢測。代碼轉換(英文受訪者中途切換到西班牙文)在 12 個語言對中處理。準確度因語言而異 — 歐洲語言與英文相匹配;低資源非洲和中亞語言準確度低 5–10 分。
08我在 Zoom 通話上錄製 — 我應該改用你的 Zoom 頁面嗎?+
相同的引擎,相同的結果。Zoom 頁面涵蓋了雲錄製細節(每個參與者的音頻、撥入降級)。如果你通過 Zoom 進行一對一訪談,任一路徑都可行 — 在這裡上傳 MP4,說話人標籤的結果是相同的。

上傳你的訪談錄音。 看看會得到什麼。

每個月免費 30 分鐘。無需卡。說話人標籤、99 種語言、所有導出均已包含。

免費開始