インタビュー文字起こし — スピーカーラベルとタイムスタンプ付きでインタビューを文字起こし

インタビュー文字起こし。どのような録音方法でも、同じ結果。

電話の音声メモ、Zoom 通話、ラベリアンマイク、またはハンドヘルドフィールドレコーダー — インタビュー音声をドロップしたら、スピーカーラベル付きで、タイムスタンプ付きのテキストが得られ、引用できます。

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

2 つの音声が入る。 2 つの音声が出てくる、ラベル付き。

ほとんどのインタビューは 1 つのデバイス上の 2 人 — テーブルの上の電話、あるいはあなたの間に置いた録音機です。単一のモノチャンネルからでも、レポーターと出典をインタビュー音声から分離して、引用のためにすべてのターンにタイムスタンプをつけます。

フィールドレコーダー · WAVREC 2 スピーカー · 38:42

auto-detected en-US48 kHz mono · 1411 kbps

~90s

トランスクリプト · ストリーミング94% 精度

18 日の朝に見たことについて、詳しく教えていただけますか？

6 時頃に着きました。ローディングベイのドアはすでに開いていて、そのはずではありませんでした。

そのドアの問題については以前報告されていたと思いますが、だれに報告されましたか？

施設の Diane Okafor に 3 月に 2 回報告しました。メールがあります。

フィールド WAV で 94%DOCX · TXT · SRT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2Exports

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Action items

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Rev（人力）。Otter または Trint。またはTranscription.Solutions。

Rev は音声を人間の文字起こし者に送ります — 遅く、高い費用ですが、悪い音声で高い忠実度です。Otter と Trint は AI ファースト（私たちと同じ）で、ジャーナリストと研究者向けにチューニングされています。各選択肢がどこに適合するかを以下に示します。

Option 01

Rev 人力文字起こし

実際の人間があなたのインタビューをタイプします。悪い音声に最適ですが、待つ必要があり、費用が高いです。

ターンアラウンド12–24 時間（典型的）

クリーン音声での精度99%（表示）

スピーカーラベル手動、含まれる

言語EN 人力 · 30+ AI

コスト · 分/単位$1.50 人力 · $0.25 AI

プライバシー音声は請負業者に送信

Best for法廷提出または出版に必須のインタビューで、悪い音声で人間の耳が必要で、待つ時間がある場合。

Option 02

Transcription.Solutions

AI トランスクリプト、スピーカー分離、数分で準備完了。電話メモ、Zoom、フィールドレコーダーでも同じエンジンを使用。

ターンアラウンド音声 1 時間あたり ~3 分

クリーン音声での精度94–96%

スピーカーラベル自動 · エディタで名前変更可能

言語99、自動検出

コスト · 分/単位$0.03

プライバシー音声は 24h で削除 · トレーニングなし

Best for1 週間に複数のインタビューを行い、請負業者にアップロードすることなく、高速で引用可能なテキストが必要なジャーナリスト、研究者、プロデューサーに最適。

Option 03

Otter / Trint

研究指向のエディタ付き AI 文字起こし。英語が強く、月間プランに制限されています。

ターンアラウンドリアルタイム～ ~5 分

クリーン音声での精度~90–93%

スピーカーラベルあり · EN チューニング

言語Otter は EN のみ · Trint は 30+

コスト$17–80/user/月（サブスクリプション）

プライバシーデフォルトではアカウントに保存

Best forすべてのインタビューの開催済みライブラリが必要で、ユーザーあたり月額シート料金を気にしないチーム向け。

価格と機能フラグは 2026 年現在で正確です。Rev の人力ターンアラウンドはキュー深度と音声長によって異なります。

良いラベリアンなら 96%。カフェの録音でも読める。

インタビューの精度はマイクが実際に拾った音声で制限されます。各スピーカーの密閉マイクステレオが上限で、テーブルの上に置かれた電話がノイズが多い下限です。以下の数字は合成ベンチマークではなく、本番インタビューファイルから取得しました。

人々が尋ねる 8 つのこと。インタビュー文字起こしについて。

01これらのトランスクリプトをオーディオに対して確認せずに公開記事で使用できますか？+

直接引用の場合は、いいえ。常にオーディオに対して確認してください。94% 精度の AI トランスクリプトでも、平均して 17 のうち 1 単語を誤読し、引用の間違った単語は修正となります。トランスクリプトはナビゲーションとドラフト用で、オーディオが真実の源です。

02レコーダーがスピーカーあたり 1 つのマイクでステレオ WAV を保存しました。何をすればいいですか？+

そのファイルを直接アップロードしてください — 最初にモノに変換しないでください。2 つのチャンネルを検出してそれぞれを独自のダイアライゼーショントラックにルーティングします。これは最高精度のパスです。静かな部屋では 96% 以上を期待してください。

03電話通話で録音されたインタビューについてはどうですか？+

電話音声は 8 kHz ナローバンドで、クリーンな回線でも精度を約 88% に制限します。それでも、レコーダーアプリが個別にキャプチャした場合（ほとんどが行う）、チャネル分離を使用して 2 者を分割します。WhatsApp または Signal を使用した VoIP 通話は PSTN より少し音質が良いです。

04トランスクリプトを共有する前にオフザレコードセクションを編集できますか？+

はい。エディタでタイムスタンプ範囲を選択して `[REDACTED]` とマークしてください。エクスポートはテキストを編集マーカーで置換しますが、タイムスタンプを保持するのでドキュメントはまだオーディオを追跡します。

05インタビュー録音でモデルをトレーニングしていますか？+

いいえ。ソース音声は完了から 24 時間以内にインフラストラクチャから削除され、どのプラン下でも、顧客の録音をモデルトレーニングに使用しません。トランスクリプトテキストは削除するまでアカウントに残ります。

06パネルインタビューで 3 人または 4 人 — ダイアライゼーションはまだ機能しますか？+

約 6 つの異なる音声まで、はい。ただし、追加されたスピーカーごとの精度は低下し、2 つのスピーカーが似た音を立てるとより悪化します。トランスクリプトが到着した後、スピーカーチップの 2–3 分の名前変更パスを計画してください。

07英語以外の言語でインタビューを文字起こしできますか？+

99 の言語、自動検出。コードスイッチング（英語の出典が文の途中でスペイン語にスリップする）は 12 の言語ペアで処理されます。精度は言語によって異なります — ヨーロッパ言語は英語と一致し、低リソースアフリカおよび中央アジア言語は 5–10 ポイント低いです。

08Zoom 通話で録音するのですが、代わりに Zoom ページを使用すべきですか？+

同じエンジン、同じ結果。Zoom ページはクラウド録画の詳細（参加者ごとの音声、ダイアルインの劣化）をカバーしています。一度に 1 つのインタビューを Zoom で実施している場合、いずれかのパスが機能します — MP4 をここにドロップするとスピーカーラベルは同じになります。

インタビュー文字起こし。どのような録音方法でも、同じ結果。

Drop a file, or pick one

Paste a link, we’ll fetch the audio

Record straight from your browser

2 つの音声が入る。 2 つの音声が出てくる、ラベル付き。

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Rev（人力）。Otter または Trint。またはTranscription.Solutions。

Rev 人力文字起こし

Transcription.Solutions

Otter / Trint

人々がはまる 3 つのポイント。一般的な文字起こしツール。

何が起こるか

ここで切り替えるべきこと

インタビューに推奨されるジョブ設定

良いラベリアンなら 96%。カフェの録音でも読める。

人々が尋ねる 8 つのこと。インタビュー文字起こしについて。

インタビュー音声をドロップ。何が出てくるか見てみましょう。

インタビュー文字起こし。どのような録音方法でも、同じ結果。

Drop a file, or pick one

Paste a link, we’ll fetch the audio

Record straight from your browser

2 つの音声が入る。 2 つの音声が出てくる、ラベル付き。

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Rev（人力）。Otter または Trint。 またはTranscription.Solutions。

Rev 人力文字起こし

Transcription.Solutions

Otter / Trint

人々がはまる 3 つのポイント。 一般的な文字起こしツール。

何が起こるか

ここで切り替えるべきこと

インタビューに推奨されるジョブ設定

良いラベリアンなら 96%。 カフェの録音でも読める。

人々が尋ねる 8 つのこと。 インタビュー文字起こしについて。

インタビュー音声をドロップ。 何が出てくるか見てみましょう。

Rev（人力）。Otter または Trint。またはTranscription.Solutions。

人々がはまる 3 つのポイント。一般的な文字起こしツール。

良いラベリアンなら 96%。カフェの録音でも読める。

人々が尋ねる 8 つのこと。インタビュー文字起こしについて。

インタビュー音声をドロップ。何が出てくるか見てみましょう。