インタビュー文字起こし。どのような録音方法でも、同じ結果。

電話の音声メモ、Zoom 通話、ラベリアン マイク、またはハンドヘルド フィールド レコーダー — インタビュー音声をドロップしたら、スピーカーラベル付きで、タイムスタンプ付きのテキストが得られ、引用できます。

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ 出力結果を確認

2 つの音声が入る。 2 つの音声が出てくる、ラベル付き。

ほとんどのインタビューは 1 つのデバイス上の 2 人 — テーブルの上の電話、あるいはあなたの間に置いた録音機です。単一のモノ チャンネルからでも、レポーターと出典をインタビュー音声から分離して、引用のためにすべてのターンにタイムスタンプをつけます。

フィールドレコーダー · WAVREC 2 スピーカー · 38:42
auto-detected en-US48 kHz mono · 1411 kbps
~90s
トランスクリプト · ストリーミング94% 精度
S1

18 日の朝に見たことについて、詳しく教えていただけますか?

S2

6 時頃に着きました。ローディング ベイのドアはすでに開いていて、そのはずではありませんでした。

S1

そのドアの問題については以前報告されていたと思いますが、だれに報告されましたか?

S2

施設の Diane Okafor に 3 月に 2 回報告しました。メールがあります。

フィールド WAV で 94%DOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

3 つの選択肢 · 正直に比較

Rev(人力)。Otter または Trint。 またはTranscription.Solutions。

Rev は音声を人間の文字起こし者に送ります — 遅く、高い費用ですが、悪い音声で高い忠実度です。Otter と Trint は AI ファースト(私たちと同じ)で、ジャーナリストと研究者向けにチューニングされています。各選択肢がどこに適合するかを以下に示します。

Option 01

Rev 人力文字起こし

実際の人間があなたのインタビューをタイプします。悪い音声に最適ですが、待つ必要があり、費用が高いです。

ターンアラウンド12–24 時間(典型的)
クリーン音声での精度99%(表示)
スピーカーラベル手動、含まれる
言語EN 人力 · 30+ AI
コスト · 分/単位$1.50 人力 · $0.25 AI
プライバシー音声は請負業者に送信
Best for法廷提出または出版に必須のインタビューで、悪い音声で人間の耳が必要で、待つ時間がある場合。
Option 02

Transcription.Solutions

AI トランスクリプト、スピーカー分離、数分で準備完了。電話メモ、Zoom、フィールド レコーダーでも同じエンジンを使用。

ターンアラウンド音声 1 時間あたり ~3 分
クリーン音声での精度94–96%
スピーカーラベル自動 · エディタで名前変更可能
言語99、自動検出
コスト · 分/単位$0.03
プライバシー音声は 24h で削除 · トレーニングなし
Best for1 週間に複数のインタビューを行い、請負業者にアップロードすることなく、高速で引用可能なテキストが必要なジャーナリスト、研究者、プロデューサーに最適。
Option 03

Otter / Trint

研究指向のエディタ付き AI 文字起こし。英語が強く、月間プランに制限されています。

ターンアラウンドリアルタイム~ ~5 分
クリーン音声での精度~90–93%
スピーカーラベルあり · EN チューニング
言語Otter は EN のみ · Trint は 30+
コスト$17–80/user/月(サブスクリプション)
プライバシーデフォルトではアカウントに保存
Best forすべてのインタビューの開催済みライブラリが必要で、ユーザーあたり月額シート料金を気にしないチーム向け。

価格と機能フラグは 2026 年現在で正確です。Rev の人力ターンアラウンドはキュー深度と音声長によって異なります。

インタビューに特有

人々がはまる 3 つのポイント。 一般的な文字起こしツール。

インタビュー音声はめったにクリーンではありません。以下の設定を切り替えると、トランスクリプトは引用に耐える力を持つようになります。

何が起こるか

  1. 1単一チャンネルでのクロストーク。出典が強調的になって質問に話しかかるとき、ジェネリック ダイアライゼーションは両方を 1 つのスピーカー ブロックに統合します。
  2. 2出典の名前と場所(Okafor、Tigray、Maranello)は音字的に返されます。トランスクリプトに対して事実確認に役立ちません。
  3. 3���フザレコード モーメントは引用可能な資料と同じトランスクリプトに終わります — 領域を編集済みとしてマークする方法はありません。

ここで切り替えるべきこと

  1. 1フィールド レコーダーが2 チャンネル WAV(トラックごとに 1 つのマイク)を書き込む場合、そのファイルを直接アップロードしてください。チャンネルごとを検出してダイアライゼーションをスキップします。
  2. 2準備ノート — 出典の名前、組織、場所の名前 — をジョブ フォームのカスタム語彙に貼り付けてください。認識エンジンはそれらを既知の固有名詞として扱います。
  3. 3トランスクリプトが到着したら、エディタで領域をオフレコードとしてマークしてください。DOCX と TXT で `[REDACTED 14:22–15:08]` としてエクスポートされ、ソース音声は 24 時間以内に削除されます。

インタビューに推奨されるジョブ設定

インタビュー ファイルをドロップするとこれらはデフォルトでオンになります。ジョブごとにフォームでオーバーライドします。

ダイアライゼーション
ステレオの場合はチャンネルごと · そうでない場合は音響
スピーカー モデル
インタビュー · 2–4 スピーカー
言語
自動検出 · コード切り替えオン
フィラー ワード
保持(逐語モード)
サマリ
キー クォート + トピック インデックス
エクスポート
タイムスタンプ付き DOCX · プレーン TXT · JSON

Accuracy · real-world numbers

良いラベリアンなら 96%。 カフェの録音でも読める。

インタビューの精度はマイクが実際に拾った音声で制限されます。各スピーカーの密閉マイク ステレオが上限で、テーブルの上に置かれた電話がノイズが多い下限です。以下の数字は合成ベンチマークではなく、本番インタビュー ファイルから取得しました。

96%
デュアル ラベリアン · スタジオ静寂

スピーカーごとに 1 つのマイク、別のチャンネル(Zoom H5/H6、Tascam DR-40)。ダイアライゼーションは簡単で、エラーはテキストのみです。

94%
テーブル上のハンドヘルド レコーダー

2 スピーカーの間に単一のコンデンサー、静かな部屋。音響ダイアライゼーションは 4 フィート以下での音声分離を確実に行います。

90%
電話音声メモ · 密閉

iPhone または Pixel 音声メモをテーブルに置く。名前と数字は時々逃しますが、引用のためのペースは大丈夫です。

84%
フィールド録音 · カフェまたは通り

エスプレッソ マシン、トラフィック、近くの 3 番目の音声。私たちのデータで最悪のケース — ナビゲーションに使用可能で、オーディオに対して引用を確認してください。

よくある質問

人々が尋ねる 8 つのこと。 インタビュー文字起こしについて。

01これらのトランスクリプトをオーディオに対して確認せずに公開記事で使用できますか?+
直接引用の場合は、いいえ。常にオーディオに対して確認してください。94% 精度の AI トランスクリプトでも、平均して 17 のうち 1 単語を誤読し、引用の間違った単語は修正となります。トランスクリプトはナビゲーションとドラフト用で、オーディオが真実の源です。
02レコーダーがスピーカーあたり 1 つのマイクでステレオ WAV を保存しました。何をすればいいですか?+
そのファイルを直接アップロードしてください — 最初にモノに変換しないでください。2 つのチャンネルを検出してそれぞれを独自のダイアライゼーション トラックにルーティングします。これは最高精度のパスです。静かな部屋では 96% 以上を期待してください。
03電話通話で録音されたインタビューについてはどうですか?+
電話音声は 8 kHz ナローバンドで、クリーンな回線でも精度を約 88% に制限します。それでも、レコーダー アプリが個別にキャプチャした場合(ほとんどが行う)、チャネル分離を使用して 2 者を分割します。WhatsApp または Signal を使用した VoIP 通話は PSTN より少し音質が良いです。
04トランスクリプトを共有する前にオフザレコード セクションを編集できますか?+
はい。エディタでタイムスタンプ範囲を選択して `[REDACTED]` とマークしてください。エクスポートはテキストを編集マーカーで置換しますが、タイムスタンプを保持するのでドキュメントはまだオーディオを追跡します。
05インタビュー録音でモデルをトレーニングしていますか?+
いいえ。ソース音声は完了から 24 時間以内にインフラストラクチャから削除され、どのプラン下でも、顧客の録音をモデル トレーニングに使用しません。トランスクリプト テキストは削除するまでアカウントに残ります。
06パネル インタビューで 3 人または 4 人 — ダイアライゼーションはまだ機能しますか?+
約 6 つの異なる音声まで、はい。ただし、追加されたスピーカーごとの精度は低下し、2 つのスピーカーが似た音を立てるとより悪化します。トランスクリプトが到着した後、スピーカー チップの 2–3 分の名前変更パスを計画してください。
07英語以外の言語でインタビューを文字起こしできますか?+
99 の言語、自動検出。コード スイッチング(英語の出典が文の途中でスペイン語にスリップする)は 12 の言語ペアで処理されます。精度は言語によって異なります — ヨーロッパ言語は英語と一致し、低リソース アフリカ および中央アジア言語は 5–10 ポイント低いです。
08Zoom 通話で録音するのですが、代わりに Zoom ページを使用すべきですか?+
同じエンジン、同じ結果。Zoom ページはクラウド録画の詳細(参加者ごとの音声、ダイアル インの劣化)をカバーしています。一度に 1 つのインタビューを Zoom で実施している場合、いずれかのパスが機能します — MP4 をここにドロップするとスピーカー ラベルは同じになります。

インタビュー音声をドロップ。 何が出てくるか見てみましょう。

毎月 30 分無料。カード不要。スピーカー ラベル、99 言語、すべてのエクスポートが含まれています。

無料で開始