How accurate is the transcription?

On clear audio with one or two speakers, accuracy reaches 95%+ in most major languages. Quality drops with background noise, heavy accents, or overlapping speech.

What languages are supported?

100+ languages with automatic detection. You can also force a specific language if auto-detect picks the wrong one. The user interface is English-only.

How long do you keep my files?

Source media (the audio or video you uploaded) is deleted from our infrastructure within 24 hours after transcription completes. The transcript and summary stay in your account until you delete them, or 30 days after you delete your account.

Do you train models on my recordings?

No. The upstream speech-to-text provider has training opt-out by default for paid endpoints, which is what we use. We add nothing on top: no own models trained on your transcripts, no shadow analytics.

What happens if a job fails?

Your minutes are not deducted. Most failures (private URL, file too long, unsupported codec) come with a clear error message and retry guidance.

Yes — anytime from the Stripe customer portal. You keep your plan through the paid period, then drop to Free at the next renewal date.

What is the refund policy?

Full refund within 7 days if you have used less than 10% of your plan minutes. After that, pro-rated refunds for the unused portion. Email support@transcription.solutions.

Yes — REST API is live with webhooks. API key authentication, per-key rate limits by plan tier. Documentation at /docs/api.

無料で始める

文字起こし
ボイスレコーディング, 音声・動画, YouTube動画, 音声ファイル, 動画ファイル, MP4動画, Zoomミーティング, Microsoft Teams, Google Meet, インタビュー, ポッドキャスト, 講義, TikTok動画, WhatsApp音声, ボイスメモ, MP3ファイル, 電話通話, 説教
をテキストに。数秒で

話者ラベルとAIサマリー付きのクリーンな文字起こしを、リアルタイムよりも高速に取得。

音声または動画をドロップ

MP3 · MP4 · WAV · M4A · MOV · 1ファイル最大10時間

リンクを貼り付けるだけで音声を取得

YouTube・TikTok・Vimeo・Twitter・SoundCloud・Spotify・他50以上

ブラウザから直接録音

サインアップは30秒 — その後すぐにダッシュボードで録音が開始されます。

無料 30 min/moカード登録不要100+ 100以上の言語話者ラベル（Pro以上）ファイルは24時間後に自動削除

無料プラン：月30分、1ファイル最大30分。カード不要。

100+

言語の自動検出

自動検出、手動で上書き可能。

95%+

クリーンな音声の精度

主要言語、1～2名の話者。

10h

ビジネスプランの最大ファイル長

Proで10時間・Freeで30分。

~30×

リアルタイムより高速

60分のファイルが通常2～3分で完了。

これがダッシュボードです

あちこちクリックしてみてください。実際のものです

タブは動作します。アクション項目の切り替えも可能。これはジョブ完了後にアカウントに表示されるものとまったく同じです — 同じレイアウト、同じコントロール。

app.transcription.solutions / jobs / interview-ari-2026-04-26

サマリー

自動スナップショット · saved

TL;DR

創業者が必要としているのは通話後のコンテンツであって、単なる文字起こしではありません。現在のツールでは5つのアプリをつなぎ合わせる必要があります。

318words2話者 · 58 / 425トピック

キーポイント 3

01生の録音と出荷可能なコンテンツの間にギャップがある
02ショーノート、ソーシャルクリップ、ブログ下書き — 通話終了までに求められる
03現在のツールは5つ以上のアプリに分散

アクション項目 2

5アプリのつなぎ合わせに代わる単一パイプラインアプローチを調査
この文字起こしからショーノートの下書きがどのように見えるかモックアップ

トピック創業者のワークフロー通話後のコンテンツツールの断片化ショーノート単一パイプライン

話者分離された文字起こし

4行 · 2名の話者 · 30秒クリップ

00:12話者A創業者からよく聞くのは、生の録音と実際に出荷できるコンテンツの間のこのギャップです。

00:27話者Bまさに。誰もまた文字起こしを欲しがっていません — 通話が終わるまでにショーノート、クリップ、ブログ下書きが欲しいのです。

00:41話者Aそうです、そして現在のツールはそれを実現するために5つのアプリをつなぎ合わせることを強制しています。

00:54話者B1つのパイプライン、1つの場所。それが賭けです。

話者分析

ステレオチャンネル分割 · モノラルの話者分離

話者A

発話時間58%

Turns

14s

発話時間

…生の録音と実際に出荷できるコンテンツの間のこのギャップ。

話者B

発話時間42%

Turns

10s

発話時間

1つのパイプライン、1つの場所。それが賭けです。

エクスポート形式

すべてのプラン、すべての形式 · 7つの出力 · 透かしなし · TXT · SRT · MD · JSON · VTT · DOCX · PDF

TXT

プレーンテキスト

クリーンなテキスト出力 · 全プラン

SRT

SubRip字幕

タイムスタンプ付き字幕 · 全プラン

Markdown

話者ヘッダー＋サマリー · 全プラン

JSON

構造化JSON

公開スキーマ · APIワークフロー向け · 全プラン

VTT

WebVTT字幕

HTML5ビデオプレーヤー形式 · 全プラン

DOCX

Word文書

話者ヘッダー＋タイムスタンプ · 全プラン

PDF

ブランド付きPDF

印刷対応 · サマリー＆話者 · 全プラン

デモ · ミュート

0:18 / 1:00

サンプル出力 · ポッドキャストクリップ30秒

1つのファイル。 8つの成果物

任意の出力にホバーまたはタップすると、実際の見た目を確認できます。中央に同じ30秒のポッドキャストクリップが表示され、そこから8つの成果物が生成されています。

文字起こし

句読点付き · タイムスタンプ付き

00:12 話者A
創業者からよく聞くのはこのギャップ…

AIサマリー

要約 · キーポイント

創業者が必要とするのは通話後の コンテンツ、単なる文字起こしではありません。ツールは5つのアプリをつなぎ合わせることを強いています。

話者

話者分離 · Pro以上

2人通話はステレオチャンネル分割。それ以外はモノラル話者分離。

100以上の言語

自動検出

研究レベルのASR。自動検出が誤った場合は特定の言語を強制可能。

interview-ari-2026-04-26.mp3

30秒クリップ · 2名の話者

100以上の言語 · 自動検出 · 95%以上の精度

文字起こし · 30秒ウィンドウ