오디오 파일 전사. 최대 10시간.타임아웃 없음.

대부분의 도구는 2시간 또는 500MB를 넘으면 조용히 실패합니다. 저희 파이프라인은 긴 파일을 병렬 처리 레인으로 분할하고, 타임스탬프를 정렬하여 재조립하며, 화자 라벨이 그대로 유지된 하나의 일관된 전사를 제공합니다. Pro 및 Business 모두 파일당 최대 10시간을 허용합니다. Business는 더 높은 크기 제한(500MB 대신 2GB)과 우선 대기열을 추가로 제공합니다.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Watch what happens

Audio in. Transcript out.

Drop a file, paste a URL, or record live — text appears back with speaker labels and timestamps. Same pipeline whether the source is a file, a URL, or your microphone.

Microphone · liveREC 00:07.41
en-US auto-detected16 kHz mono
~90s
Transcript · streaming2 speakers · 47:08
S1

Thanks for making the time. I want to start with framing — what was the original hypothesis behind the project?

S2

Honestly, maybe forty percent. The shape held — the mechanics underneath had to be rebuilt almost entirely.

S1

What flipped it for you? Was there one customer call, one piece of data

~95% accuracy on clean audioSRT · DOCX · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Three real options · honest comparison

Built-in dictation, AI speech-to-text, or a human transcriber.

Three legitimate ways to get text from spoken audio in 2026. Each is best for different work. Honest numbers below — no claim that AI matches a professional human transcriber on hard audio.

Option 01

Built-in dictation

Live, free, on-device. Handy for short bursts while you talk.

Accuracy · clear English~85%
Speaker separationNo
TimestampsNo
Languages~30
60-min fileLive only
CostFree
Best forShort voice notes while you walk. Hands-free messaging. Dictating an email at a stoplight.
Option 02

AI speech-to-text

~30× faster than realtime. 100+ languages. Speaker labels. The sweet spot for most work.

Accuracy · clear English95%+
Speaker separationYes (Pro+)
TimestampsPer sentence
Languages100+ auto
60-min file~90 s
Cost · per min$0.03
Best forInterview recordings · meeting notes · podcast transcripts · YouTube subtitles · batch jobs · API automation · field journalism.
Option 03

Human transcriber

Gold-standard accuracy when the audio is hard or the stakes are legal.

Accuracy · clear English98–99%
Speaker separationManual
TimestampsPer turn
LanguagesPer transcriber
60-min file4–8 hours
Cost · per min$1–3
Best forLegal depositions · medical dictation · archival oral history · anything where 95%+ accuracy is non-negotiable.

Built-in dictation figures from public iOS / Android speech API benchmarks. Human transcriber rates from US/UK industry surveys 2024–2025.

Accuracy · real-world numbers

95%+ on clear English. It holds up on real-world recordings too.

Modern transcription reaches 95%+ word accuracy on clear English at 128 kbps and above, comparable to a human transcriber on the same recording. The audio coming in sets the ceiling — cleaner source, cleaner transcript. The breakdown below covers the recordings we actually see in production.

97%+
Clean studio audio

USB or studio microphone in a treated room. Single speaker at conversational distance. The headline number.

95%+
Clear English at 128 kbps+

Podcast masters, interview recordings, well-mic'd meetings. The sweet spot for most professional work.

93%
Real-world podcast

Field-recorded interviews, podcast episodes at 64–128 kbps, multi-speaker recordings. Usable for editorial without a review pass.

91%
Meeting room recording

Ceiling mic, omnidirectional capture, mild reverb, multiple speakers at distance. Plan a rename pass on the speaker chips.

Common questions

7 things people ask about this.

01최대 파일 크기와 길이는 얼마인가요?+
Business: 파일당 2GB, 녹음당 최대 10시간. Pro: 파일당 500MB, 녹음당 최대 10시간. Free: 파일당 100MB, 파일당 최대 30분, 월 총 30분. 모든 요금제는 동일한 형식 세트를 지원합니다: MP3, WAV, M4A, FLAC, OGG, MP4, MOV, WEBM, MKV.
02업로드 또는 처리 중 녹음이 타임아웃되나요?+
아니요. 500MB 이상의 파일은 사전 서명 URL을 통해 저장소에 직접 업로드됩니다 — 브라우저 탭에서 요청이 타임아웃되지 않습니다. 처리는 지속적인 작업 대기열을 사용합니다: 브라우저를 닫아도 작업은 계속되며 전사가 준비되면 이메일 알림을 받습니다.
03업로드 전에 파일을 분할해야 하나요?+
아니요. 파이프라인은 내부적으로 파일을 중첩 청크로 분할하고, 병렬로 처리하며, 정렬된 타임스탬프를 가진 단일 출력을 재조립합니다. 수동 청크 분할은 파일이 요금제 한도를 초과하는 경우에만 필요합니다.
04화자 분할이 10시간 파일 전체에서 작동하나요?+
예. 화자 분할은 각 청크에 독립적으로 실행되지 않고 모든 청크가 완료된 후 전체 파일에 대해 실행됩니다. 즉, 1시간째의 SPEAKER_01과 9시간째의 SPEAKER_01은 동일한 사람입니다. 제어된 오디오에서는 시간당 한 번 미만의 오귀인이 발생합니다.
05파일 처리 속도는 얼마나 빠른가요?+
실시간보다 약 4배 빠릅니다 — 따라서 4시간 녹음은 약 60분이 소요됩니다. 매우 큰 파일(>6시간)은 피크 시간에 다른 작업 뒤에 대기할 수 있습니다. 비피크 시간 처리는 일관되게 더 빠릅니다.
06API를 통해 여러 긴 파일을 배치로 처리할 수 있나요?+
예. 각 파일을 별도의 작업으로 /api/v1/jobs에 POST하고 웹훅 URL을 지정하세요. 작업은 병렬로 처리됩니다(요금제 동시성 제한 적용). Business는 최대 50개의 동시 작업을 실행하며 Pro는 최대 20개입니다. 활성 상한을 초과하는 제출은 `pending`으로 대기하고 슬롯이 비면 자동 승격됩니다 — 제출 시 속도 제한이 발생하지 않습니다.
07업그레이드 전에 무료로 테스트할 수 있는 방법이 있나요?+
예 — Free 티어는 월 30분을 제공하며 카드가 필요 없습니다. 유료 요금제를 결정하기 전에 긴 녹음의 대표적인 30분 발췌본을 사용하여 정확도를 확인하세요.

Drop something in. See what comes out.

최대 2GB, 10시간 길이를 업로드하세요. 청크 분할 없음, 타임아웃 없음, 전반에 걸친 화자 라벨.

무료 전사 시작