인터뷰 트랜스크립션 — 화자 레이블과 타임스탬프가 있는 인터뷰 녹음을 텍스트로 변환

인터뷰 트랜스크립션.어떤 녹음이든, 같은 결과.

휴대폰 메모, Zoom 통화, 라발리에 마이크, 또는 휴대용 필드 레코더 — 인터뷰 녹음을 올리면 화자 레이블과 타임스탬프가 있는 인용 가능한 텍스트를 얻습니다.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

두 개의 목소리가 들어옵니다. 두 개의 목소리가 나가고, 레이블이 지정됩니다.

대부분의 인터뷰는 한 기기에서 두 사람이 통화합니다 — 테이블 위의 휴대폰, 당신과 상대방 사이의 레코더. 단일 모노 채널에서도 인터뷰 오디오를 기자와 소스로 분리한 후 인용을 위해 각 턴마다 타임스탬프를 붙입니다.

필드 레코더 · WAVREC 2명 화자 · 38:42

auto-detected en-US48 kHz mono · 1411 kbps

~90s

트랜스크립트 · 스트리밍94% 정확도

18일 아침에 본 것들을 설명해주실 수 있나요?

6시쯤 도착했는데 로딩베이 문이 이미 열려 있었어요. 열려 있으면 안 되는 문인데요.

그전에 문제를 보고한 적이 있다고 하셨는데 — 누구에게요?

시설 담당자 Diane Okafor에게 3월에 두 번 보고했고요. 이메일이 있습니다.

필드 WAV에서 94%DOCX · TXT · SRT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2Exports

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Action items

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Rev 인간 트랜스크리버. Otter 또는 Trint. 또는 우리.

Rev는 오디오를 인간 트랜스크리버에게 보냅니다 — 느리고 비싸지만 어려운 오디오에서는 높은 충실도를 제공합니다. Otter와 Trint는 우리처럼 AI 중심이며 저널리스트와 리서처용으로 조정되었습니다. 각각이 어디에 맞는지 확인하세요.

Option 01

Rev 인간 트랜스크립션

실제 사람이 인터뷰를 타이핑합니다. 질 나쁜 오디오에는 최고이지만, 기다려야 하고 비용도 많이 듭니다.

소요 시간일반적으로 12–24시간

깨끗한 오디오에서의 정확도99% (청구)

화자 레이블수동, 포함됨

지원 언어EN 인간 · 30+ AI

비용 · 분당$1.50 인간 · $0.25 AI

개인정보보호오디오를 계약자에게 전송

Best for법정용 또는 출판 결정적인 인터뷰, 질 나쁜 오디오에서 인간의 귀가 필요하고 하루를 기다릴 수 있는 경우.

Option 02

Transcription.Solutions

AI 트랜스크립트, 화자 분리, 분 단위로 준비. 휴대폰 메모, Zoom, 필드 레코더 모두 같은 엔진.

소요 시간오디오 1시간당 약 3분

깨끗한 오디오에서의 정확도94–96%

화자 레이블자동 · 편집기에서 이름 변경 가능

지원 언어99개, 자동 감지

비용 · 분당$0.03

개인정보보호오디오 24시간 후 삭제 · 학습 사용 안 함

Best for주당 여러 인터뷰를 진행하며 계약자에게 업로드하지 않고 빠르고 인용 가능한 텍스트가 필요한 저널리스트, 리서처, 제작자.

Option 03

Otter / Trint

리서치 지향적 편집기가 있는 AI 트랜스크립션. 영어 강점, 월간 요금제로 제한.

소요 시간실시간에서 약 5분

깨끗한 오디오에서의 정확도약 90–93%

화자 레이블예 · EN 특화

지원 언어Otter EN만 · Trint 30+

비용$17–80/사용자/월 (구독)

개인정보보호기본적으로 계정에 저장됨

Best for지금까지 녹음한 모든 인터뷰의 호스팅된 라이브러리를 원하고 사용자당 월간 좌석료를 신경 쓰지 않는 팀.

가격 및 기능은 2026년 기준입니다. Rev 인간 소요 시간은 대기열 깊이와 오디오 길이에 따라 다릅니다.

좋은 라발리에에서 96%. 여전히 카페 녹음에서 읽을 수 있습니다.

인터뷰 정확도는 마이크가 실제로 들은 것에 결정됩니다. 각 화자의 근거리 스테레오 마이크가 최고점이며, 시끄러운 테이블 위의 휴대폰이 최저점입니다. 아래 숫자는 합성 벤치마크가 아닌 실제 인터뷰 파일��서 나옵니다.

사람들이 묻는 8가지. 인터뷰 트랜스크립션에 대해

01이 트랜스크립트를 오디오에 대해 검증하지 않고 출판된 기사에 사용할 수 있나요?+

직접 인용의 경우 — 아니요, 항상 오디오에 대해 검증하세요. 94% 정확도의 AI 트랜스크립트도 평균 17단어 중 하나를 놓치며, 인용에서 잘못된 단어는 수정입니다. 트랜스크립트는 네비게이션과 초안 작성용이고, 오디오가 신뢰할 수 있는 출처입니다.

02내 레코더가 각 마이크당 하나의 채널이 있는 스테레오 WAV로 저장했습니다. 어떻게 하나요?+

먼저 모노로 변환하지 말고 해당 파일을 직접 업로드하세요. 두 채널을 감지하고 각각을 자신의 diarization 트랙으로 라우트하며, 이것이 우리가 가진 최고 정확도 경로입니다. 조용한 방에서 96% 이상을 기대하세요.

03전화 통화를 통해 녹음된 인터뷰는 어떤가요?+

전화 오디오는 8 kHz 협대역이며, 깨끗한 라인에서도 정확도를 약 88%로 제한합니다. 우리는 여전히 레코더 앱이 따로 캡처한 경우 채널 분리를 사용하여 두 당사자를 분리합니다 (대부분 하지만). VoIP WhatsApp 또는 Signal 통화는 PSTN보다 약간 더 좋게 들립니다.

04공유 전에 오프레코드 섹션을 편집할 수 있나요?+

예. 편집기에서 타임스탐프 범위를 선택하고 `[REDACTED]`로 표시하세요. 내보내기는 텍스트를 편집 표시로 바꾸지만 타임스탐프를 유지하므로 문서가 여전히 오디오를 추적합니다.

05내 인터뷰 녹음으로 모델을 학습시키나요?+

아니요. 원본 오디오는 완료 후 24시간 이내에 인프라에서 삭제되며, 어떤 요금제에서든 모델 학습을 위해 고객 녹음을 사용하지 않습니다. 트랜스크립트 텍스트는 삭제할 때까지 계정에 유지됩니다.

06패널 인터뷰의 3~4명 — diarization이 여전히 작동하나요?+

약 6개의 서로 다른 목소리까지 가능하지만, 각각 추가된 사람과 두 화자가 유사하게 들릴 때마다 화자 할당의 정확도가 떨어집니다. 트랜스크립트가 도착한 후 화자 칩에서 2–3분의 이름 변경 패스를 계획하세요.

07영어가 아닌 다른 언어로 인터뷰를 트랜스크립션할 수 있나요?+

99개 언어, 자동 감지. 코드 전환 (영어 소스가 문장 중간에 스페인어로 미끄러지는)은 12개 언어 쌍에서 처리됩니다. 정확도는 언어별로 다릅니다 — 유럽 언어는 영어와 일치하고, 리소스가 부족한 아프리카 및 중앙 아시아 언어는 5–10 포인트 낮게 실행됩니다.

08Zoom 통화에서 녹음합니다 — 대신 Zoom 페이지를 사용해야 하나요?+

동일한 엔진, 동일한 결과. Zoom 페이지는 클라우드 녹화 세부 사항 (참여자별 오디오, 다이얼인 저하)을 다룹니다. Zoom을 통해 한 번에 하나의 인터뷰를 수행하는 경우, 두 경로 모두 작동합니다 — MP4를 여기에 올리면 화자 레이블이 동일하게 나옵니다.