인터뷰 트랜스크립션.어떤 녹음이든, 같은 결과.

휴대폰 메모, Zoom 통화, 라발리에 마이크, 또는 휴대용 필드 레코더 — 인터뷰 녹음을 올리면 화자 레이블과 타임스탬프가 있는 인용 가능한 텍스트를 얻습니다.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ 결과물을 확인하세요

두 개의 목소리가 들어옵니다. 두 개의 목소리가 나가고, 레이블이 지정됩니다.

대부분의 인터뷰는 한 기기에서 두 사람이 통화합니다 — 테이블 위의 휴대폰, 당신과 상대방 사이의 레코더. 단일 모노 채널에서도 인터뷰 오디오를 기자와 소스로 분리한 후 인용을 위해 각 턴마다 타임스탬프를 붙입니다.

필드 레코더 · WAVREC 2명 화자 · 38:42
auto-detected en-US48 kHz mono · 1411 kbps
~90s
트랜스크립트 · 스트리밍94% 정확도
S1

18일 아침에 본 것들을 설명해주실 수 있나요?

S2

6시쯤 도착했는데 로딩베이 문이 이미 열려 있었어요. 열려 있으면 안 되는 문인데요.

S1

그전에 문제를 보고한 적이 있다고 하셨는데 — 누구에게요?

S2

시설 담당자 Diane Okafor에게 3월에 두 번 보고했고요. 이메일이 있습니다.

필드 WAV에서 94%DOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

세 가지 실제 옵션 · 정직한 비교

Rev 인간 트랜스크리버. Otter 또는 Trint. 또는 우리.

Rev는 오디오를 인간 트랜스크리버에게 보냅니다 — 느리고 비싸지만 어려운 오디오에서는 높은 충실도를 제공합니다. Otter와 Trint는 우리처럼 AI 중심이며 저널리스트와 리서처용으로 조정되었습니다. 각각이 어디에 맞는지 확인하세요.

Option 01

Rev 인간 트랜스크립션

실제 사람이 인터뷰를 타이핑합니다. 질 나쁜 오디오에는 최고이지만, 기다려야 하고 비용도 많이 듭니다.

소요 시간일반적으로 12–24시간
깨끗한 오디오에서의 정확도99% (청구)
화자 레이블수동, 포함됨
지원 언어EN 인간 · 30+ AI
비용 · 분당$1.50 인간 · $0.25 AI
개인정보보호오디오를 계약자에게 전송
Best for법정용 또는 출판 결정적인 인터뷰, 질 나쁜 오디오에서 인간의 귀가 필요하고 하루를 기다릴 수 있는 경우.
Option 02

Transcription.Solutions

AI 트랜스크립트, 화자 분리, 분 단위로 준비. 휴대폰 메모, Zoom, 필드 레코더 모두 같은 엔진.

소요 시간오디오 1시간당 약 3분
깨끗한 오디오에서의 정확도94–96%
화자 레이블자동 · 편집기에서 이름 변경 가능
지원 언어99개, 자동 감지
비용 · 분당$0.03
개인정보보호오디오 24시간 후 삭제 · 학습 사용 안 함
Best for주당 여러 인터뷰를 진행하며 계약자에게 업로드하지 않고 빠르고 인용 가능한 텍스트가 필요한 저널리스트, 리서처, 제작자.
Option 03

Otter / Trint

리서치 지향적 편집기가 있는 AI 트랜스크립션. 영어 강점, 월간 요금제로 제한.

소요 시간실시간에서 약 5분
깨끗한 오디오에서의 정확도약 90–93%
화자 레이블예 · EN 특화
지원 언어Otter EN만 · Trint 30+
비용$17–80/사용자/월 (구독)
개인정보보호기본적으로 계정에 저장됨
Best for지금까지 녹음한 모든 인터뷰의 호스팅된 라이브러리를 원하고 사용자당 월간 좌석료를 신경 쓰지 않는 팀.

가격 및 기능은 2026년 기준입니다. Rev 인간 소요 시간은 대기열 깊이와 오디오 길이에 따라 다릅니다.

인터뷰에만 해당

에서 사람들을 물린다는 세 가지. 일반 트랜스크립션 도구

인터뷰 오디오는 거의 깨끗하지 않습니다. 이 설정을 전환하면 인용 시에도 트랜스크립트가 유지됩니다.

문제가 되는 것

  1. 1단일 채널의 크로스토크. 소스가 강조되고 당신의 질문 위에 말할 때, 일반적인 diarization은 둘 다를 하나의 화자 블록으로 병합합니다.
  2. 2소스 이름과 장소(Okafor, Tigray, Maranello)는 음성학으로 반환됩니다. 트랜스크립트에 대해 사실 확인하기에 쓸모없습니다.
  3. 3비공개 순간은 인용 가능한 자료와 동일한 트랜스크립트에 끝납니다 — 영역을 편집됨으로 표시할 방법이 없습니다.

여기서 전환할 것

  1. 1필드 레코더가 두 채널 WAV를 작성하는 경우 (트랙당 하나의 마이크), 해당 파일을 직접 업로드하세요. 우리는 채널별로 감지하고 diarization을 완전히 건너뜁니다.
  2. 2준비 노트 — 소스 이름, 조직, 장소 이름 — 를 작업 양식의 Custom vocabulary에 붙여넣기합니다. 인식기는 이를 알려진 고유 명사로 취급합니다.
  3. 3트랜스크립트가 도착한 후, 편집기에서 영역을 오프레코드로 표시합니다. DOCX 및 TXT에서 `[REDACTED 14:22–15:08]`로 내보내지며, 원본 오디오는 어쨌든 24시간 후 삭제됩니다.

인터뷰를 위한 권장 작업 설정

인터뷰 파일을 올리면 이것들이 기본적으로 켜집니다. 양식에서 작업별로 재정의하세요.

Diarization
스테레오인 경우 채널별 · 그 외의 경우 음향
화자 모델
인터뷰 · 2–4명 화자
언어
자동 감지 · 코드 전환 켜짐
필러 단어
유지됨 (축어 모드)
요약
핵심 인용 + 주제 색인
내보내기
타임스탬프가 있는 DOCX · 순수 TXT · JSON

Accuracy · real-world numbers

좋은 라발리에에서 96%. 여전히 카페 녹음에서 읽을 수 있습니다.

인터뷰 정확도는 마이크가 실제로 들은 것에 결정됩니다. 각 화자의 근거리 스테레오 마이크가 최고점이며, 시끄러운 테이블 위의 휴대폰이 최저점입니다. 아래 숫자는 합성 벤치마크가 아닌 실제 인터뷰 파일��서 나옵니다.

96%
듀얼 라발리에 · 스튜디오 조용함

각 화자마다 하나의 마이크, 별도 채널 (Zoom H5/H6, Tascam DR-40). Diarization은 자명하고 오류는 텍스트에만 있습니다.

94%
테이블 위 핸드헬드 레코더

두 화자 사이의 단일 콘덴서 마이크, 조용한 방. 음향 diarization은 4 ft 미만에서 목소리를 안정적으로 분리합니다.

90%
휴대폰 음성 메모 · 근거리

iPhone 또는 Pixel 음성 메모, 테이블 위. 이름과 숫자는 가끔 빠지지만, 인용에는 충분합니다.

84%
필드 녹음 · 카페 또는 거리

에스프레소 머신, 교통음, 근처의 제3자 목소리. 우리 데이터에서 최악 — 네비게이션에는 사용 가능하며, 오디오에 대해 인용 검증.

자주 묻는 질문

사람들이 묻는 8가지. 인터뷰 트랜스크립션에 대해

01이 트랜스크립트를 오디오에 대해 검증하지 않고 출판된 기사에 사용할 수 있나요?+
직접 인용의 경우 — 아니요, 항상 오디오에 대해 검증하세요. 94% 정확도의 AI 트랜스크립트도 평균 17단어 중 하나를 놓치며, 인용에서 잘못된 단어는 수정입니다. 트랜스크립트는 네비게이션과 초안 작성용이고, 오디오가 신뢰할 수 있는 출처입니다.
02내 레코더가 각 마이크당 하나의 채널이 있는 스테레오 WAV로 저장했습니다. 어떻게 하나요?+
먼저 모노로 변환하지 말고 해당 파일을 직접 업로드하세요. 두 채널을 감지하고 각각을 자신의 diarization 트랙으로 라우트하며, 이것이 우리가 가진 최고 정확도 경로입니다. 조용한 방에서 96% 이상을 기대하세요.
03전화 통화를 통해 녹음된 인터뷰는 어떤가요?+
전화 오디오는 8 kHz 협대역이며, 깨끗한 라인에서도 정확도를 약 88%로 제한합니다. 우리는 여전히 레코더 앱이 따로 캡처한 경우 채널 분리를 사용하여 두 당사자를 분리합니다 (대부분 하지만). VoIP WhatsApp 또는 Signal 통화는 PSTN보다 약간 더 좋게 들립니다.
04공유 전에 오프레코드 섹션을 편집할 수 있나요?+
예. 편집기에서 타임스탐프 범위를 선택하고 `[REDACTED]`로 표시하세요. 내보내기는 텍스트를 편집 표시로 바꾸지만 타임스탐프를 유지하므로 문서가 여전히 오디오를 추적합니다.
05내 인터뷰 녹음으로 모델을 학습시키나요?+
아니요. 원본 오디오는 완료 후 24시간 이내에 인프라에서 삭제되며, 어떤 요금제에서든 모델 학습을 위해 고객 녹음을 사용하지 않습니다. 트랜스크립트 텍스트는 삭제할 때까지 계정에 유지됩니다.
06패널 인터뷰의 3~4명 — diarization이 여전히 작동하나요?+
약 6개의 서로 다른 목소리까지 가능하지만, 각각 추가된 사람과 두 화자가 유사하게 들릴 때마다 화자 할당의 정확도가 떨어집니다. 트랜스크립트가 도착한 후 화자 칩에서 2–3분의 이름 변경 패스를 계획하세요.
07영어가 아닌 다른 언어로 인터뷰를 트랜스크립션할 수 있나요?+
99개 언어, 자동 감지. 코드 전환 (영어 소스가 문장 중간에 스페인어로 미끄러지는)은 12개 언어 쌍에서 처리됩니다. 정확도는 언어별로 다릅니다 — 유럽 언어는 영어와 일치하고, 리소스가 부족한 아프리카 및 중앙 아시아 언어는 5–10 포인트 낮게 실행됩니다.
08Zoom 통화에서 녹음합니다 — 대신 Zoom 페이지를 사용해야 하나요?+
동일한 엔진, 동일한 결과. Zoom 페이지는 클라우드 녹화 세부 사항 (참여자별 오디오, 다이얼인 저하)을 다룹니다. Zoom을 통해 한 번에 하나의 인터뷰를 수행하는 경우, 두 경로 모두 작동합니다 — MP4를 여기에 올리면 화자 레이블이 동일하게 나옵니다.

인터뷰 녹음을 올리세요. 무엇이 나올지 확인해보세요.

매월 30분 무료. 카드 불필요. 화자 레이블, 99개 언어, 모든 내보내기 포함.

무료 시작