Transcripción de entrevistas.Diferentes grabacións, mesmo resultado.

Memo de teléfono, chamada Zoom, micrófono de solapa ou gravador portátil de campo — solta a gravación de entrevista e obtén texto con identificación de falantes e marcas de tempo que podes citar.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Mira o que sae

Dúas voces dentro. Dúas voces fora, etiquetadas.

A maioría das entrevistas son dúas persoas nun só aparello — un teléfono sobre a mesa, un gravador entre vós. Separamos o audio da entrevista en reporteiro e fonte incluso dende un único canal mono, despois marcamos con data cada turno para citas.

Gravador de campo · WAVREC 2 falantes · 38:42
auto-detectado en-US48 kHz mono · 1411 kbps
~90s
Transcripción · en directo94% de precisión
S1

Podes explicarme con detalle que viche a mañá do décimo oitavo?

S2

Cheguei arredor das seis. A porta da boca de carga xa estaba aberta, cando non debería estalo.

S1

E xa tiñas reportado o problema da porta antes — a quen?

S2

A Diane Okafor en instalacións, dúas veces en marzo. Teño os correos.

94% en WAV de campoDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tres opcións reais · comparación honesta

Rev humano. Otter ou Trint. Ou nós.

Rev envía o teu audio a transcritores humanos — lento e caro pero alta fidelidade en audio difícil. Otter e Trint son en primeiro lugar IA como nós, afinados para xornalistas e investigadores. Aquí está onde encaixa cada un.

Option 01

Transcripción humana de Rev

Persoas reais escribindo a túa entrevista. Mellor en audio hostil, pero esperas e pagas.

Tempo de devolución12–24 horas típico
Precisión en audio limpo99% (reclamado)
Etiquetas de falantesManual, incluído
IdiomasEN humano · 30+ IA
Custo · por min$1.50 humano · $0.25 IA
PrivacidadeAudio enviado a contratistas
Best forEntrevistas vinculadas a tribunal ou críticas para publicación en audio malo onde necesitas un oído humano e tes un día para agardar.
Option 02

Transcription.Solutions

Transcripción de IA, separación de falantes, lista en minutos. O mesmo motor para memo de teléfono, Zoom ou gravador de campo.

Tempo de devolución~3 min por hora de audio
Precisión en audio limpo94–96%
Etiquetas de falantesAutomático · renomear no editor
Idiomas99, auto-detectado
Custo · por min$0.03
PrivacidadeAudio eliminado en 24h · sen adestramento
Best forXornalistas, investigadores e produtores que fan múltiples entrevistas á semana e que necesitan texto rápido e citábel sen cargar nun contratista.
Option 03

Otter / Trint

Transcripción de IA con editor orientado a investigación. Forte en inglés, bloqueado en plans mensuais.

Tempo de devoluciónTempo real a ~5 min
Precisión en audio limpo~90–93%
Etiquetas de falantesSi · afinado en EN
IdiomasOtter só EN · Trint 30+
Custo$17–80/usuario/mes (subscrición)
PrivacidadeAlmacenado na conta por defecto
Best forEquipos que querenunha biblioteca aloxada de cada entrevista gravada e non lle importa unha tarifa mensual de asento por usuario.

Prezos e bandeiras de funcionalidade precisas a partir de 2026. O tempo de devolución humano de Rev varía segundo a profundidade da cola e a lonxitude do audio.

Específico das entrevistas

Tres cousas que morden á xente nas ferramentas de transcripción xenéricas.

O audio da entrevista raramente é limpo. Cambia estas configuracións e a transcripción aguanta baixo citación.

Que sae mal

  1. 1Fala simultánea no un único canal. Cando a túa fonte se torna enfática e fala sobre a túa pregunta, a diarización xenérica fusiona ambas nun único bloque de falante.
  2. 2Nomes de fontes e lugares (Okafor, Tigray, Maranello) volven foneticamente. Inútil para verificación de feitos contra una transcripción.
  3. 3Os momentos fuera de micrófono terminan na mesma transcripción que o material citábel — non hai forma de marcar unha rexión como redactada.

Que cambiar aquí

  1. 1Se o teu gravador de campo escribe un WAV de dous canais (un micrófono por pista), sobe ese ficheiro directamente. Detectamos por canal e saltamos a diarización completamente.
  2. 2Pega as túas notas de preparación — nomes de fontes, organizacións, nomes de lugares — en Vocabulario personalizado no formulario de traballo. O recoñecedor trátalos como nomes propios coñecidos.
  3. 3Despois de que chega a transcripción, marca unha rexión como fora de micrófono no editor. Exporta como `[REDACTED 14:22–15:08]` en DOCX e TXT, co audio de orixe eliminado en 24 horas de todas formas.

Configuracións de traballo recomendadas para entrevistas

Solta un ficheiro de entrevista e estos cambiar habilitados por defecto. Anula por traballo dende o formulario.

Diarización
Por canal se estéreo · acústico en caso contrario
Modelo de falante
Entrevista · 2–4 falantes
Idioma
Auto-detectar · cambio de código activado
Palabras de relleno
Mantidas (modo verbatim)
Resumo
Citas clave + índice de temas
Exportación
DOCX con marcas de tempo · TXT simple · JSON

Accuracy · real-world numbers

96% nun bon micrófono de solapa. Aínda lexible nunha gravación de café.

A precisión da entrevista está limitada por o que o micrófono realmente escoitou. Micrófono próximo en estéreo, un para cada falante, é o máximo; un teléfono nunha táboa ruidosa é o chan. Os números de abaixo veñen de ficheiros de entrevistas de produción, non de referentes sintéticos.

96%
Dúas solupas · estudio silencioso

Un micrófono por falante, canais separados (Zoom H5/H6, Tascam DR-40). A diarización é trivial — o erro é só no texto.

94%
Gravador portátil sobre a táboa

Un só condensador entre dous falantes, sala silenciosa. A diarización acústica separa as voces de forma fiable por debaixo de 4 ft.

90%
Memo de voz de teléfono · próximo

Memo de voz de iPhone ou Pixel sobre a táboa. Os nomes e números moitas veces se pierden; o ritmo é bo para citar.

84%
Gravación de campo · café ou rúa

Máquinas de café exprés, tráfico, terceiras voces preto. Peor caso nos nosos datos — usábel para navegación, verifica as citas contra o audio.

Preguntas frecuentes

8 cousas que a xente pregunta sobre transcripción de entrevistas.

01Podo usar estas transcripcións nun artículo publicado sen verificar contra o audio?+
Para citas directas — non, sempre verifica contra o audio. Transcripcións de IA cun 94% de precisión aínda malen a leitura dunha palabra de cada 17 en media, e a palabra incorrecta nunha cita é unha corrección. A transcripción é para navegación e borrador; o audio é a fonte de verdade.
02O meu gravador gardou un WAV estéreo cun micrófono por falante. Que fago?+
Sobe ese ficheiro directamente — non converta a mono primeiro. Detectamos os dous canais e enrutamos cada un á súa propia pista de diarización, que é o camiño de maior precisión que temos. Espera 96%+ nunha sala silenciosa.
03Que tal as entrevistas gravadas sobre unha chamada telefónica?+
O audio telefónico é de banda estreita de 8 kHz, que limita a precisión arredor do 88% incluso nunha liña limpa. Aínda dividimos os dous partidos usando separación de canais se a túa aplicación de gravador os capturou por separado (a maioría o fai). As chamadas VoIP sobre WhatsApp ou Signal soan un pouco mellor que PSTN.
04Podo redactar seccións fora de micrófono antes de compartir a transcripción?+
Si. No editor, selecciona o rango de marca de tempo e márcao como `[REDACTED]`. A exportación reemplaza o texto con un marcador de redacción pero mantén as marcas de tempo para que o documento siga rastreando o audio.
05Adestrades modelos nas miñas gravacións de entrevistas?+
Non. O audio de orixe é eliminado da nosa infraestrutura nos 24 horas de finalización, e non usamos gravacións de clientes para adestramento de modelos en ningún plan. O texto de transcripción permanece na túa conta ata que o elimines.
06Tres ou catro persoas nunha entrevista de panel — a diarización aínda funciona?+
Ata arredor de seis voces distintas, si, pero a precisión na asignación de falantes cae con cada persoa engadida e empeora cando dous falantes soan similares. Planifica un paso de renomeación de 2–3 minutos nos chips de falantes despois de que chega a transcripción.
07Podies transcreber entrevistas en idiomas distintos do inglés?+
99 idiomas, auto-detectados. O cambio de código (fonte de inglés deslizándose ao español a mitad da frase) é tratado en 12 pares de idiomas. A precisión varía segundo o idioma — os idiomas europeos coinciden co inglés; os idiomas africanos de baixos recursos e centroasiáticos teñen 5–10 puntos máis baixos.
08Grabo nunha chamada Zoom — debería usar a túa páxina de Zoom en lugar diso?+
O mesmo motor, o mesmo resultado. A páxina de Zoom cobre específicos de gravación en nube (audio por participante, degradación de marcación). Se estás facendo una entrevista de una en una vía Zoom, calquera camiño funciona — solta o MP4 aquí e as etiquetas de falantes salen igual.

Solta a túa gravación de entrevista. Mira o que sae.

30 minutos libres cada mes. Sen tarxeta. Etiquetas de falantes, 99 idiomas, todas as exportacións incluídas.

Comeza gratis