Transcripción de entrevistas.Diferentes grabaciones, mismo resultado.

Nota de voz, llamada Zoom, micrófono de solapa, o grabadora de mano — carga la grabación de entrevista y obtén texto etiquetado por hablante, con marcas de tiempo, que puedes citar.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Ve qué sale

Dos voces entra. Dos voces salen, etiquetadas.

La mayoría de las entrevistas son dos personas en un dispositivo — un teléfono sobre la mesa, una grabadora entre ustedes. Separamos el audio de entrevista en reportero y fuente incluso de un solo canal mono, luego marcamos cada turno con marcas de tiempo para citas.

Grabadora de mano · WAVREC 2 hablantes · 38:42
detectado automáticamente en-US48 kHz mono · 1411 kbps
~90s
Transcripción · streaming94% de precisión
S1

¿Puedes recorrer conmigo qué viste la mañana del dieciocho?

S2

Llegué alrededor de las seis. La puerta del muelle de carga ya estaba abierta, lo que no debería haber sucedido.

S1

Y habías reportado el problema de la puerta antes — ¿a quién?

S2

A Diane Okafor en facilidades, dos veces en marzo. Tengo los correos.

94% en WAV de campoDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tres opciones reales · comparación honesta

Rev humano. Otter o Trint. O nosotros.

Rev envía tu audio a transcriptores humanos — lento y caro, pero alta fidelidad en audio difícil. Otter y Trint son primero IA como nosotros, ajustados para periodistas e investigadores. Aquí es donde encaja cada uno.

Option 01

Transcripción humana de Rev

Personas reales escribiendo tu entrevista. Lo mejor para audio hostil, pero esperas y pagas.

Tiempo de entrega12–24 horas típico
Precisión en audio limpio99% (afirmado)
Etiquetas de hablanteManual, incluido
IdiomasEN humano · 30+ IA
Costo · por minuto$1.50 humano · $0.25 IA
PrivacidadAudio enviado a contratistas
Best forEntrevistas para procedimientos judicales o críticas para publicación, en audio pobre, donde necesitas revisión humana y tienes tiempo de espera.
Option 02

Transcription.Solutions

Transcripción IA, separados por hablante, listo en minutos. Mismo motor para nota de voz, Zoom, o grabadora de mano.

Tiempo de entrega~3 minutos por hora de audio
Precisión en audio limpio94–96%
Etiquetas de hablanteAutomático · renombra en editor
Idiomas99, detectado automáticamente
Costo · por minuto$0.03
PrivacidadAudio eliminado en 24h · sin entrenamiento
Best forPeriodistas, investigadores y productores que hacen múltiples entrevistas a la semana y necesitan texto rápido y citable sin enviar a contratistas.
Option 03

Otter / Trint

Transcripción IA con editor orientado a investigación. Fuerte en inglés, limitado a planes mensuales.

Tiempo de entregaTiempo real a ~5 minutos
Precisión en audio limpio~90–93%
Etiquetas de hablanteSí · ajustado a EN
IdiomasOtter solo EN · Trint 30+
Costo$17–80/usuario/mes (suscripción)
PrivacidadAlmacenado en cuenta por defecto
Best forEquipos que quieren una biblioteca alojada de cada entrevista grabada y no les importa una tarifa de asiento mensual por usuario.

Precios y banderas de características exactos a partir de 2026. El tiempo de entrega humano de Rev varía según la profundidad de la cola y la duración del audio.

Específico de entrevistas

Tres cosas que afectan a la gente con herramientas de transcripción genéricas.

El audio de entrevista raramente es limpio. Activa estas configuraciones y la transcripción aguanta bien bajo citas.

Qué sale mal

  1. 1Solapamiento en un solo canal. Cuando tu fuente se enfatiza y habla sobre tu pregunta, la diarización genérica fusiona ambos en un bloque de hablante.
  2. 2Nombres y lugares de la fuente (Okafor, Tigray, Maranello) salen fonéticos. Inútil para verificación de hechos contra una transcripción.
  3. 3Momentos extraoficiales terminan en la misma transcripción que material citable — sin forma de marcar una región como redactada.

Qué activar aquí

  1. 1Si tu grabadora de mano escribe un WAV de dos canales (un micrófono por pista), carga ese archivo directamente. Detectamos por canal y saltamos la diarización completamente.
  2. 2Pega tus notas de preparación — nombres de fuentes, organizaciones, nombres de lugares — en Vocabulario personalizado en el formulario de trabajo. El reconocedor los trata como sustantivos propios conocidos.
  3. 3Después de que llega la transcripción, marca una región como extraoficial en el editor. Se exporta como `[REDACTED 14:22–15:08]` en DOCX y TXT, con el audio de origen eliminado en 24 horas de todas formas.

Configuración de trabajo recomendada para entrevistas

Carga un archivo de entrevista y estas se activan por defecto. Anúlalas por trabajo desde el formulario.

Diarización
Por canal si estéreo · acústica si no
Modelo de hablante
Entrevista · 2–4 hablantes
Idioma
Detección automática · cambio de código activado
Palabras de relleno
Mantenidas (modo verbatim)
Resumen
Citas clave + índice de temas
Exportación
DOCX con marcas de tiempo · TXT simple · JSON

Accuracy · real-world numbers

96% con un buen micrófono de solapa. Legible incluso en una grabación en una cafetería.

La precisión de entrevista está limitada por lo que el micrófono realmente escuchó. Micrófono para cuerpo estéreo en cada hablante es el límite; un teléfono sobre una mesa ruidosa es el piso. Los números a continuación provienen de archivos de entrevista en producción, no de puntos de referencia sintéticos.

96%
Dos micrófonos de solapa · silencio de estudio

Un micrófono por hablante, canales separados (Zoom H5/H6, Tascam DR-40). La diarización es trivial — el error es solo en el texto.

94%
Grabadora de mano sobre la mesa

Condensador único entre dos hablantes, sala silenciosa. La diarización acústica separa voces confiablemente bajo 4 pies.

90%
Nota de voz del teléfono · cercana

Nota de voz de iPhone o Pixel sobre la mesa. Los nombres y números a veces se pierden; el ritmo es bueno para citar.

84%
Grabación de campo · cafetería o calle

Máquinas de espresso, tráfico, terceras voces cercanas. Peor caso en nuestros datos — útil para navegación, verifica citas contra el audio.

Preguntas comunes

8 cosas que la gente pregunta sobre transcripción de entrevistas.

01¿Puedo usar estas transcripciones en un artículo publicado sin verificar contra el audio?+
Para citas directas — no, siempre verifica contra el audio. Las transcripciones IA al 94% de precisión aún leen mal una palabra de cada 17 en promedio, y la palabra incorrecta en una cita es una corrección. La transcripción es para navegación y redacción; el audio es la fuente de verdad.
02Mi grabadora guardó un WAV estéreo con un micrófono por hablante. ¿Qué hago?+
Carga ese archivo directamente — no lo conviertas a mono primero. Detectamos los dos canales y enrutamos cada uno a su propia pista de diarización, que es la ruta de mayor precisión que tenemos. Espera 96%+ en una sala silenciosa.
03¿Qué tal las entrevistas grabadas en una llamada telefónica?+
El audio telefónico es de banda estrecha 8 kHz, que limita la precisión alrededor del 88% incluso en una línea limpia. Aun así dividimos a los dos participantes usando separación de canal si tu aplicación grabadora los capturó por separado (la mayoría lo hace). Las llamadas VoIP por WhatsApp o Signal suenan un poco mejor que PSTN.
04¿Puedo redactar secciones extraoficiales antes de compartir la transcripción?+
Sí. En el editor, selecciona el rango de tiempo y marcalo `[REDACTED]`. La exportación reemplaza el texto con un marcador de redacción pero mantiene las marcas de tiempo para que el documento siga rastreando el audio.
05¿Entrenan modelos con mis grabaciones de entrevista?+
No. El audio de origen se elimina de nuestra infraestructura dentro de 24 horas después de completarse, y no usamos grabaciones de clientes para entrenamiento de modelos bajo ningún plan. El texto de transcripción permanece en tu cuenta hasta que lo elimines.
06Tres o cuatro personas en una entrevista de panel — ¿la diarización sigue funcionando?+
Hasta aproximadamente seis voces distintas, sí, pero la precisión en la asignación de hablantes disminuye con cada persona agregada y empeora cuando dos hablantes suenan similares. Planifica un pase de renombrado de 2–3 minutos después de que llegue la transcripción.
07¿Pueden transcribir entrevistas en idiomas que no sean inglés?+
99 idiomas, detectados automáticamente. El cambio de código (fuente en inglés deslizándose al español a mitad de la oración) se maneja en 12 pares de idiomas. La precisión varía según el idioma — los idiomas europeos coinciden con el inglés; los idiomas africanos y de Asia Central con pocos recursos son 5–10 puntos más bajos.
08Grabo en una llamada de Zoom — ¿debería usar tu página de Zoom en su lugar?+
Mismo motor, mismo resultado. La página de Zoom cubre especificidades de grabación en nube (audio por participante, degradación de marcado). Si estás conduciendo una entrevista a la vez por Zoom, cualquiera de los dos caminos funciona — carga el MP4 aquí y las etiquetas de hablante salen igual.

Carga tu grabación de entrevista. Ve qué sale.

30 minutos gratis cada mes. Sin tarjeta. Etiquetas de hablante, 99 idiomas, todas las exportaciones incluidas.

Comenzar gratis