Transcripción de entrevistas.Diferente grabación, mismo resultado.

Nota de teléfono, llamada de Zoom, equipo de solapa, o grabadora de campo manual — suelta la grabación de entrevista y obtén texto etiquetado por orador y marcado con timestamp que puedas citar.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Mira qué sale

Dos voces dentro. Dos voces fuera, etiquetadas.

La mayoría de las entrevistas son dos personas en un dispositivo — un teléfono sobre la mesa, una grabadora entre ustedes. Separamos el audio de entrevista en reportero y fuente incluso desde un canal mono único, luego marcamos con timestamp cada turno para cita.

Grabadora de campo · WAVREC 2 oradores · 38:42
auto-detectado en-US48 kHz mono · 1411 kbps
~90s
Transcripción · streamingPrecisión del 94%
S1

¿Puedes caminarme a través de lo que viste la mañana del dieciocho?

S2

Llegué alrededor de las seis. La puerta del muelle de carga ya estaba abierta, cosa que no debería haber estado.

S1

Y habías reportado el problema de la puerta antes — ¿a quién?

S2

A Diane Okafor en Facilidades, dos veces en marzo. Tengo los emails.

94% en campo WAVDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tres opciones reales · comparación honesta

Rev humano. Otter o Trint. O nosotros.

Rev envía tu audio a transcriptores humanos — lento y caro pero alta fidelidad en audio difícil. Otter y Trint son AI-first como nosotros, ajustados para periodistas e investigadores. Aquí está dónde encaja cada uno.

Option 01

Transcripción humana de Rev

Personas reales escribiendo tu entrevista. Mejor en audio hostil, pero esperas y pagas.

Tiempo de entrega12–24 horas típico
Precisión en audio limpio99% (reclamado)
Etiquetas de oradorManual, incluido
IdiomasEN humano · 30+ IA
Costo · por minuto$1.50 humano · $0.25 IA
PrivacidadAudio enviado a contratistas
Best forEntrevistas destinadas a juzgado o críticas para publicación en audio malo donde necesitas un oído humano y tienes un día para esperar.
Option 02

Transcription.Solutions

Transcripción de IA, división de oradores, lista en minutos. Mismo motor para nota de teléfono, Zoom, o grabadora de campo.

Tiempo de entrega~3 min por hora de audio
Precisión en audio limpio94–96%
Etiquetas de oradorAuto · renombra en editor
Idiomas99, auto-detectado
Costo · por minuto$0.03
PrivacidadAudio borrado en 24h · sin entrenamiento
Best forPeriodistas, investigadores y productores haciendo múltiples entrevistas por semana que necesitan texto rápido y citable sin cargar a un contratista.
Option 03

Otter / Trint

Transcripción de IA con editor orientado a la investigación. Fuerte en inglés, bloqueado a planes mensuales.

Tiempo de entregaTiempo real a ~5 min
Precisión en audio limpio~90–93%
Etiquetas de oradorSí · ajustado a EN
IdiomasOtter solo EN · Trint 30+
Costo$17–80/usuario/mes (suscripción)
PrivacidadAlmacenado en cuenta por defecto
Best forEquipos que quieren una biblioteca alojada de cada entrevista jamás grabada y no les importa una tarifa de asiento mensual por usuario.

Precios y banderas de características precisos a partir de 2026. El tiempo de entrega de Rev humano varía según la profundidad de la cola y la duración del audio.

Específico para entrevistas

Tres cosas que muerden a las personas en herramientas genéricas de transcripción.

El audio de la entrevista rara vez está limpio. Gira estas configuraciones y la transcripción se mantiene firme en la cita.

Qué sale mal

  1. 1Diálogo superpuesto en un canal único. Cuando tu fuente se vuelve enfática y habla sobre tu pregunta, la diarización genérica fusiona ambas en un bloque de orador.
  2. 2Nombres de fuentes y lugares (Okafor, Tigray, Maranello) vienen fonéticos. Inútil para verificar hechos contra una transcripción.
  3. 3Momentos fuera del récord terminan en la misma transcripción que el material citable — ninguna manera de marcar una región como redactada.

Qué girar aquí

  1. 1Si tu grabadora de campo escribe un WAV de dos canales (un micrófono por pista), carga ese archivo directamente. Detectamos por canal y saltamos la diarización completamente.
  2. 2Pega tus notas de preparación — nombres de fuentes, organizaciones, nombres de lugares — en Vocabulario personalizado en el formulario de trabajo. El reconocedor los trata como sustantivos propios conocidos.
  3. 3Después de que la transcripción llegue, marca una región como fuera del récord en el editor. Exporta como `[REDACTED 14:22–15:08]` en DOCX y TXT, con el audio fuente eliminado en 24 horas sin importar qué.

Configuración de trabajo recomendada para entrevistas

Suelta un archivo de entrevista y estos se activan por defecto. Anula por trabajo desde el formulario.

Diarización
Por canal si es estéreo · acústico en otro caso
Modelo de orador
Entrevista · 2–4 oradores
Idioma
Auto-detectar · cambio de código activado
Palabras de relleno
Mantenido (modo verbatim)
Resumen
Citas clave + índice de temas
Exportación
DOCX con timestamps · TXT plano · JSON

Accuracy · real-world numbers

96% en una buena solapa. Todavía legible en una grabación de café.

La precisión de la entrevista está limitada por lo que el micrófono realmente escuchó. La captura cercana estéreo en cada orador es el techo; un teléfono sentado en una mesa ruidosa es el piso. Los números abajo vienen de archivos de entrevista de producción, no puntos de referencia sintéticos.

96%
Doble solapa · silencio de estudio

Un micrófono por orador, canales separados (Zoom H5/H6, Tascam DR-40). La diarización es trivial — el error es solo texto.

94%
Grabadora manual sobre la mesa

Condensador único entre dos oradores, sala silenciosa. La diarización acústica separa las voces de manera confiable bajo 4 pies.

90%
Nota de voz del teléfono · cerca

Nota de voz de iPhone o Pixel sobre la mesa. Nombres y números ocasionalmente faltan; la cadencia es buena para citar.

84%
Grabación de campo · café o calle

Máquinas de espresso, tráfico, terceras voces cerca. Peor caso en nuestros datos — usable para navegación, verifica citas contra el audio.

Preguntas comunes

8 cosas que las personas preguntan sobre transcripción de entrevistas.

01¿Puedo usar estas transcripciones en un artículo publicado sin verificar contra el audio?+
Para citas directas — no, siempre verifica contra el audio. Las transcripciones de IA al 94% de precisión siguen leyendo erróneamente una palabra de cada 17 en promedio, y la palabra incorrecta en una cita es una corrección. La transcripción es para navegación y borrador; el audio es la fuente de verdad.
02Mi grabadora guardó un WAV estéreo con un micrófono por orador. ¿Qué hago?+
Carga ese archivo directamente — no lo conviertas a mono primero. Detectamos los dos canales y enrutamos cada uno a su propia pista de diarización, que es la ruta de mayor precisión que tenemos. Espera 96%+ en una sala silenciosa.
03¿Qué hay de las entrevistas grabadas sobre una llamada telefónica?+
El audio telefónico es de 8 kHz de banda estrecha, que limita la precisión a alrededor del 88% incluso en una línea limpia. Aún dividimos a los dos partidos usando separación de canal si tu aplicación de grabadora los capturó por separado (la mayoría lo hace). Las llamadas VoIP sobre WhatsApp o Signal suenan un poco mejor que PSTN.
04¿Puedo redactar secciones fuera del récord antes de compartir la transcripción?+
Sí. En el editor, selecciona el rango de timestamp y márcalo `[REDACTED]`. La exportación reemplaza el texto con un marcador de redacción pero mantiene los timestamps para que el documento siga rastreando el audio.
05¿Entrenan modelos en mis grabaciones de entrevista?+
No. El audio fuente se elimina de nuestra infraestructura dentro de 24 horas de completarse, y no usamos grabaciones de cliente para entrenamiento de modelos bajo ningún plan. El texto de la transcripción permanece en tu cuenta hasta que lo elimines.
06Tres o cuatro personas en una entrevista de panel — ¿la diarización sigue funcionando?+
Hasta aproximadamente seis voces distintas, sí, pero la precisión en la asignación de orador disminuye con cada persona agregada y empeora cuando dos oradores suenan similares. Planifica una pasada de renombre de 2–3 minutos en los chips de orador después de que la transcripción llegue.
07¿Puedes transcribir entrevistas en idiomas distintos al inglés?+
99 idiomas, auto-detectado. El cambio de código (fuente inglesa deslizándose al español a mitad de oración) se maneja en 12 pares de idiomas. La precisión varía por idioma — los lenguajes europeos coinciden con inglés; los idiomas africanos y de Asia central de bajo recurso funcionan 5–10 puntos más bajos.
08Grabo en una llamada de Zoom — ¿debería usar tu página de Zoom en su lugar?+
Mismo motor, mismo resultado. La página de Zoom cubre especificidades de grabación en la nube (audio por participante, degradación de marcación). Si estás dirigiendo una entrevista a la vez sobre Zoom, cualquier camino funciona — suelta el MP4 aquí y las etiquetas de orador salen igual.

Suelta tu grabación de entrevista. Mira qué sale.

30 minutos gratis cada mes. Sin tarjeta. Etiquetas de orador, 99 idiomas, todas las exportaciones incluidas.

Empezar gratis