Transcripción de entrevistas — transcribe entrevistas con identificación de hablantes y marcas de tiempo

Transcripción de entrevistas.Diferentes grabaciones, mismo resultado.

Nota de voz, llamada Zoom, micrófono de solapa, o grabadora de mano — carga la grabación de entrevista y obtén texto etiquetado por hablante, con marcas de tiempo, que puedes citar.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

Dos voces entra. Dos voces salen, etiquetadas.

La mayoría de las entrevistas son dos personas en un dispositivo — un teléfono sobre la mesa, una grabadora entre ustedes. Separamos el audio de entrevista en reportero y fuente incluso de un solo canal mono, luego marcamos cada turno con marcas de tiempo para citas.

Grabadora de mano · WAVREC 2 hablantes · 38:42

detectado automáticamente en-US48 kHz mono · 1411 kbps

~90s

Transcripción · streaming94% de precisión

¿Puedes recorrer conmigo qué viste la mañana del dieciocho?

Llegué alrededor de las seis. La puerta del muelle de carga ya estaba abierta, lo que no debería haber sucedido.

Y habías reportado el problema de la puerta antes — ¿a quién?

A Diane Okafor en facilidades, dos veces en marzo. Tengo los correos.

94% en WAV de campoDOCX · TXT · SRT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2Exports

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Action items

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Option 01

Transcripción humana de Rev

Personas reales escribiendo tu entrevista. Lo mejor para audio hostil, pero esperas y pagas.

Tiempo de entrega12–24 horas típico

Precisión en audio limpio99% (afirmado)

Etiquetas de hablanteManual, incluido

IdiomasEN humano · 30+ IA

Costo · por minuto$1.50 humano · $0.25 IA

PrivacidadAudio enviado a contratistas

Best forEntrevistas para procedimientos judicales o críticas para publicación, en audio pobre, donde necesitas revisión humana y tienes tiempo de espera.

Option 02

Transcription.Solutions

Transcripción IA, separados por hablante, listo en minutos. Mismo motor para nota de voz, Zoom, o grabadora de mano.

Tiempo de entrega~3 minutos por hora de audio

Precisión en audio limpio94–96%

Etiquetas de hablanteAutomático · renombra en editor

Idiomas99, detectado automáticamente

Costo · por minuto$0.03

PrivacidadAudio eliminado en 24h · sin entrenamiento

Best forPeriodistas, investigadores y productores que hacen múltiples entrevistas a la semana y necesitan texto rápido y citable sin enviar a contratistas.

Option 03

Otter / Trint

Transcripción IA con editor orientado a investigación. Fuerte en inglés, limitado a planes mensuales.

Tiempo de entregaTiempo real a ~5 minutos

Precisión en audio limpio~90–93%

Etiquetas de hablanteSí · ajustado a EN

IdiomasOtter solo EN · Trint 30+

Costo$17–80/usuario/mes (suscripción)

PrivacidadAlmacenado en cuenta por defecto

Best forEquipos que quieren una biblioteca alojada de cada entrevista grabada y no les importa una tarifa de asiento mensual por usuario.

Precios y banderas de características exactos a partir de 2026. El tiempo de entrega humano de Rev varía según la profundidad de la cola y la duración del audio.

96% con un buen micrófono de solapa. Legible incluso en una grabación en una cafetería.

La precisión de entrevista está limitada por lo que el micrófono realmente escuchó. Micrófono para cuerpo estéreo en cada hablante es el límite; un teléfono sobre una mesa ruidosa es el piso. Los números a continuación provienen de archivos de entrevista en producción, no de puntos de referencia sintéticos.

8 cosas que la gente pregunta sobre transcripción de entrevistas.

01¿Puedo usar estas transcripciones en un artículo publicado sin verificar contra el audio?+

Para citas directas — no, siempre verifica contra el audio. Las transcripciones IA al 94% de precisión aún leen mal una palabra de cada 17 en promedio, y la palabra incorrecta en una cita es una corrección. La transcripción es para navegación y redacción; el audio es la fuente de verdad.

02Mi grabadora guardó un WAV estéreo con un micrófono por hablante. ¿Qué hago?+

Carga ese archivo directamente — no lo conviertas a mono primero. Detectamos los dos canales y enrutamos cada uno a su propia pista de diarización, que es la ruta de mayor precisión que tenemos. Espera 96%+ en una sala silenciosa.

03¿Qué tal las entrevistas grabadas en una llamada telefónica?+

El audio telefónico es de banda estrecha 8 kHz, que limita la precisión alrededor del 88% incluso en una línea limpia. Aun así dividimos a los dos participantes usando separación de canal si tu aplicación grabadora los capturó por separado (la mayoría lo hace). Las llamadas VoIP por WhatsApp o Signal suenan un poco mejor que PSTN.

04¿Puedo redactar secciones extraoficiales antes de compartir la transcripción?+

Sí. En el editor, selecciona el rango de tiempo y marcalo `[REDACTED]`. La exportación reemplaza el texto con un marcador de redacción pero mantiene las marcas de tiempo para que el documento siga rastreando el audio.

05¿Entrenan modelos con mis grabaciones de entrevista?+

No. El audio de origen se elimina de nuestra infraestructura dentro de 24 horas después de completarse, y no usamos grabaciones de clientes para entrenamiento de modelos bajo ningún plan. El texto de transcripción permanece en tu cuenta hasta que lo elimines.

06Tres o cuatro personas en una entrevista de panel — ¿la diarización sigue funcionando?+

Hasta aproximadamente seis voces distintas, sí, pero la precisión en la asignación de hablantes disminuye con cada persona agregada y empeora cuando dos hablantes suenan similares. Planifica un pase de renombrado de 2–3 minutos después de que llegue la transcripción.

07¿Pueden transcribir entrevistas en idiomas que no sean inglés?+

99 idiomas, detectados automáticamente. El cambio de código (fuente en inglés deslizándose al español a mitad de la oración) se maneja en 12 pares de idiomas. La precisión varía según el idioma — los idiomas europeos coinciden con el inglés; los idiomas africanos y de Asia Central con pocos recursos son 5–10 puntos más bajos.

08Grabo en una llamada de Zoom — ¿debería usar tu página de Zoom en su lugar?+

Mismo motor, mismo resultado. La página de Zoom cubre especificidades de grabación en nube (audio por participante, degradación de marcado). Si estás conduciendo una entrevista a la vez por Zoom, cualquiera de los dos caminos funciona — carga el MP4 aquí y las etiquetas de hablante salen igual.

Transcripción de entrevistas.Diferentes grabaciones, mismo resultado.

Drop a file, or pick one

Paste a link, we’ll fetch the audio

Record straight from your browser

Dos voces entra. Dos voces salen, etiquetadas.

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Rev humano. Otter o Trint. O nosotros.

Transcripción humana de Rev

Transcription.Solutions

Otter / Trint

Tres cosas que afectan a la gente con herramientas de transcripción genéricas.

Qué sale mal

Qué activar aquí

Configuración de trabajo recomendada para entrevistas

96% con un buen micrófono de solapa. Legible incluso en una grabación en una cafetería.

8 cosas que la gente pregunta sobre transcripción de entrevistas.

Carga tu grabación de entrevista. Ve qué sale.