Transcripción de entrevistas — transcribe una entrevista con etiquetas de orador y marcas de tiempo

Transcripción de entrevistas.Diferente grabación, mismo resultado.

Nota de teléfono, llamada de Zoom, equipo de solapa, o grabadora de campo manual — suelta la grabación de entrevista y obtén texto etiquetado por orador y marcado con timestamp que puedas citar.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

Dos voces dentro. Dos voces fuera, etiquetadas.

La mayoría de las entrevistas son dos personas en un dispositivo — un teléfono sobre la mesa, una grabadora entre ustedes. Separamos el audio de entrevista en reportero y fuente incluso desde un canal mono único, luego marcamos con timestamp cada turno para cita.

Grabadora de campo · WAVREC 2 oradores · 38:42

auto-detectado en-US48 kHz mono · 1411 kbps

~90s

Transcripción · streamingPrecisión del 94%

¿Puedes caminarme a través de lo que viste la mañana del dieciocho?

Llegué alrededor de las seis. La puerta del muelle de carga ya estaba abierta, cosa que no debería haber estado.

Y habías reportado el problema de la puerta antes — ¿a quién?

A Diane Okafor en Facilidades, dos veces en marzo. Tengo los emails.

94% en campo WAVDOCX · TXT · SRT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2Exports

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Action items

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Option 01

Transcripción humana de Rev

Personas reales escribiendo tu entrevista. Mejor en audio hostil, pero esperas y pagas.

Tiempo de entrega12–24 horas típico

Precisión en audio limpio99% (reclamado)

Etiquetas de oradorManual, incluido

IdiomasEN humano · 30+ IA

Costo · por minuto$1.50 humano · $0.25 IA

PrivacidadAudio enviado a contratistas

Best forEntrevistas destinadas a juzgado o críticas para publicación en audio malo donde necesitas un oído humano y tienes un día para esperar.

Option 02

Transcription.Solutions

Transcripción de IA, división de oradores, lista en minutos. Mismo motor para nota de teléfono, Zoom, o grabadora de campo.

Tiempo de entrega~3 min por hora de audio

Precisión en audio limpio94–96%

Etiquetas de oradorAuto · renombra en editor

Idiomas99, auto-detectado

Costo · por minuto$0.03

PrivacidadAudio borrado en 24h · sin entrenamiento

Best forPeriodistas, investigadores y productores haciendo múltiples entrevistas por semana que necesitan texto rápido y citable sin cargar a un contratista.

Option 03

Otter / Trint

Transcripción de IA con editor orientado a la investigación. Fuerte en inglés, bloqueado a planes mensuales.

Tiempo de entregaTiempo real a ~5 min

Precisión en audio limpio~90–93%

Etiquetas de oradorSí · ajustado a EN

IdiomasOtter solo EN · Trint 30+

Costo$17–80/usuario/mes (suscripción)

PrivacidadAlmacenado en cuenta por defecto

Best forEquipos que quieren una biblioteca alojada de cada entrevista jamás grabada y no les importa una tarifa de asiento mensual por usuario.

Precios y banderas de características precisos a partir de 2026. El tiempo de entrega de Rev humano varía según la profundidad de la cola y la duración del audio.

96% en una buena solapa. Todavía legible en una grabación de café.

La precisión de la entrevista está limitada por lo que el micrófono realmente escuchó. La captura cercana estéreo en cada orador es el techo; un teléfono sentado en una mesa ruidosa es el piso. Los números abajo vienen de archivos de entrevista de producción, no puntos de referencia sintéticos.

8 cosas que las personas preguntan sobre transcripción de entrevistas.

01¿Puedo usar estas transcripciones en un artículo publicado sin verificar contra el audio?+

Para citas directas — no, siempre verifica contra el audio. Las transcripciones de IA al 94% de precisión siguen leyendo erróneamente una palabra de cada 17 en promedio, y la palabra incorrecta en una cita es una corrección. La transcripción es para navegación y borrador; el audio es la fuente de verdad.

02Mi grabadora guardó un WAV estéreo con un micrófono por orador. ¿Qué hago?+

Carga ese archivo directamente — no lo conviertas a mono primero. Detectamos los dos canales y enrutamos cada uno a su propia pista de diarización, que es la ruta de mayor precisión que tenemos. Espera 96%+ en una sala silenciosa.

03¿Qué hay de las entrevistas grabadas sobre una llamada telefónica?+

El audio telefónico es de 8 kHz de banda estrecha, que limita la precisión a alrededor del 88% incluso en una línea limpia. Aún dividimos a los dos partidos usando separación de canal si tu aplicación de grabadora los capturó por separado (la mayoría lo hace). Las llamadas VoIP sobre WhatsApp o Signal suenan un poco mejor que PSTN.

04¿Puedo redactar secciones fuera del récord antes de compartir la transcripción?+

Sí. En el editor, selecciona el rango de timestamp y márcalo `[REDACTED]`. La exportación reemplaza el texto con un marcador de redacción pero mantiene los timestamps para que el documento siga rastreando el audio.

05¿Entrenan modelos en mis grabaciones de entrevista?+

No. El audio fuente se elimina de nuestra infraestructura dentro de 24 horas de completarse, y no usamos grabaciones de cliente para entrenamiento de modelos bajo ningún plan. El texto de la transcripción permanece en tu cuenta hasta que lo elimines.

06Tres o cuatro personas en una entrevista de panel — ¿la diarización sigue funcionando?+

Hasta aproximadamente seis voces distintas, sí, pero la precisión en la asignación de orador disminuye con cada persona agregada y empeora cuando dos oradores suenan similares. Planifica una pasada de renombre de 2–3 minutos en los chips de orador después de que la transcripción llegue.

07¿Puedes transcribir entrevistas en idiomas distintos al inglés?+

99 idiomas, auto-detectado. El cambio de código (fuente inglesa deslizándose al español a mitad de oración) se maneja en 12 pares de idiomas. La precisión varía por idioma — los lenguajes europeos coinciden con inglés; los idiomas africanos y de Asia central de bajo recurso funcionan 5–10 puntos más bajos.

08Grabo en una llamada de Zoom — ¿debería usar tu página de Zoom en su lugar?+

Mismo motor, mismo resultado. La página de Zoom cubre especificidades de grabación en la nube (audio por participante, degradación de marcación). Si estás dirigiendo una entrevista a la vez sobre Zoom, cualquier camino funciona — suelta el MP4 aquí y las etiquetas de orador salen igual.

Transcripción de entrevistas.Diferente grabación, mismo resultado.

Drop a file, or pick one

Paste a link, we’ll fetch the audio

Record straight from your browser

Dos voces dentro. Dos voces fuera, etiquetadas.

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Rev humano. Otter o Trint. O nosotros.

Transcripción humana de Rev

Transcription.Solutions

Otter / Trint

Tres cosas que muerden a las personas en herramientas genéricas de transcripción.

Qué sale mal

Qué girar aquí

Configuración de trabajo recomendada para entrevistas

96% en una buena solapa. Todavía legible en una grabación de café.

8 cosas que las personas preguntan sobre transcripción de entrevistas.

Suelta tu grabación de entrevista. Mira qué sale.