Transcribe archivos de audio hasta 10 horas — audio largo a texto, sin timeout

Transcribe archivos de audio largo.Hasta 10 horas. Sin timeout.

Sube un archivo de audio largo — hasta 10 horas, 5 GB en Business. Dividimos en paralelo, mantenemos consistentes los IDs de hablante de principio a fin, y devolvemos un solo transcript en lugar de una carpeta numerada.

Suelta tu audio o video

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Graba directo desde el navegador

Registrarte toma 30 segundos — la grabación se abre justo después, en el dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTLos archivos se borran solos en 24h

Horas adentro. Un archivo limpio a la salida.

La mayoría de herramientas expiran alrededor de los 90 minutos o dividen tu grabación larga en partes numeradas que tienes que unir. Dividimos en ventanas solapadas de 12 minutos, procesamos en paralelo, y reensamblamos con un paso global de hablante.

Sesión de estrategia de junta directivaREC 3 hablantes · 5:14:22 · 3.1 GB

detectado automáticamente en-GB44.1 kHz estéreo · 192 kbps

~90s

Transcript · archivo único92% precisión · t=3:14:08

Tres horas dentro — volvamos al punto de la cadena de suministro de la sesión de la mañana.

Correcto, el giro de manufactura en Vietnam. Creo que pasamos rápido el riesgo de lead-time.

Los lead-times fueron de 14 a 31 días después del cambio arancelario.

Y eso es antes de que consideremos la congestión portuaria en Long Beach.

92% a lo largo del archivo de 5h completoDOCX · SRT · TXT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Resumen 5Transcripción 1,420Hablantes 2Exports

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Puntos clave

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Tareas

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Option 01

Otter Pro

Limita archivos largos a 4 horas por grabación. Las etiquetas de hablante se deslizan después de la marca de 2 horas.

Longitud máxima de archivo4 horas (Pro tier)

Tamaño máximo de archivo~1.5 GB de carga

IDs de hablante de principio a finSe deslizan después de 2 horas

Salida para archivo largoDocumento único, truncado en límite

Costo$16.99/usuario/mes

Carga reanudableNo

Best forReuniones cortas menores de 2 horas. Falla en grabaciones de día completo.

Option 02

Transcription.Solutions

10 horas por archivo. División en paralelo, paso global de hablante, un DOCX afuera.

Longitud máxima de archivo10 horas (Pro & Business)

Tamaño máximo de archivo2 GB Pro · 5 GB Business

IDs de hablante de principio a finPaso de embedding global

Salida para archivo largoArchivo único · DOCX/SRT/TXT

Costo · por minuto$0.03 fijo sin importar la longitud

Carga reanudableMultiparte, resiste desconexiones

Best forTalleres de día completo, deposiciones, reuniones de junta, historias orales — cualquier cosa más allá de la barrera de 90 minutos.

Option 03

Whisper API + DIY chunking

Más barato por minuto. Tú construyes el divisor, la unión de hablantes, y la lógica de reintento.

Longitud máxima de archivo25 MB por solicitud (~25 min)

Tamaño máximo de archivoLímite duro de 25 MB

IDs de hablante de principio a finNinguno — sin diarización

Salida para archivo largoPartes numeradas, tú unes

Costo · por minuto$0.006 (OpenAI Whisper)

Tiempo de ingenieríaHoras a días por pipeline

Best forIngenieros que quieren texto sin procesar por fragmento y no necesitan hablantes, resúmenes, o salida única.

Precios y límites precisos a partir de mayo de 2026. El límite de longitud de Otter Pro se verificó recientemente en su página de precios pública.

92% se mantiene en un archivo de 5 horas. La calidad se mantiene plana hora tras hora.

La parte difícil con audio largo no es el modelo — es mantener la precisión plana del minuto 1 al minuto 600. El desplazamiento de hablante y errores de límite de fragmento son lo que mata la mayoría de pipelines. Los números de abajo se miden en archivos de clientes de longitud completa, no en los primeros 10 minutos.

8 cosas que la gente pregunta sobre transcripción de audio largo.

01¿Cuál es el límite real de longitud y tamaño de archivo?+

10 horas por archivo en Pro y Business. Pro limita el tamaño de archivo a 2 GB, Business a 5 GB. Si tienes algo más largo que 10 horas, divídelo una vez en un corte natural — mantendremos consistentes los IDs de hablante si los cargas seguidos en el mismo proyecto.

02¿Obtengo un transcript o una carpeta de partes numeradas?+

Un archivo. Siempre. DOCX, SRT, TXT, o JSON — tu elección. Las marcas de tiempo corren continuamente de 00:00:00 al final de la grabación, no se reinician en cada límite de fragmento.

03¿Cuánto tiempo tarda un archivo de 6 horas en regresar?+

Aproximadamente 18-25 minutos en la cola de Pro, 8-12 en prioridad de Business. Procesamos los fragmentos de 12 minutos en paralelo, así que el tiempo de reloj escala sublinealmente con la longitud del archivo, no minuto a minuto.

04¿Los IDs de hablante permanecen consistentes de principio a fin?+

Sí. Después de la diarización por fragmento, un paso de embedding global agrupa voces en todo el archivo. Hablante 3 en el minuto 12 es el mismo Hablante 3 en el minuto 487. Esto es lo principal que los pipelines DIY de Whisper hacen mal.

05¿Qué sucede si mi carga se cae en la hora 3 de un archivo de 4 GB?+

La carga multiparte reanudable retoma desde la última parte completada. No recarga los primeros 3 GB. Funciona en Wi-Fi de hotel inestable y tethering celular — probamos ambos.

06¿Por qué Whisper API ahoga archivos largos?+

El punto de acceso Whisper de OpenAI tiene un límite duro de 25 MB por solicitud — aproximadamente 25 minutos de audio comprimido. Cualquier cosa más larga requiere que dividas, transcriba en paralelo, y luego alinee transcripts y alinea hablantes tú mismo. Hacemos todo eso del lado del servidor.

07¿El precio por minuto es el mismo en un archivo de 10 horas que en uno de 10 minutos?+

Sí. $0.03 por minuto plano, sin importar la longitud. Un archivo de 10 horas cuesta $18. No cobramos más en archivos largos de la forma que Rev hace ($1.50/min humano × 10 horas = $900).

08¿Puedo obtener marcadores de capítulo o marcas de tiempo cada hora?+

Activa 'Marcadores de hora' en el formulario de trabajo y el DOCX exporta con un salto de encabezado cada 60 minutos. SRT mantiene código de tiempo continuo. JSON tiene ambos — matriz de capítulos más marcas de tiempo de nivel de palabra.

Transcribe archivos de audio largo.Hasta 10 horas. Sin timeout.

Suelta tu audio o video

Paste a link, we’ll fetch the audio

Graba directo desde el navegador

Horas adentro. Un archivo limpio a la salida.

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Otter Pro. DIY Whisper chunking. O nosotros.

Otter Pro

Transcription.Solutions

Whisper API + DIY chunking

Tres formas en que las herramientas genéricas mueren después de la marca de 90 minutos.

Lo que sale mal

Lo que hay que cambiar aquí

Configuración de trabajo recomendada para archivos largos

92% se mantiene en un archivo de 5 horas. La calidad se mantiene plana hora tras hora.

8 cosas que la gente pregunta sobre transcripción de audio largo.

Sube tu archivo largo. Obtén un transcript.