Transcribe archivos de audio hasta 10 horas — audio largo a texto, sin tiempo límite

Transcribe archivos de audio largo.Hasta 10 horas. Sin espera.

Carga un archivo de audio largo — hasta 10 horas, 5 GB en Business. Segmentamos en paralelo, mantenemos los identificadores de locutor consistentes de principio a fin, y te devolvemos una transcripción en lugar de una carpeta numerada.

Suelta tu audio o vídeo

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Graba directamente desde tu navegador

Registrarse lleva 30 segundos — la grabación se abre justo después, en el panel.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTLos archivos se eliminan automáticamente en 24 h

Horas dentro. Archivo limpio afuera.

La mayoría de herramientas agota el tiempo alrededor de los 90 minutos o dividen tu grabación larga en parciales numerados que tienes que unir. Segmentamos en ventanas superpuestas de 12 minutos, procesamos en paralelo, y reensamblamos con un pase global de locutor.

Sesión de estrategia de juntaREC 3 locutores · 5:14:22 · 3.1 GB

auto-detectado en-GB44.1 kHz estéreo · 192 kbps

~90s

Transcripción · archivo único92% de precisión · t=3:14:08

Llevamos tres horas — volvamos al punto de la cadena de suministro de la sesión matutina.

Claro, el cambio de fabricación a Vietnam. Creo que pasamos por alto el riesgo de tiempo de entrega.

Los tiempos de entrega pasaron de 14 a 31 días después del cambio arancelario.

Y eso es antes de considerar la congestión portuaria en Long Beach.

92% en el archivo completo de 5hDOCX · SRT · TXT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Resumen 5Transcripción 1,420Hablantes 2Exportaciones

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Puntos clave

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Elementos de acción

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Option 01

Otter Pro

Limita archivos largos a 4 horas por grabación. Los identificadores de locutor se desplazan después de las 2 horas.

Longitud máxima de archivo4 horas (nivel Pro)

Tamaño máximo de archivo~1.5 GB de carga

Identificadores de locutor de principio a finSe desplazan después de 2 horas

Salida de archivo largoDocumento único, truncado en el límite

Costo$16.99/usuario/mes

Carga reanudableNo

Best forReuniones cortas menores a 2 horas. Se desmorona en grabaciones de día completo.

Option 02

Transcription.Solutions

10 horas por archivo. Segmentación paralela, pase global de locutor, un DOCX de salida.

Longitud máxima de archivo10 horas (Pro y Business)

Tamaño máximo de archivo2 GB Pro · 5 GB Business

Identificadores de locutor de principio a finPase de embedding global

Salida de archivo largoArchivo único · DOCX/SRT/TXT

Costo · por minuto$0.03 planos independientemente de la longitud

Carga reanudableMultiparte, sobrevive caídas

Best forTalleres de día completo, deposiciones, reuniones de junta, historias orales — cualquier cosa más allá de la barrera de 90 minutos.

Option 03

Whisper API + DIY chunking

La más barata por minuto. Construyes el chunker, la costura de locutor, y la lógica de reintento.

Longitud máxima de archivo25 MB por solicitud (~25 min)

Tamaño máximo de archivoLímite duro de 25 MB

Identificadores de locutor de principio a finNinguno — sin diarización

Salida de archivo largoParciales numerados, tú unes

Costo · por minuto$0.006 (OpenAI Whisper)

Tiempo de ingenieríaHoras a días por pipeline

Best forIngenieros que quieren texto sin procesar por chunk y no necesitan locutores, resúmenes, o una salida única.

Precios y límites precisos a partir de mayo de 2026. Límite de longitud de Otter Pro verificado por última vez en su página de precios pública.

92% se mantiene en un archivo de 5 horas. La calidad permanece plana hora tras hora.

Lo difícil con audio largo no es el modelo — es mantener la precisión plana de minuto 1 a minuto 600. La desviación de locutor y los errores de límite de chunk son lo que mata la mayoría de pipelines. Los números a continuación se miden en archivos de cliente de longitud completa, no en los primeros 10 minutos.

8 cosas que la gente pregunta sobre transcripción de audio largo.

01¿Cuál es el límite real de longitud y tamaño de archivo?+

10 horas por archivo en Pro y Business. Pro limita el tamaño de archivo a 2 GB, Business a 5 GB. Si tienes algo más largo que 10 horas, divídelo una vez en una pausa natural — mantendremos los IDs de locutor consistentes si los cargas uno después del otro en el mismo proyecto.

02¿Obtengo una transcripción o una carpeta de parciales numerados?+

Un archivo. Siempre. DOCX, SRT, TXT, o JSON — tu elección. Los timestamps corren continuamente de 00:00:00 al final de la grabación, no reinician en cada límite de chunk.

03¿Cuánto tiempo tarda en regresar un archivo de 6 horas?+

Aproximadamente 18-25 minutos en la cola Pro, 8-12 en prioridad Business. Procesamos los chunks de 12 minutos en paralelo, por lo que el tiempo de reloj se escala de forma sublineal con la longitud del archivo, no minuto a minuto.

04¿Los IDs de locutor permanecen consistentes de principio a fin?+

Sí. Después de diarización por chunk, un pase de embedding global agrupa voces en todo el archivo. Locutor 3 en minuto 12 es el mismo Locutor 3 en minuto 487. Esto es lo principal que los pipelines DIY de Whisper se equivocan.

05¿Qué sucede si mi carga se cae a la hora 3 de un archivo de 4 GB?+

La carga multiparte reanudable se reanuda desde la última parte completada. No recarga los primeros 3 GB. Funciona en Wi-Fi de hotel inestable y tethering celular — probamos ambos.

06¿Por qué la API de Whisper se atraganta con archivos largos?+

El endpoint de Whisper de OpenAI tiene un límite duro de 25 MB por solicitud — aproximadamente 25 minutos de audio comprimido. Cualquier cosa más larga requiere que hagas chunking, transcriba en paralelo, luego cose transcripciones y alinee los locutores tú mismo. Hacemos todo eso del lado del servidor.

07¿Es el precio por minuto el mismo en un archivo de 10 horas que en un archivo de 10 minutos?+

Sí. $0.03 por minuto plano, independientemente de la longitud. Un archivo de 10 horas cuesta $18. No aplicamos sobrecargo a archivos largos como lo hace Rev ($1.50/min humano × 10 horas = $900).

08¿Puedo obtener marcadores de capítulo o timestamps cada hora?+

Activa 'Marcadores de hora' en el formulario de trabajo y el DOCX exporta con una pausa de encabezado cada 60 minutos. SRT mantiene código de tiempo continuo. JSON tiene ambos — matriz de capítulos más timestamps de nivel de palabra.

Transcribe archivos de audio largo.Hasta 10 horas. Sin espera.

Suelta tu audio o vídeo

Paste a link, we’ll fetch the audio

Graba directamente desde tu navegador

Horas dentro. Archivo limpio afuera.

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Otter Pro. Chunking DIY con Whisper. O nosotros.

Otter Pro

Transcription.Solutions

Whisper API + DIY chunking

Tres formas en que las herramientas genéricas mueren después de los 90 minutos.

Qué sale mal

Qué cambiar aquí

Configuración de trabajo recomendada para archivos largos

92% se mantiene en un archivo de 5 horas. La calidad permanece plana hora tras hora.

8 cosas que la gente pregunta sobre transcripción de audio largo.

Carga tu archivo largo. Obtén una transcripción de regreso.