Transcribe archivos de audio largo.Hasta 10 horas. Sin timeout.

Sube un archivo de audio largo — hasta 10 horas, 5 GB en Business. Dividimos en paralelo, mantenemos consistentes los IDs de hablante de principio a fin, y devolvemos un solo transcript en lugar de una carpeta numerada.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Un archivo de 5 horas, a mitad del transcript

Horas adentro. Un archivo limpio a la salida.

La mayoría de herramientas expiran alrededor de los 90 minutos o dividen tu grabación larga en partes numeradas que tienes que unir. Dividimos en ventanas solapadas de 12 minutos, procesamos en paralelo, y reensamblamos con un paso global de hablante.

Sesión de estrategia de junta directivaREC 3 hablantes · 5:14:22 · 3.1 GB
detectado automáticamente en-GB44.1 kHz estéreo · 192 kbps
~90s
Transcript · archivo único92% precisión · t=3:14:08
S1

Tres horas dentro — volvamos al punto de la cadena de suministro de la sesión de la mañana.

S2

Correcto, el giro de manufactura en Vietnam. Creo que pasamos rápido el riesgo de lead-time.

S1

Los lead-times fueron de 14 a 31 días después del cambio arancelario.

S3

Y eso es antes de que consideremos la congestión portuaria en Long Beach.

92% a lo largo del archivo de 5h completoDOCX · SRT · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tres opciones reales · comparación honesta

Otter Pro. DIY Whisper chunking. O nosotros.

Las herramientas de consumo cierran la longitud de archivo y truncan silenciosamente. Whisper API tiene un techo de 25 MB por solicitud, así que tú construyes el divisor. Aceptamos todo el archivo de 10 horas y devolvemos un transcript.

Option 01

Otter Pro

Limita archivos largos a 4 horas por grabación. Las etiquetas de hablante se deslizan después de la marca de 2 horas.

Longitud máxima de archivo4 horas (Pro tier)
Tamaño máximo de archivo~1.5 GB de carga
IDs de hablante de principio a finSe deslizan después de 2 horas
Salida para archivo largoDocumento único, truncado en límite
Costo$16.99/usuario/mes
Carga reanudableNo
Best forReuniones cortas menores de 2 horas. Falla en grabaciones de día completo.
Option 02

Transcription.Solutions

10 horas por archivo. División en paralelo, paso global de hablante, un DOCX afuera.

Longitud máxima de archivo10 horas (Pro & Business)
Tamaño máximo de archivo2 GB Pro · 5 GB Business
IDs de hablante de principio a finPaso de embedding global
Salida para archivo largoArchivo único · DOCX/SRT/TXT
Costo · por minuto$0.03 fijo sin importar la longitud
Carga reanudableMultiparte, resiste desconexiones
Best forTalleres de día completo, deposiciones, reuniones de junta, historias orales — cualquier cosa más allá de la barrera de 90 minutos.
Option 03

Whisper API + DIY chunking

Más barato por minuto. Tú construyes el divisor, la unión de hablantes, y la lógica de reintento.

Longitud máxima de archivo25 MB por solicitud (~25 min)
Tamaño máximo de archivoLímite duro de 25 MB
IDs de hablante de principio a finNinguno — sin diarización
Salida para archivo largoPartes numeradas, tú unes
Costo · por minuto$0.006 (OpenAI Whisper)
Tiempo de ingenieríaHoras a días por pipeline
Best forIngenieros que quieren texto sin procesar por fragmento y no necesitan hablantes, resúmenes, o salida única.

Precios y límites precisos a partir de mayo de 2026. El límite de longitud de Otter Pro se verificó recientemente en su página de precios pública.

Específico para archivos largos

Tres formas en que las herramientas genéricas mueren después de la marca de 90 minutos.

La mayoría de pipelines fueron construidos para reuniones de una hora. El audio largo los rompe de formas predecibles — aquí está cómo hacemos las cosas diferente.

Lo que sale mal

  1. 1Timeout silencioso en 90 minutos. El trabajo gira durante una hora, luego muere sin un error útil. Te quedas sin nada para reintentar.
  2. 2IDs de hablante se deslizan entre fragmentos. Hablante 1 en la hora 1 se convierte en Hablante 4 en la hora 3 porque cada fragmento se diariza en aislamiento.
  3. 3La salida es una carpeta numerada. `transcript_part_01.txt` a través de `transcript_part_24.txt` con resets de marca de tiempo en cada límite de fragmento. Tú lo unes.

Lo que hay que cambiar aquí

  1. 1Carga multiparte reanudable. ¿La conexión se cae en la hora 2 de carga? Reanuda desde la última parte completada. Sin recarga de 4 GB.
  2. 2Paso global de embedding de hablante. Después de la diarización por fragmento, agrupamos voces en todo el archivo para que Hablante 3 sea la misma persona en el minuto 12 y el minuto 487.
  3. 3DOCX único con marcadores de hora. Archivo único, marcas de tiempo continuas, salto de capítulo opcional cada 60 minutos. Sin uniones.

Configuración de trabajo recomendada para archivos largos

Sube cualquier cosa mayor de 90 minutos y estos se activan automáticamente. Cambia por trabajo desde el formulario.

Estrategia de fragmentação
Ventanas de 12 min · solapamiento de 10s
Diarización
Paso global a través de todos los fragmentos
Modelo de hablante
Forma larga · 2-20 hablantes
Carga
Multiparte reanudable
Cola
Prioridad (plan Business)
Exportar
DOCX único · marcadores de hora activados

Accuracy · real-world numbers

92% se mantiene en un archivo de 5 horas. La calidad se mantiene plana hora tras hora.

La parte difícil con audio largo no es el modelo — es mantener la precisión plana del minuto 1 al minuto 600. El desplazamiento de hablante y errores de límite de fragmento son lo que mata la mayoría de pipelines. Los números de abajo se miden en archivos de clientes de longitud completa, no en los primeros 10 minutos.

95%
Forma larga de estudio, hablante único

Narración de audiolibro, podcast en solitario, manuscrito dictado. 6-10 horas de voz limpia sin ruido de sala. Sin diarización necesaria.

92%
Sala de junta, 2-6 hablantes

Mesa de conferencia, micrófono decente, 3-5 horas. El paso global de hablante mantiene los IDs estables en todo el archivo.

88%
Taller de día completo, micrófonos de solapa

Día de capacitación de 7-9 horas con cambios de micrófono y preguntas de audiencia. Los nombres necesitan un paso de 5 minutos en los chips del hablante.

82%
Mesa redonda de campo, 8+ hablantes

Historia oral larga, grupo focal, o panel con voces solapadas y ruido ambiental. Utilizable, pero espera limpieza.

Preguntas comunes

8 cosas que la gente pregunta sobre transcripción de audio largo.

01¿Cuál es el límite real de longitud y tamaño de archivo?+
10 horas por archivo en Pro y Business. Pro limita el tamaño de archivo a 2 GB, Business a 5 GB. Si tienes algo más largo que 10 horas, divídelo una vez en un corte natural — mantendremos consistentes los IDs de hablante si los cargas seguidos en el mismo proyecto.
02¿Obtengo un transcript o una carpeta de partes numeradas?+
Un archivo. Siempre. DOCX, SRT, TXT, o JSON — tu elección. Las marcas de tiempo corren continuamente de 00:00:00 al final de la grabación, no se reinician en cada límite de fragmento.
03¿Cuánto tiempo tarda un archivo de 6 horas en regresar?+
Aproximadamente 18-25 minutos en la cola de Pro, 8-12 en prioridad de Business. Procesamos los fragmentos de 12 minutos en paralelo, así que el tiempo de reloj escala sublinealmente con la longitud del archivo, no minuto a minuto.
04¿Los IDs de hablante permanecen consistentes de principio a fin?+
Sí. Después de la diarización por fragmento, un paso de embedding global agrupa voces en todo el archivo. Hablante 3 en el minuto 12 es el mismo Hablante 3 en el minuto 487. Esto es lo principal que los pipelines DIY de Whisper hacen mal.
05¿Qué sucede si mi carga se cae en la hora 3 de un archivo de 4 GB?+
La carga multiparte reanudable retoma desde la última parte completada. No recarga los primeros 3 GB. Funciona en Wi-Fi de hotel inestable y tethering celular — probamos ambos.
06¿Por qué Whisper API ahoga archivos largos?+
El punto de acceso Whisper de OpenAI tiene un límite duro de 25 MB por solicitud — aproximadamente 25 minutos de audio comprimido. Cualquier cosa más larga requiere que dividas, transcriba en paralelo, y luego alinee transcripts y alinea hablantes tú mismo. Hacemos todo eso del lado del servidor.
07¿El precio por minuto es el mismo en un archivo de 10 horas que en uno de 10 minutos?+
Sí. $0.03 por minuto plano, sin importar la longitud. Un archivo de 10 horas cuesta $18. No cobramos más en archivos largos de la forma que Rev hace ($1.50/min humano × 10 horas = $900).
08¿Puedo obtener marcadores de capítulo o marcas de tiempo cada hora?+
Activa 'Marcadores de hora' en el formulario de trabajo y el DOCX exporta con un salto de encabezado cada 60 minutos. SRT mantiene código de tiempo continuo. JSON tiene ambos — matriz de capítulos más marcas de tiempo de nivel de palabra.

Sube tu archivo largo. Obtén un transcript.

30 minutos gratis cada mes. Sin tarjeta. Archivos hasta 10 horas, etiquetas de hablante que se mantienen consistentes, exportación de archivo único.

Comenzar gratis