Transcribe video MP4 a texto.Audio extraído automáticamente.

Arrastra el archivo MP4 tal cual — extraemos la pista de audio en el servidor, devolvemos una transcripción con marcas de tiempo, y generamos un SRT que se carga directamente en YouTube, Vimeo o tu NLE.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Mira qué sale

MP4 entra. Transcripción + SRT sale.

MP4 es un contenedor — leemos el flujo de audio directamente, nunca recodificamos el video. Las marcas de tiempo permanecen alineadas a fotogramas en tu línea de tiempo original, así que el SRT se carga correctamente en la primera importación.

training-module-04.mp4REC 1080p · 22:14 · 412 MB
en-US detectado automáticamenteAAC 48 kHz estéreo · 192 kbps
~90s
Transcripción · en directo95% de precisión
S1

Alright, en este módulo vamos a recorrer el flujo de reembolso de principio a fin.

S2

Una pregunta rápida antes de empezar — ¿esto se aplica también a reembolsos parciales?

S1

Buena observación. Los reembolsos parciales usan la misma pantalla pero con un código de razón diferente.

S2

Entendido. ¿Y el umbral de aprobación sigue siendo doscientos dólares?

95% en diálogos clarosSRT · VTT · DOCX · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tres opciones reales · comparación honesta

DIY con ffmpeg. Un editor de video. O nosotros.

Puedes extraer el audio tú mismo y ejecutar Whisper. Puedes arrastrar el MP4 a Descript o VEED y trabajar dentro de su editor. O simplemente suelta el archivo aquí y obtén la transcripción + SRT, sin bloqueo de editor.

Option 01

ffmpeg + Whisper

Gratis, local, complicado. Eres dueño del pipeline y de cada error en él.

RequiereCLI + modelo de 10 GB + GPU
Diarización de locutorHerramienta separada (pyannote)
Salida SRTSí, bandera manual
Tiempo en un MP4 de 1 hora20–90 min en CPU
Audio multipistaTú eliges el flujo
Costo$0 + tu hardware
Best forIngenieros que ya ejecutan Whisper localmente y no les importa agregar diarización encima.
Option 02

Transcription.Solutions

Suelta el MP4. Extracción de audio, diarización, SRT, resumen — en un pase.

RequiereNavegador, eso es todo
Diarización de locutorIntegrada, en cada trabajo
Salida SRTAlineada a fotogramas con la fuente
Tiempo en un MP4 de 1 hora~4 min, en transmisión
Audio multipistaListamos todos los flujos
Costo · por min$0.03
Best forCualquiera con un MP4 que quiera el texto y SRT sin aprender un editor de video o una CLI.
Option 03

Descript / VEED

Carga el MP4 en el editor. La transcripción aparece como parte de la UI de la línea de tiempo.

RequiereCuenta + curva de aprendizaje del editor
Diarización de locutorSí, ajustado para EN
Salida SRTLimitada por plan
Límite de carga5 GB (Descript gratis)
Audio multipistaSolo la primera pista
Costo$12–24/usuario/mes
Best forEditores que quieren cortar el video y la transcripción en la misma herramienta.

Precios y límites de features aproximados a partir de 2026. Los nombres de planes de Descript y VEED cambian frecuentemente — consulta su sitio para límites actuales.

Específico para MP4

Tres cosas que causan problemas a la gente con herramientas genéricas de transcripción.

MP4 es un contenedor, no un códec — y la mayoría de las herramientas de transcripción lo tratan como un gran blob de audio. De ahí vienen los errores.

Qué sale mal

  1. 1MP4 multipista con boom + solapa. Las herramientas genéricas agarran la pista 1 e ignoran el resto, así que pierdes el micrófono más limpio. Común en exportaciones de FCP y Premiere.
  2. 2Música de fondo en vlogs y anuncios desencadena palabras fantasma. El reconocedor intenta transcribir las voces en la música de fondo.
  3. 3Las marcas de tiempo del SRT se deslizan cuando la herramienta recodifica el video al entrar. En el minuto 40 los subtítulos están un segundo atrasados.

Qué cambiar aquí

  1. 1Carga — exploramos cada flujo de audio y te dejamos elegir cuál transcribir. El predeterminado es la pista de mayor bitrate.
  2. 2Activa la Supresión de música en el formulario del trabajo. Limitamos el reconocedor a VAD de voz para que los segmentos instrumentales permanezcan vacíos.
  3. 3Nunca recodificamos video. El audio se extrae a la frecuencia de muestreo nativa, las marcas de tiempo hacen referencia a la lista de edición del contenedor — el SRT se alinea a fotogramas.

Configuración recomendada del trabajo para MP4

Suelta un MP4 y estas se activan por predeterminado. Anula por trabajo desde el formulario.

Extracción de audio
Frecuencia de muestreo nativa, sin recodificación
Selección de pista
Flujo de mayor bitrate
Diarización
Acústica · 1-6 locutores
Supresión de música
Activa para presets de vlog/anuncio
Formato SRT
≤42 caracteres/línea, máx. 2 líneas
Exportación
SRT · VTT · DOCX · TXT con marcas de tiempo

Accuracy · real-world numbers

95% en una grabación limpia. Números honestos cuando el audio se pone difícil.

La precisión de MP4 la establece el micrófono, no el códec. Un micrófono de solapa en un set tranquilo supera a una cámara 4K con audio de placa en cualquier momento. Los números de abajo provienen de MP4s reales de clientes, ordenados por lo que estaba capturando el audio.

96%+
Grabación de estudio, micrófono de solapa o direccional

Solapa o boom conectado a una grabadora, AAC de 48 kHz a 192+ kbps, sala tratada. El caso ideal. Las etiquetas de locutor funcionan perfectamente en una grabación de dos personas.

93%
DSLR con micrófono direccional en cámara

Micrófono en la parte superior de la cámara a 2-4 pies del locutor. Algo de ruido de ambiente pero el habla es inteligible. La mayoría del contenido de creadores de YouTube cae aquí.

89%
Grabación de pantalla con micrófono USB

Exportaciones de OBS, Loom, Camtasia. El micrófono está cerca pero la sala no está tratada, a menudo con fugas de audio del sistema. Suficientemente bueno para transcripciones de tutoriales.

84%
Video blog grabado con teléfono, micrófono interno

Micrófono del teléfono integrado, ruido de viento o manipulación, la distancia varía de un plano a otro. Palabras utilizables, espera 1-2 correcciones por minuto en nombres propios.

Preguntas comunes

8 cosas que la gente pregunta sobre transcripción de MP4.

01¿Recodifican mi video?+
No. Solo extraemos el flujo de audio del contenedor MP4. El flujo de video nunca se toca, nunca se recodifica, y nunca se almacena después de que termina el trabajo — mantienes tu archivo original sin cambios.
02¿Qué códecs dentro del MP4 son compatibles?+
H.264 + AAC estándar es el caso fácil. También manejamos HEVC/H.265, ProRes en MP4, y audio en MP3, Opus, ALAC o PCM. Si ffmpeg puede probarlo, nosotros podemos transcribirlo.
03¿Cuál es el límite de tamaño de archivo?+
10 GB por carga en el cargador web, 50 GB a través de la API con fragmentos reanudables. Un MP4 típico de 1 hora a 1080p es de 1-3 GB, así que la mayoría de los archivos caben en la ruta web sin pensar.
04¿El SRT se alineará con mi video original?+
Sí — las marcas de tiempo hacen referencia a la lista de edición del MP4 y a la frecuencia de muestreo nativa. No recodificamos, así que no hay desviación. Coloca el SRT junto al MP4 en cualquier reproductor o NLE y los subtítulos se sincronizan en la primera carga.
05¿Puedo quemar los subtítulos en el video?+
No de nuestra parte — sacamos el SRT y dejamos la incrustración en tu editor. ffmpeg de una línea, HandBrake, Premiere, DaVinci, Kapwing aceptan todos el SRT que producimos. No queremos ser la herramienta de codificación también.
06¿Qué hay de MOV, MKV, M4V, WebM?+
Todos compatibles a través del mismo pipeline. MOV especialmente — misma familia MPEG-4, ruta de extracción idéntica. MKV con múltiples pistas de audio obtiene la misma UI del selector de flujos que un MP4 multipista.
07¿Puedo solo enviar una URL de YouTube o Vimeo?+
Sí para YouTube — pega una URL pública en la pantalla de carga y extraemos el audio directamente, sin necesidad de descargar el MP4. Vimeo requiere un archivo directo o un enlace de descarga firmado porque su reproductor cierra el flujo.
08¿Qué pasa si no hay diálogo hablado, solo música o metraje B-roll?+
VAD detecta secciones silenciosas y solo música y las salta, así que no pagas por metraje ambiental. La transcripción marca esos rangos como `[music]` o `[no speech]` en lugar de inventar palabras.

Suelta tu MP4. Obtén la transcripción y SRT de vuelta.

30 minutos gratis cada mes. Sin tarjeta. Audio extraído en el servidor, identificación de locutor, SRT alineado a fotogramas — todo incluido.

Comenzar gratis