ffmpeg + Whisper
Gratis, local, complicado. Eres dueño del pipeline y de cada error en él.
Arrastra el archivo MP4 tal cual — extraemos la pista de audio en el servidor, devolvemos una transcripción con marcas de tiempo, y generamos un SRT que se carga directamente en YouTube, Vimeo o tu NLE.
MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously
YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more
↓ Mira qué sale
MP4 es un contenedor — leemos el flujo de audio directamente, nunca recodificamos el video. Las marcas de tiempo permanecen alineadas a fotogramas en tu línea de tiempo original, así que el SRT se carga correctamente en la primera importación.
Alright, en este módulo vamos a recorrer el flujo de reembolso de principio a fin.
Una pregunta rápida antes de empezar — ¿esto se aplica también a reembolsos parciales?
Buena observación. Los reembolsos parciales usan la misma pantalla pero con un código de razón diferente.
Entendido. ¿Y el umbral de aprobación sigue siendo doscientos dólares?
↓ This is the dashboard
Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.
Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.
Tres opciones reales · comparación honesta
Puedes extraer el audio tú mismo y ejecutar Whisper. Puedes arrastrar el MP4 a Descript o VEED y trabajar dentro de su editor. O simplemente suelta el archivo aquí y obtén la transcripción + SRT, sin bloqueo de editor.
Gratis, local, complicado. Eres dueño del pipeline y de cada error en él.
Suelta el MP4. Extracción de audio, diarización, SRT, resumen — en un pase.
Carga el MP4 en el editor. La transcripción aparece como parte de la UI de la línea de tiempo.
Precios y límites de features aproximados a partir de 2026. Los nombres de planes de Descript y VEED cambian frecuentemente — consulta su sitio para límites actuales.
Específico para MP4
MP4 es un contenedor, no un códec — y la mayoría de las herramientas de transcripción lo tratan como un gran blob de audio. De ahí vienen los errores.
Suelta un MP4 y estas se activan por predeterminado. Anula por trabajo desde el formulario.
Accuracy · real-world numbers
La precisión de MP4 la establece el micrófono, no el códec. Un micrófono de solapa en un set tranquilo supera a una cámara 4K con audio de placa en cualquier momento. Los números de abajo provienen de MP4s reales de clientes, ordenados por lo que estaba capturando el audio.
Solapa o boom conectado a una grabadora, AAC de 48 kHz a 192+ kbps, sala tratada. El caso ideal. Las etiquetas de locutor funcionan perfectamente en una grabación de dos personas.
Micrófono en la parte superior de la cámara a 2-4 pies del locutor. Algo de ruido de ambiente pero el habla es inteligible. La mayoría del contenido de creadores de YouTube cae aquí.
Exportaciones de OBS, Loom, Camtasia. El micrófono está cerca pero la sala no está tratada, a menudo con fugas de audio del sistema. Suficientemente bueno para transcripciones de tutoriales.
Micrófono del teléfono integrado, ruido de viento o manipulación, la distancia varía de un plano a otro. Palabras utilizables, espera 1-2 correcciones por minuto en nombres propios.
Preguntas comunes
30 minutos gratis cada mes. Sin tarjeta. Audio extraído en el servidor, identificación de locutor, SRT alineado a fotogramas — todo incluido.
Comenzar gratis