Whisper local / código abierto
Gratis si tienes GPU y una tarde. Sin diarización de orador de serie.
Suelta un archivo MP3 a cualquier bitrate de 64 a 320 kbps. Obtén una transcripción con marca de tiempo y etiquetas de orador en 99 idiomas — sin conversión de formato, sin recodificación, sin esperar en una cola.
MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously
YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more
↓ Mira lo que sale
Leemos los encabezados de fotogramas MP3 directamente — VBR, CBR, joint-stereo, cualquier codificador (LAME, Fraunhofer, FFmpeg). Si el archivo es estéreo verdadero con oradores en canales separados, lo usamos para separar voces. La mezcla mono regresa a la diarización acústica.
¿Entonces cuándo te percataste por primera vez de que el archivo estaba incompleto?
Probablemente alrededor de 2019, cuando comenzamos a digitalizar los carretes.
¿Y las cintas faltantes — estaban catalogadas en algún lado?
Hay un índice en papel de 1978, pero la mitad está dañada por agua.
↓ This is the dashboard
Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.
Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.
Tres opciones reales · comparación honesta
Puedes ejecutar Whisper en tu laptop gratis si eres técnico. Otter y Sonix aceptan subidas de MP3 dentro de dashboards de suscripción. Tomamos el archivo, devolvemos la transcripción, y no te obligamos a vivir dentro de una interfaz.
Gratis si tienes GPU y una tarde. Sin diarización de orador de serie.
Suelta el MP3. Obtén texto con etiquetas de orador de vuelta en tiempo casi real × 0.025.
Dashboard pulido, límite de minutos mensuales, afinado para inglés. La subida de archivo se siente como una característica secundaria.
Precios y disponibilidad de características precisos a partir de mayo de 2026. El rendimiento de Whisper varía según el tamaño del modelo y el hardware.
Específico para MP3
MP3 es un formato, no un estilo de grabación — lo que significa que los modos de fallo provienen del codificador, no del habla.
Valores predeterminados que se ajustan a ~80% de los archivos MP3. Reemplaza por trabajo desde el formulario.
Accuracy · real-world numbers
La precisión de MP3 está limitada por lo que el codificador mantuvo, no por nosotros. La compresión perceptual por encima de ~96 kbps preserva la inteligibilidad del habla muy bien; por debajo de 64 kbps, los sibilantes y consonantes comienzan a disolverse. Los números a continuación provienen de MP3s reales de clientes en producción.
Casi sin pérdida para voz. Archivos maestros de podcast, exportaciones de aplicaciones de dictado, equipos profesionales de entrevista. Diarización limpia si oradores en canales separados.
Bitrate más común para MP3s de audio hablado. Exportaciones de Zoom, descargas de Riverside, valores predeterminados de grabadores de voz. Artefactos de compresión inaudibles para el reconocedor.
Valores predeterminados de nota de voz en la mayoría de los teléfonos. Diarización acústica maneja 2-4 oradores. Números y nombres propios ocasionalmente necesitan una mirada.
Grabaciones de máquina respondedora antiguas, archivos de conferencias, fuentes de banda estrecha. Las consonantes de alta frecuencia (f/s/sh) se desdibujan. Aún legible — planifica una revisión.
Preguntas comunes
30 minutos gratis cada mes. Sin tarjeta requerida. Etiquetas de orador, 99 idiomas, todos los formatos de exportación incluidos.
Comienza gratis