Transcribe MP3 a texto.Etiquetas de orador, más de 100 idiomas.

Suelta un archivo MP3 a cualquier bitrate de 64 a 320 kbps. Obtén una transcripción con marca de tiempo y etiquetas de orador en 99 idiomas — sin conversión de formato, sin recodificación, sin esperar en una cola.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Mira lo que sale

MP3 entra. Transcripción diarizada sale.

Leemos los encabezados de fotogramas MP3 directamente — VBR, CBR, joint-stereo, cualquier codificador (LAME, Fraunhofer, FFmpeg). Si el archivo es estéreo verdadero con oradores en canales separados, lo usamos para separar voces. La mezcla mono regresa a la diarización acústica.

interview-tape-04.mp3REC 192 kbps · estéreo · 38:42
en-GB detectado automáticamente44.1 kHz · LAME 3.100
~90s
Transcripción · transmisión95% de precisión
S1

¿Entonces cuándo te percataste por primera vez de que el archivo estaba incompleto?

S2

Probablemente alrededor de 2019, cuando comenzamos a digitalizar los carretes.

S1

¿Y las cintas faltantes — estaban catalogadas en algún lado?

S2

Hay un índice en papel de 1978, pero la mitad está dañada por agua.

95% en estéreo de 192 kbpsSRT · DOCX · TXT · JSON · VTT

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tres opciones reales · comparación honesta

Whisper local gratis. Otter o Sonix. O nosotros.

Puedes ejecutar Whisper en tu laptop gratis si eres técnico. Otter y Sonix aceptan subidas de MP3 dentro de dashboards de suscripción. Tomamos el archivo, devolvemos la transcripción, y no te obligamos a vivir dentro de una interfaz.

Option 01

Whisper local / código abierto

Gratis si tienes GPU y una tarde. Sin diarización de orador de serie.

InstalaciónPython + CUDA + modelos de 10 GB
Diarización de oradorNo incluido (complemento pyannote)
Velocidad · MP3 de 1 hr5–40 min en GPU de consumidor
Idiomas99, pero modelo pequeño cae por debajo del 80%
ExportaciónTXT / SRT / VTT / JSON
CostoGratis + tu electricidad
Best forIngenieros que ya tienen GPU, no necesitan etiquetas de orador, y quieren privacidad completamente local.
Option 02

Transcription.Solutions

Suelta el MP3. Obtén texto con etiquetas de orador de vuelta en tiempo casi real × 0.025.

InstalaciónArrastra y suelta, sin cuenta requerida para probar
Diarización de oradorIntegrada (planes Pro y Business)
Velocidad · MP3 de 1 hr~90 segundos
Idiomas99, detectado automáticamente
ExportaciónSRT · VTT · DOCX · TXT · JSON
Costo · por minuto$0.03
Best forCualquiera con un MP3 — grabación de periodista, exportación de podcast, nota de voz, copia de archivo — que solo quiera texto preciso al otro lado.
Option 03

Otter / Sonix

Dashboard pulido, límite de minutos mensuales, afinado para inglés. La subida de archivo se siente como una característica secundaria.

InstalaciónCuenta + plan pagado
Diarización de oradorAcústica, con sesgo en EN
Velocidad · MP3 de 1 hr5–10 min en cola
IdiomasOtter solo EN; Sonix ~40
ExportaciónBloqueada detrás de niveles pagados
Costo$17+/mes o $10+/hr (Sonix)
Best forEquipos que quieren un editor de transcripción e interfaz de colaboración más que un flujo de archivo→texto limpio al estilo API.

Precios y disponibilidad de características precisos a partir de mayo de 2026. El rendimiento de Whisper varía según el tamaño del modelo y el hardware.

Específico para MP3

Tres cosas que causan problemas a personas en herramientas de transcripción genéricas.

MP3 es un formato, no un estilo de grabación — lo que significa que los modos de fallo provienen del codificador, no del habla.

Qué sale mal

  1. 1Los encabezados VBR se análisis incorrectamente. Algunas herramientas leen MP3s de bitrate variable como tasa fija y miscalculan la duración — las marcas de tiempo se desvían por minutos durante un archivo de una hora.
  2. 2Joint-stereo se aplana a mono durante preprocesamiento de subida. Pierdes la separación de canal por orador que en realidad estaba en el archivo.
  3. 3El arte de álbum ID3 integrado anula algunos cargadores — rechazan el archivo como 'no es audio puro' o lo eliminan y recodifican, bajando la calidad aún más.

Lo que hacemos en su lugar

  1. 1Usamos el encabezado Xing/LAME cuando está presente y conteo de fotogramas como respaldo cuando no. Las marcas de tiempo VBR se mantienen precisas a ±0.1 s en archivos de múltiples horas.
  2. 2MP3s joint-stereo y true-stereo se decodifican a PCM L/R antes de diarización. Si tus oradores fueron panné, los mantenemos separados.
  3. 3ID3v1, ID3v2, etiquetas APE, arte integrado — todo pasado sin tocar. Nunca recodificamos tu MP3.

Configuración de trabajo recomendada para subidas de MP3

Valores predeterminados que se ajustan a ~80% de los archivos MP3. Reemplaza por trabajo desde el formulario.

Decodificador
Precisión de fotogramas, sin recodificación
Diarización
División de canal si estéreo, si no acústica
Modelo de orador
Automático · 1-12 oradores
Idioma
Detección automática de los primeros 30 s
Palabras de relleno
Removidas (cambiar para mantener)
Paquete de exportación
DOCX + SRT + TXT con marca de tiempo

Accuracy · real-world numbers

95%+ en estéreo de 192 kbps. Usable hasta 64 kbps mono.

La precisión de MP3 está limitada por lo que el codificador mantuvo, no por nosotros. La compresión perceptual por encima de ~96 kbps preserva la inteligibilidad del habla muy bien; por debajo de 64 kbps, los sibilantes y consonantes comienzan a disolverse. Los números a continuación provienen de MP3s reales de clientes en producción.

96%
Estéreo de 320 kbps, fuente de estudio

Casi sin pérdida para voz. Archivos maestros de podcast, exportaciones de aplicaciones de dictado, equipos profesionales de entrevista. Diarización limpia si oradores en canales separados.

95%
Estéreo de 192 kbps, 2-3 oradores

Bitrate más común para MP3s de audio hablado. Exportaciones de Zoom, descargas de Riverside, valores predeterminados de grabadores de voz. Artefactos de compresión inaudibles para el reconocedor.

91%
Mono de 128 kbps, conversacional

Valores predeterminados de nota de voz en la mayoría de los teléfonos. Diarización acústica maneja 2-4 oradores. Números y nombres propios ocasionalmente necesitan una mirada.

84%
Mono de 64 kbps, archivo / descarga de teléfono

Grabaciones de máquina respondedora antiguas, archivos de conferencias, fuentes de banda estrecha. Las consonantes de alta frecuencia (f/s/sh) se desdibujan. Aún legible — planifica una revisión.

Preguntas comunes

8 cosas que la gente pregunta sobre la transcripción de MP3.

01¿Cuál es el bitrate mínimo de MP3 que aún proporciona una transcripción usable?+
64 kbps es el límite práctico. Por debajo de eso, los sibilantes (s, sh, f) se comprimen en ruido y la tasa de error de palabras sube por encima del 20%. Si estás grabando nuevo, apunta a 128 kbps mono o 192 kbps estéreo — cualquier cosa superior es excesiva para habla.
02¿Necesito convertir mi MP3 a WAV primero?+
No. Recodificar MP3 → WAV no suma precisión porque los datos que el codificador descartó se han ido para siempre. Sube el MP3 directamente. Decodificamos fotogramas en memoria y alimentamos PCM al reconocedor.
03¿El MP3 estéreo me dará mejores etiquetas de orador que mono?+
Solo si los oradores fueron realmente grabados en canales separados — la mayoría de los MP3s estéreo tienen el mismo audio en ambos lados ('mono dual') y no ganan nada. El división verdadera de canal (p. ej. exportaciones de Riverside, configuraciones de campo de dos micros) nos permite omitir diarización acústica y etiquetar oradores casi perfectamente.
04¿Cuál es el tamaño máximo de archivo MP3 que aceptas?+
5 GB por subida, que es aproximadamente 60 horas a 192 kbps u 90 horas a 128 kbps. Si tu archivo es más grande, mostraremos subida en fragmentos — sin necesidad de dividirlo tú mismo.
05¿Cuánto tiempo tarda transcribir un MP3 de 60 minutos?+
Típicamente 90 segundos desde carga completa hasta transcripción lista, independientemente del bitrate. Decodificar fotogramas MP3 es rápido; el tiempo está en el reconocedor. La diarización suma 5-10 segundos en archivos multiactor.
06Mi MP3 tiene música de fondo — ¿se arruinará la transcripción?+
La música cama tranquila bajo el habla está bien. La música fuerte que compite con la voz (stings de introducción, scoring sobre entrevistas) a veces desencadena error de reconocimiento en sílabas superpuestas. Activa supresión de música en el formulario de trabajo para prefilto.
07¿Puedes manejar MP3s extraídos del correo de voz del teléfono o máquinas contestadoras?+
Sí, aunque estos a menudo son 8 kHz de banda estrecha recodificados como MP3 — el techo de calidad de audio se establece por la captura PSTN original, no por el envoltorio MP3. Espera 78-85% de precisión en ese tipo de fuente, que es lo mismo que obtendríamos en la llamada subyacente.
08¿Mantienen mi MP3 después de que la transcripción esté hecha?+
Los archivos se eliminan después de 30 días por defecto, o inmediatamente a solicitud a través del dashboard. La transcripción permanece en tu cuenta hasta eliminarla. No usamos audio de cliente para entrenar ningún modelo — nunca.

Suelta tu MP3. Obtén texto de vuelta en 90 segundos.

30 minutos gratis cada mes. Sin tarjeta requerida. Etiquetas de orador, 99 idiomas, todos los formatos de exportación incluidos.

Comienza gratis