Mensaje de voz a texto.100+ idiomas, cualquier formato de operador.

Arrastra una grabación de mensaje de voz de Google Voice, Twilio, RingCentral o un operador móvil. Obtén una transcripción con marca de tiempo con números telefónicos formateados, lenguaje detectado automáticamente — MP3, WAV, OGG o AMR.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Mira qué sale

Audio del operador dentro. Texto buscable afuera.

Los mensajes de voz son audio de banda estrecha de un solo hablante — generalmente 8 kHz, a menudo con tráfico o viento de fondo. Ajustamos el reconocedor para grabaciones cortas en banda telefónica para que las devoluciones de llamada y los números realmente lleguen.

voicemail-0427-1142.mp3REC 1 hablante · 0:38
en-US detectado automáticamente8 kHz mono · μ-law
~90s
Transcripción · transmisión89% de precisión
S1

Hola, soy Janet llamando de Westfield Property Management sobre la renovación de arrendamiento de la unidad de Larkin Street.

S1

Enviamos los documentos el martes — queríamos confirmar que los recibiste antes del 30.

S1

El mejor número para contactarme es 415-555-0188, extensión 204.

S1

Gracias, llámame cuando tengas un momento.

89% en mono 8 kHzTXT · DOCX · JSON · SRT

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tres opciones reales · comparación honesta

Google Voice integrado. YouMail. O nosotros.

Google Voice ofrece transcripciones gratuitas que funcionan bien para un resumen de una línea. YouMail es una app de mensajes de voz visual para consumidor. Procesamos el archivo que exportas — cualquier operador, cualquier formato, con formateo y exportaciones diseñadas para flujos de pegado en CRM.

Option 01

Google Voice / Gmail integrado

Transcripción automática gratuita en cada mensaje de Google Voice. Solo inglés y un volcado de texto de una sola vez.

RequiereNúmero de Google Voice
IdiomasSolo inglés
Formateo de número telefónicoEn línea, a menudo incorrecto
Carga masivaNo — por mensaje únicamente
ExportaciónTexto del cuerpo del correo
CostoGratuito
Best forUsuarios individuales en Google Voice que solo necesitan un resumen aproximado en inglés en su bandeja de entrada.
Option 02

Transcription.Solutions

Arrastra el WAV, MP3, OGG o AMR. Obtén texto formateado — cualquier operador, cualquier idioma.

RequiereSolo el archivo de audio
Idiomas100+, detectados automáticamente
Formateo de número telefónicoE.164 normalizado + local
Carga masivaArrastra una carpeta, se ejecuta en paralelo
ExportaciónTXT · DOCX · JSON · SRT
Costo · por minuto$0.03
Best forCualquiera que esté procesando mensajes de voz en lote desde un PBX, atendiendo a llamantes que no hablan inglés o enviando texto a un CRM.
Option 03

YouMail

App de mensajes de voz visual para consumidor. Reemplaza completamente el correo de voz de tu operador — no es una herramienta basada en archivos.

RequiereReenvío condicional del operador
IdiomasTendencia al inglés
Formateo de número telefónicoSolo ID de llamada
Carga masivaNo — solo reenvío en vivo
ExportaciónEn app + correo
Costo$5–18/mes por número
Best forUsuarios móviles que quieren reemplazar su correo de voz del operador con una bandeja de entrada unificada.

Precios precisos a partir de mayo 2026. La disponibilidad de transcripción de Google Voice varía según la región y el tipo de cuenta.

Específico para mensajes de voz

Tres cosas que atrapan a la gente en herramientas de transcripción genéricas.

Un mensaje de voz no es una reunión. Los valores predeterminados que funcionan para podcasts destrozarán una devolución de llamada de 30 segundos.

Qué sale mal

  1. 1Los números telefónicos hablados rápido se transcriben como palabras ("cuatro uno cinco cinco cinco cinco cero uno ocho ocho") en lugar de dígitos formateados — inútil para pegado en CRM.
  2. 2Los nombres de llamantes son murmurrados una sola vez al inicio. Los modelos genéricos pierden la ortografía y el resto del mensaje no tiene un ancla.
  3. 3Los archivos AMR / OGG de sistemas IP-PBX se rechazan completamente por herramientas construidas alrededor de audio de podcast MP4.

Qué cambiar aquí

  1. 1Activa Formateo de número telefónico en el formulario de trabajo. Normalizamos dígitos a E.164 (+14155550188) y un formato local legible en la misma línea.
  2. 2Pega nombres de llamantes probables y los términos de tu empresa en Vocabulario personalizado. Incluso una lista de 10 nombres levanta dramáticamente el reconocimiento de nombres propios en audio corto.
  3. 3Arrastra el archivo tal cual. Aceptamos WAV, MP3, OGG, AMR, M4A, FLAC, μ-law, A-law — no se necesita paso de transcodificación.

Configuración de trabajo recomendada para mensajes de voz

Carga un archivo de mensaje de voz y estos se activan por defecto. Anula por trabajo desde el formulario.

Modelo de hablante
Un hablante · monólogo
Perfil de audio
Telefonía 8 kHz banda estrecha
Idioma
Detección automática · 100+ idiomas
Números telefónicos
Formatear como E.164 + local
Palabras de relleno
Conservadas (el tono importa)
Exportación
TXT · DOCX · JSON (listo para CRM)

Accuracy · real-world numbers

92% en VoIP limpio. Se sostiene en línea PSTN también.

Los mensajes de voz son el audio más difícil que vemos — 8 kHz de banda estrecha, un solo micrófono, a menudo con ruido de carretera o cafetería. Estos números provienen de lotes de mensajes de voz de clientes reales en producción, no de muestras seleccionadas.

92%
Google Voice / Teams Phone MP3

Captura de banda ancha 16 kHz, MP3 a 64 kbps+. Llamante en interiores tranquilo. Números y nombres propios se capturan clearly.

89%
Twilio / RingCentral WAV

Grabación VoIP estándar 8 kHz μ-law. La mayoría de los mensajes de voz empresariales se ubican aquí. Los números telefónicos se normalizan correctamente.

83%
OGG / AMR de operador móvil

AMR-NB a 4.75–12.2 kbps de IP-PBX o correo de voz visual del operador. Artefactos de compresión en sibilantes y dígitos.

76%
Línea PSTN, ruido de fondo

Línea de cobre más antigua, llamante en un auto o en altavoz. Palabras utilizables, ocasionales fallos en números y nombres.

Preguntas frecuentes

8 cosas que la gente pregunta sobre transcripción de mensajes de voz.

01¿Pueden jalar directamente los mensajes de voz de Google Voice o Gmail?+
No vía API — Google no expone audio de mensajes de voz de esa manera. Descarga el adjunto MP3 del correo de notificación, o usa la descarga por mensaje de Google Voice. Arrastra el archivo a nuestro panel o carga en lote una carpeta.
02¿Soportan archivos AMR de viejos sistemas IP-PBX?+
Sí. AMR-NB y AMR-WB funcionan, junto con WAV (μ-law, A-law, PCM), MP3, OGG, M4A y FLAC. Manejamos el codec internamente — no hay necesidad de transcodificar a WAV primero.
03¿Los números telefónicos en el mensaje se formatearán correctamente?+
Sí, cuando Formateo de número telefónico está activado. Detectamos dígitos hablados y emitimos tanto E.164 (+14155550188) como un formato local legible en la misma línea. Funciona en 40+ convenciones de marcado de país.
04¿Cómo manejan mensajes muy cortos — menos de 10 segundos?+
Bien. No hay longitud mínima. Los mensajes menores a 10 segundos se facturan con nuestro piso de 6 segundos ($0.003 por archivo). La precisión se sostiene porque el modelo no está esperando contexto — un mensaje de voz es un monólogo, no una conversación.
05¿Qué pasa con mensajes de voz en español o multilingües?+
La detección automática funciona en 100+ idiomas y elige el dominante. Para mensajes de voz que cambian a mitad de camino (saludo en inglés, cuerpo en español) activa modo multilingüe — transcribimos ambos segmentos en su propio idioma sin forzar uno.
06¿Puedo cargar 200 mensajes de voz de una vez en lote?+
Sí. Arrastra una carpeta al panel o POST a nuestro endpoint de proceso por lote. Los trabajos se ejecutan en paralelo, obtienes un índice CSV con nombre de archivo, idioma, duración y un enlace a cada transcripción. Sin cargo adicional por lote.
07¿Las transcripciones se pueden enviar directamente a HubSpot o Salesforce?+
Aún no enviamos un conector CRM directo. La exportación JSON incluye ID de llamada (si lo pasas en metadatos), números telefónicos formateados y la transcripción completa — la mayoría de los equipos la canalizan a través de Zapier o un script de 20 líneas hacia su registro de contacto de CRM.
08Los mensajes de voz a menudo contienen PII o información médica — ¿cómo lo manejan?+
El audio de origen se elimina permanentemente en 24 horas. Las transcripciones viven en tu panel hasta que las elimines. Hoy no somos un Asociado Empresarial HIPAA — si necesitas un BAA firmado, háblanos antes de cargar PHI.

Arrastra un archivo de mensaje de voz. Mira qué sale.

30 minutos gratis cada mes. Sin tarjeta. Formateo de número telefónico, 100+ idiomas, todas las exportaciones incluidas.

Comienza gratis