Transcribe archivos WAV con etiquetas de interlocutor.Calidad sin pérdida.

Suelta una grabación WAV directo desde tu equipo de campo, rebote de DAW o kit de entrevista. Mantenemos el margen de 24 bits intacto, ejecutamos diarización en el PCM sin procesar y devolvemos una transcripción con marca de tiempo y SRT en minutos.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Observa lo que sale

PCM sin procesar. Transcripción limpia.

WAV sin pérdida significa que cada sibilante, plosivo y palabra quieta se mantiene intacta — sin distorsión MP3 en consonantes. Si el archivo es multipista (un interlocutor por canal), omitimos completamente la diarización acústica y dividimos según el diseño del canal.

WAV · 48 kHz / 24-bitREC 2 pistas · 1h 12m · 743 MB
detectado automáticamente en-GBPCM estéreo · sin comprimir
~90s
Transcripción · streaming97% de precisión
S1

Llévame de vuelta a esa mañana de setenta y ocho — ¿a qué hora llegó la llamada?

S2

A las cinco menos cuarto, más o menos. La tetera estaba en el fuego, me acuerdo de eso.

S1

¿Y de ahí te fuiste directo al puerto?

S2

Directo al astillero. Las luces seguían encendidas cuando llegué.

97% en WAV por pistaSRT · DOCX · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tres opciones reales · comparación honesta

Adobe Audition. Descript. O nosotros.

El Speech to Text de Audition viene incluido en Creative Cloud y se queda dentro de la línea de tiempo. Descript importa el WAV a su propio editor. Nosotros tomamos el archivo tal como está, devolvemos exportaciones estándar y no te pedimos que muevas tu proyecto a ningún lado.

Option 01

Adobe Audition / Premiere

Panel de transcripción dentro de la línea de tiempo de Adobe. Vinculado a Creative Cloud y al archivo del proyecto.

RequiereSuscripción Creative Cloud
Diarización de interlocutorSí, solo mezclado
WAV multipistaAplanado antes de STT
ExportarSRT · CSV · XML
Idiomas18, selección manual
Costo~$23/mes (una sola aplicación)
Best forEditores que ya están editando en Premiere o Audition y quieren subtítulos cosidos a la línea de tiempo.
Option 02

Transcription.Solutions

Suelta el WAV. Diarización por canal si es multipista. Código fuente eliminado en 24h.

RequiereNada — solo el archivo
Diarización de interlocutorPor pista o acústica
WAV multipistaHasta 16 canales
ExportarSRT · VTT · DOCX · TXT · JSON
Idiomas99, detección automática
Costo · por minuto$0.03
Best forCualquiera que tenga un WAV sin procesar — grabadores de campo, podcasters que rebotan desde un DAW, archivistas de historia oral, investigadores.
Option 03

Descript

Importa tu WAV al editor de Descript. Potente, pero tienes que trabajar dentro de él.

RequiereCuenta Descript + importación
Diarización de interlocutorAcústica, afinada en EN
WAV multipistaImportar como clips separados
ExportarTXT · SRT · DOCX
Idiomas23, precisión variable
Costo$16–24/usuario/mes
Best forEditores de podcasts que quieren editar el audio editando la transcripción — el verdadero superpoder de Descript.

Precios vigentes a partir de 2026. Las banderas de características de Adobe y Descript cambian frecuentemente; consulta la documentación actual antes de comprometerte.

Específico para WAV

Tres cosas que muerden a la gente en herramientas de transcripción genéricas.

La mayoría de los cargadores reducen silenciosamente la resolución de tu WAV antes de enviarlo a un reconocedor. Nosotros no.

Lo que sale mal

  1. 1WAV multipista se aplana. Una grabación de campo de 4 canales desde una Sound Devices MixPre se mezcla a mono antes de STT. La separación por micrófono que pagaste se descarta.
  2. 2WAVs de 32-bit float desde Zoom F-series o MixPre se rechazan por completo, o se recortan a 16-bit y pierden su recuperación de margen.
  3. 3Entrevistas de 96 kHz / 24-bit tardan una eternidad en cargarse porque la herramienta recodifica a MP3 en el navegador antes de enviar.

Lo que debe ser diferente

  1. 1Carga el WAV multipista tal como está (hasta 16 canales). Leemos el diseño del canal del encabezado WAV y asignamos un interlocutor por pista — sin adivinanzas acústicas.
  2. 232-bit float se acepta de forma nativa. Preservamos el margen float al normalizar para el reconocedor, por lo que los picos por encima de 0 dBFS no se recortan.
  3. 3Carga binaria directa, sin transcodificación en el navegador. Un WAV de 2 GB se mueve a tu ancho de banda completo y comienza a procesarse en el momento en que llega el último byte.

Configuración de trabajo recomendada para WAV

Suelta un WAV y estos se activan de forma predeterminada. Anula por trabajo desde el formulario.

Frecuencia de muestreo
Nativa (sin submuestreo)
Profundidad de bits
24-bit / 32-float preservados
Diarización
Por canal si es multipista
Modelo de interlocutor
Entrevista · 2-8 interlocutores
Palabras de relleno
Mantenidas (desactiva si es necesario)
Exportación
DOCX · SRT · TXT con marca de tiempo

Accuracy · real-world numbers

97%+ en WAV por pista. WAV da al reconocedor la señal más limpia posible.

Debido a que WAV almacena PCM sin compresión perceptiva, los consonantes y sibilantes no se distorsionan de la manera que MP3 los distorsiona. El reconocedor escucha lo que escuchó el micrófono. Los números a continuación provienen de trabajos reales de clientes con WAV en producción.

98%
Studio WAV · interlocutor único

48 kHz / 24-bit, condensador de gran diafragma, sala tratada. Narraciones, audiolibros, reservas de locutor terminan aquí.

96%
WAV de entrevista multipista

Un canal por interlocutor (lavs o micrófonos de límite). La diarización es solo enrutamiento de canal — error únicamente en texto.

92%
Grabadora de campo portátil

Zoom H5, Tascam DR-40, similares. Captura estéreo XY, 2-3 interlocutores, algo de reflexión de sala. La mayoría de los WAV de podcast terminan aquí.

85%
WAV de campo en ambiente ruidoso

Exterior, café, vehículo. La captura sin pérdida ayuda — el ruido es real, no un artefacto de códec — pero la precisión sigue bajando en discursos superpuestos.

Preguntas comunes

8 cosas que la gente pregunta sobre transcripción WAV.

01¿Cuál es el tamaño máximo de archivo WAV?+
5 GB por archivo en el plan estándar, que es aproximadamente 8 horas de estéreo 48 kHz / 24-bit, o 2,5 horas de 96 kHz / 24-bit. Los archivos más grandes funcionan bien en el plan de equipo — solo contáctanos antes de la carga.
02¿Soportan WAV de 32-bit float desde Zoom F-series o MixPre?+
Sí, de forma nativa. Leemos las muestras float sin recorte a 0 dBFS, por lo que los transitorios ruidosos que planeabas bajar en la postproducción se transcriben limpiamente. La mayoría de los cargadores genéricos desconvierten silenciosamente a 16-bit primero.
03Tengo un WAV de 4 canales desde una grabadora de campo — un micrófono por persona. ¿La diarización lo usará?+
Lo hará. Carga el WAV polifónico directamente (no rebotes a estéreo primero). Analizamos el diseño del canal del encabezado WAV y asignamos un interlocutor por pista — mucho más confiable que la diarización acústica en voces similares.
04¿Reducirá la resolución de mi WAV de 96 kHz?+
El reconocedor funciona internamente a 16 kHz — ese es el techo de la inteligibilidad del habla humana. Pero mantenemos tu archivo original intacto y lo usamos para cualquier postprocesamiento como puerta de ruido. Tus exportaciones hacen referencia a la línea de tiempo original.
05¿Es WAV realmente más preciso que MP3 para transcripción?+
Marginalmente, sí — usualmente 1-2 puntos de WER en discurso limpio. La brecha más grande aparece en sibilantes y pasajes tranquilos, donde la compresión psicocústica de MP3 descarta información que el reconocedor habría utilizado. Para trabajo de archivo o forense, WAV es la opción correcta.
06¿Se preservan los metadatos BWF y el timecode?+
Leemos fragmentos BWF (bext, iXML) y usamos el timecode de inicio para alinear la transcripción a tu línea de tiempo de sesión. El WAV original nunca se modifica — trabajamos en una copia que se elimina dentro de 24h.
07¿Puedo suelta una carpeta de archivos WAV desde una exportación de sesión DAW?+
Sí. La carga por lotes acepta hasta 50 archivos a la vez. Cada WAV obtiene su propio trabajo y transcripción. Si son stems de una sesión, también puedes fusionarlos en un único WAV multipista antes de cargar y diarizaremos por canal.
08¿Cuánto tiempo realmente toma un WAV estéreo de 1 hora?+
La carga es la parte más lenta — un WAV estéreo de 1 hora 48 kHz / 24-bit es aproximadamente 600 MB y toma 2-5 minutos en banda ancha típica. Una vez cargado, la transcripción en sí se ejecuta en aproximadamente 4-6 minutos en la cola estándar.

Suelta tu WAV. Mantén la calidad sin pérdida. Observa lo que sale.

30 minutos gratis cada mes. Sin tarjeta. Diarización por pista, 32-bit float compatible, audio de origen eliminado en 24h.

Comenzar gratis