How accurate is the transcription?

On clear audio with one or two speakers, accuracy reaches 95%+ in most major languages. Quality drops with background noise, heavy accents, or overlapping speech.

What languages are supported?

100+ languages with automatic detection. You can also force a specific language if auto-detect picks the wrong one. The user interface is English-only.

How long do you keep my files?

Source media (the audio or video you uploaded) is deleted from our infrastructure within 24 hours after transcription completes. The transcript and summary stay in your account until you delete them, or 30 days after you delete your account.

Do you train models on my recordings?

No. The upstream speech-to-text provider has training opt-out by default for paid endpoints, which is what we use. We add nothing on top: no own models trained on your transcripts, no shadow analytics.

What happens if a job fails?

Your minutes are not deducted. Most failures (private URL, file too long, unsupported codec) come with a clear error message and retry guidance.

Yes — anytime from the Stripe customer portal. You keep your plan through the paid period, then drop to Free at the next renewal date.

What is the refund policy?

Full refund within 7 days if you have used less than 10% of your plan minutes. After that, pro-rated refunds for the unused portion. Email support@transcription.solutions.

Yes — REST API is live with webhooks. API key authentication, per-key rate limits by plan tier. Documentation at /docs/api.

Empezar gratis

Transcribir
grabaciones de voz, audio y vídeo, vídeos de YouTube, archivos de audio, archivos de vídeo, vídeos MP4, reuniones de Zoom, Microsoft Teams, Google Meet, entrevistas, podcasts, clases, vídeos de TikTok, notas de voz de WhatsApp, notas de voz, archivos MP3, llamadas, sermones
a texto. En segundos

Obtén una transcripción limpia con etiquetas de hablantes y resumen de IA, más rápido que en tiempo real.

Suelta tu audio o vídeo

MP3 · MP4 · WAV · M4A · MOV · hasta 10 horas por archivo

Pega un enlace y extraemos el audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · +50 más

Graba directamente desde tu navegador

Registrarse lleva 30 segundos — la grabación se abre justo después, en el panel.

Gratis 30 min/moSin tarjeta100+ 100+ idiomasEtiquetas de hablantes (Pro+)Los archivos se eliminan automáticamente en 24 h

Plan gratuito: 30 minutos al mes, hasta 30 min por archivo. No se requiere tarjeta.

100+

Idiomas detectados automáticamente

Detección automática con anulación manual.

95%+

Precisión en audio limpio

Los principales idiomas, uno o dos hablantes.

10h

Duración máxima de archivo en Business

10 h en Pro · 30 min en Free.

~30×

Más rápido que en tiempo real

Un archivo de 60 min suele estar listo en 2-3 min.

Este es el panel

Haz clic para explorar. Es la versión real

Las pestañas funcionan. Los elementos de acción se pueden activar. Esto es exactamente lo que se carga en tu cuenta después de que un trabajo finalice — mismo diseño, mismos controles.

app.transcription.solutions / jobs / interview-ari-2026-04-26

Resumen

captura automática · saved

TL;DR

Los fundadores necesitan contenido posterior a la llamada, no solo transcripciones. Las herramientas los obligan a unir 5 aplicaciones.

318words2hablantes · 58 / 425temas

Puntos clave 3

01Existe una brecha entre las grabaciones en bruto y el contenido publicable
02Notas del programa, clips sociales, borradores de blog: se esperan al final de la llamada
03Las herramientas actuales están fragmentadas en más de 5 aplicaciones

Elementos de acción 2

Investigar un enfoque de tubería única para reemplazar la unión de 5 aplicaciones
Simular cómo se vería un borrador de notas del programa a partir de esta transcripción

Temasflujo de trabajo del fundadorcontenido posterior a la llamadafragmentación de herramientasnotas del programatubería única

Transcripción diarizada

4 líneas · 2 hablantes · clip de 30 s

00:12Hablante AEntonces, lo que sigo escuchando de los fundadores es esta brecha entre las grabaciones en bruto y el contenido que realmente se puede publicar.

00:27Hablante BExactamente. Nadie quiere otra transcripción, quieren una nota del programa, un clip, un borrador de blog, para cuando termine la llamada.

00:41Hablante ACierto, y las herramientas actuales te obligan a unir cinco aplicaciones para lograrlo.

00:54Hablante BUna tubería, un lugar. Esa es la apuesta.

Análisis de hablantes

División de canales estéreo · diarización en mono

Hablante A

58% de tiempo al aire

Turns

14s

Tiempo de habla

…esta brecha entre las grabaciones en bruto y el contenido que realmente se puede publicar.

Hablante B

42% de tiempo al aire

Turns

10s

Tiempo de habla

Una tubería, un lugar. Esa es la apuesta.

Formatos de exportación

Todos los planes, todos los formatos · 7 salidas · sin marcas de agua · TXT · SRT · MD · JSON · VTT · DOCX · PDF

TXT

Texto sin formato

Volcado de texto limpio · todos los planes

SRT

Subtítulo SubRip

Subtítulo con marca de tiempo · todos los planes

Markdown

Encabezados de hablantes + resumen · todos los planes

JSON

JSON estructurado

Esquema público · para flujos de trabajo con API · todos los planes

VTT

Subtítulo WebVTT

Formato de reproductor de vídeo HTML5 · todos los planes

DOCX

Documento de Word

Encabezados de hablantes + marcas de tiempo · todos los planes

PDF

PDF con marca

Listo para imprimir · resumen y hablantes · todos los planes

DEMO · SILENCIADO

0:18 / 1:00

Salida de muestra · 30 segundos de un clip de podcast

Un archivo. Ocho resultados

Pasa el cursor o toca cualquier salida para ver cómo se ve realmente. El mismo clip de podcast de 30 segundos en el centro, ocho artefactos derivados de él.

Transcripción

Puntuado · con marca de tiempo

00:12 Hablante A
Entonces, lo que sigo escuchando de los fundadores es esta brecha…

Resumen de IA

TL;DR · puntos clave

Los fundadores necesitan contenido posterior a la llamada contenido, no solo transcripciones. Las herramientas los obligan a unir 5 aplicaciones.

Hablantes

Diarización · Pro+

División de canales estéreo para llamadas de dos personas. Diarización en mono para todo lo demás.

100+ idiomas

Detección automática

ASR de nivel de investigación. Fuerza un idioma específico si la detección automática elige el incorrecto.

interview-ari-2026-04-26.mp3

Clip de 30 segundos · 2 hablantes

100+ idiomas · detección automática · 95%+ de precisión

Transcripción · ventana de 30 s