MP3 a texto — converte MP3 a texto ou transcribe audio MP3, rápido

Transcribe MP3 a texto.Etiquetas de orador, 100+ idiomas.

Solta un ficheiro MP3 a calquera taxa de bits de 64 a 320 kbps. Obtén un transcript con marca de tempo e etiquetas de orador en 99 idiomas — sen conversión de formato, sen recodificación, sen agardar en cola.

Solta o teu audio ou vídeo

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Grava directamente desde o navegador

O rexistro lévache 30 segundos — a gravaciónel.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTOs ficheiros bórranse en 24 h

MP3 dentro. Transcript diarizado fóra.

Lemos directamente os encabezados de marcos de MP3 — VBR, CBR, estéreo conxunto, calquera codificador (LAME, Fraunhofer, FFmpeg). Se o ficheiro é verdadeiro estéreo con oradores en canais separados, usámoselo para dividir voces. O mix-down mono volvese á diarización acústica.

interview-tape-04.mp3REC 192 kbps · estéreo · 38:42

auto-detectado en-GB44.1 kHz · LAME 3.100

~90s

Transcript · en directoPrecisión 95%

Entón, cándo che deu conta de que o arquivo estaba incompleto?

Probablemente arredor de 2019, cando comezamos a dixitalizar as bobinas.

E as cintas que faltan — estaban catalogadas en algún lugar?

Hai un índice en papel do '78, pero a metade está dañada pola auga.

95% en 192 kbps estéreoSRT · DOCX · TXT · JSON · VTT

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Resumo 5Transcrición 1,420Interlocutores 2Exportacións

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Tese principais

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Tarefas

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Option 01

Whisper local / código aberto

Gratis se tes un GPU e unha tarde. Sen diarización de orador fóra da caixa.

ConfiguraciónPython + CUDA + 10 GB models

Diarización de oradorNon incluído (complemento pyannote)

Velocidade · 1 hr MP35–40 min nun GPU de consumo

Idiomas99, pero o modelo pequeno cae por debaixo do 80%

ExportaciónTXT / SRT / VTT / JSON

CustoGratis + a túa electricidade

Best forEnxeñeiros que xa teñen un GPU, non precisan etiquetas de orador e queren privacidade local completa.

Option 02

Transcription.Solutions

Solta o MP3. Obtén texto con etiquetas de orador de volta en tempo máis ou menos real × 0.025.

ConfiguraciónArrastra e solta, sen conta necesaria para probar

Diarización de oradorIntegrada (plans Pro & Business)

Velocidade · 1 hr MP3~90 segundos

Idiomas99, auto-detectados

ExportaciónSRT · VTT · DOCX · TXT · JSON

Custo · por min$0.03

Best forCalquera persoa con un MP3 — cinta de xornalista, exportación de podcast, nota de voz, duplicada arquival — que só quere texto preciso no outro extremo.

Option 03

Otter / Sonix

Panel pulido, límite de minutos mensuais, afinación en inglés. A carga de ficheiros parece unha característica secundaria.

ConfiguraciónConta + plan pagado

Diarización de oradorAcústica, EN-inclinada

Velocidade · 1 hr MP35–10 min en cola

IdiomasOtter só EN; Sonix ~40

ExportaciónBloqueada detrás de capas pagadas

Custo$17+/mes ou $10+/hr (Sonix)

Best forEquipos que queren un editor de transcript e IU de colaboración máis que un flujo limpo de ficheiro→texto ao estilo API.

Prezos e dispoñibilidade de funcións precisos a maio de 2026. O rendemento de Whisper varía segundo o tamaño do modelo e o hardware.

95%+ en 192 kbps estéreo. Usable até 64 kbps mono.

A precisión de MP3 está limitada por o que o codificador mantivo, non por nós. A compresión perceptual por encima de ~96 kbps preserva moi ben a inteligibilidade da fala; por debaixo de 64 kbps, os sibilantes e consonantes comezar a disolverse. Os números de abaixo son de MP3s reais de clientes en produción.

8 cousas que a xente pregunta sobre transcripción de MP3.

01Cal é a taxa de bits mínima de MP3 que segue dando un transcript usable?+

64 kbps é o piso práctico. Por debaixo, os sibilantes (s, sh, f) comprimen en ruído e a taxa de erro de palabras soe máis do 20%. Se estás gravando novo, apunta a 128 kbps mono ou 192 kbps estéreo — calquera cousa máis alta é excesivo para fala.

02¿Preciso converter o meu MP3 a WAV primeiro?+

Non. Recodificar MP3 → WAV non engade cero precisión porque os datos que o codificador descartou desapareceron para sempre. Carga o MP3 directamente. Decodificamos marcos en memoria e alimentamos PCM ao recoñecedor.

03¿O MP3 estéreo me dará mellores etiquetas de orador que mono?+

Só se os oradores foron gravados realmente en canais separados — a maioría dos MP3s estéreo teñen o mesmo audio nos dous lados ('mono dual') e non gañan nada. A verdadeira división de canais (por exemplo, exportacións de Riverside, equipos de campo de dous micrófonos) permítenos saltar a diarización acústica e etiquetar oradores case perfectamente.

04Cal é o tamaño máximo de ficheiro MP3 que aceptas?+

5 GB por carga, que é aproximadamente 60 horas a 192 kbps ou 90 horas a 128 kbps. Se o teu ficheiro é máis grande, mostraremos unha carga fragmentada — non hai necesidade de dividilo ti mesmo.

05¿Canto tempo leva transcribir un MP3 de 60 minutos?+

Normalmente 90 segundos desde que a carga se completa ata que o transcript está listo, independentemente da taxa de bits. Decodificar marcos de MP3 é rápido; o tempo está no recoñecedor. A diarización engade 5-10 segundos en ficheiros multiorador.

06O meu MP3 ten música de fondo — ¿será destrozado o transcript?+

A música calmada baixo a fala está ben. A música forte que compite coa voz (picaros de introdución, puntuación baixo entrevistas) ás veces desencadea erro de recoñecementos en sílabas superpostas. Alterna a supresión de música no formulario de traballo para filtrar previamente.

07¿Podes manexar MP3s extraídos do voicemail do teléfono ou máquinas de contestador?+

Si, aínda que estes a miúdo se recodifican como MP3 de banda estreita de 8 kHz — o teito de calidade de audio está establecido pola captura PSTN orixinal, non polo emvolorio MP3. Espera unha precisión do 78-85% nese tipo de fonte, que é o mesmo que obteríamos na chamada subxacente.

08¿Gardas o meu MP3 despois de que se fai o transcript?+

Os ficheiros se borran despois de 30 días por defecto, ou inmediatamente por solicitude a través do panel. O transcript permanece na túa conta ata que o borre. Non usamos audio de clientes para adestrar ningún modelo — nunca.

Transcribe MP3 a texto.Etiquetas de orador, 100+ idiomas.

Solta o teu audio ou vídeo

Paste a link, we’ll fetch the audio

Grava directamente desde o navegador

MP3 dentro. Transcript diarizado fóra.

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Whisper local gratis. Otter ou Sonix. Ou nós.

Whisper local / código aberto

Transcription.Solutions

Otter / Sonix

Tres cousas que morden ás persoas en ferramentas de transcripción xenéricas.

Que sae mal

Que facemos en su lugar

Configuración de traballo recomendada para cargas de MP3

95%+ en 192 kbps estéreo. Usable até 64 kbps mono.

8 cousas que a xente pregunta sobre transcripción de MP3.

Solta o teu MP3. Obtén texto de volta en 90 segundos.