MP3 a text — convertir MP3 a text o transcriure àudio MP3, ràpid

Transcriu MP3 a text.Etiquetes d'orador, 100+ idiomes.

Deixa un fitxer MP3 a qualsevol taxa de bits de 64 a 320 kbps. Obtén una transcripció amb marca de temps i etiquetes d'orador en 99 idiomes — sense conversió de format, sense recodificació, sense cues.

Deixa-hi l'àudio o el vídeo

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Grava directament des del navegador

El registre triga 30 segons — la gravació s'obre just després, al dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTEls fitxers s'esborren en 24 h

MP3 dins. Transcripció diaritzada surt.

Llegim els capçaleres de marc MP3 directament — VBR, CBR, joint-stereo, qualsevol codificador (LAME, Fraunhofer, FFmpeg). Si el fitxer és veritable estèreo amb parlants en canals separats, ho fem servir per separar veus. La barreja mono torna a la diarització acústica.

interview-tape-04.mp3REC 192 kbps · estèreo · 38:42

detectat automàticament en-GB44.1 kHz · LAME 3.100

~90s

Transcripció · en directe95% de precisió

Aleshores, quan et vas adonar que l'arxiu era incomplet?

Probablement el 2019, quan vam començar a digitalitzar els carrets.

I les cintes que faltaven — estaven catalogades en algun lloc?

Hi ha un índex en paper del 78, però la meitat està malmesa per l'aigua.

95% en 192 kbps estèreoSRT · DOCX · TXT · JSON · VTT

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Resum 5Transcripció 1,420Veus 2Exportacions

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Punts clau

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Tasques a fer

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Option 01

Whisper local / codi obert

Gratis si tens una GPU i una tarda. Sense diarització de parlants per defecte.

ConfiguracióPython + CUDA + models de 10 GB

Diarització de parlantsNo inclòs (complemento pyannote)

Velocitat · 1 hora MP35–40 min en GPU de consum

Idiomes99, però el model petit cau sota el 80%

ExportacióTXT / SRT / VTT / JSON

CostGratis + la teva electricitat

Best forEnginyers que ja posseeixen GPU, no necessiten etiquetes de parlants i volen privacitat local completa.

Option 02

Transcription.Solutions

Deixa l'MP3. Obtén text amb etiquetes de parlant en aproximadament temps real × 0,025.

ConfiguracióArrossega i deixa, sense compte necessari per provar

Diarització de parlantsIntegrat (plans Pro i Business)

Velocitat · 1 hora MP3~90 segons

Idiomes99, detectat automàticament

ExportacióSRT · VTT · DOCX · TXT · JSON

Cost · per minut$0,03

Best forQualsevol persona amb un MP3 — cinta de periodista, exportació de podcast, nota de veu, gravació d'arxiu — que només vol text precís a l'altra banda.

Option 03

Otter / Sonix

Quadre de control polidor, límit de minuts mensuals, ajustat a l'anglès. La pujada de fitxers sembla una característica secundària.

ConfiguracióCompte + pla pagat

Diarització de parlantsAcústica, amb tendència a l'EN

Velocitat · 1 hora MP35–10 min en cua

IdiomesOtter només EN; Sonix ~40

ExportacióBloquejat darrere nivells pagats

Cost$17+/mes o $10+/hora (Sonix)

Best forEquips que volen un editor de transcripció i interfície de col·laboració més que un flux estil API net de fitxer → text.

Preu i disponibilitat de característiques exactes a partir de maig de 2026. El rendiment de Whisper varia segons la mida del model i el maquinari.

95%+ en 192 kbps estèreo. Usable fins a 64 kbps mono.

La precisió d'MP3 està limitada per el que l'codificador va mantenir, no per nosaltres. La compressió perceptiva per sobre de ~96 kbps conserva molt bé la intel·ligibilitat de la parla; per sota de 64 kbps, els sibilants i les consonants comencen a dissoldre's. Els números següents provenen d'MP3 reals de clients en producció.

8 coses que la gent pregunta sobre la transcripció d'MP3.

01Quina és la taxa de bits mínima d'MP3 que encara dona una transcripció usable?+

64 kbps és el pis pràctic. Per sota, els sibilants (s, sh, f) es comprimeixen en soroll i la taxa d'error de paraula es crema més del 20%. Si estàs gravant de nou, marca 128 kbps mono o 192 kbps estèreo — res més alt és excés per a la parla.

02He de convertir el meu MP3 a WAV primer?+

No. Recodificar MP3 → WAV no afegeix zero precisió perquè les dades que el codificador va descartar se'n van per a sempre. Puja l'MP3 directament. Descodifiquem marcs en memòria i alimentem PCM al reconeixedor.

03L'estèreo MP3 em donarà millors etiquetes de parlant que mono?+

Només si els parlants es van gravar realment en canals separats — la majoria d'MP3s estèreo tenen el mateix àudio als dos costats ('dual mono') i no guanyen res. Separació de canal veritable (p. ex. exportacions Riverside, rigs de camp de dos micròfons) ens permet ometre la diarització acústica i etiquetar parlants gairebé perfectament.

04Quina és la mida màxima de fitxer MP3 que accepteu?+

5 GB per pujada, que és aproximadament 60 hores a 192 kbps o 90 hores a 128 kbps. Si el teu fitxer és més gran, mostrarem una pujada partida — no necessites dividir-ho tu mateix.

05Quant temps tarda a transcriure un MP3 de 60 minuts?+

Típicament 90 segons des de pujada completa fins a transcripció llesta, independentment de la taxa de bits. Descodificar marcs MP3 és ràpid; el temps és en el reconeixedor. La diarització afegeix 5-10 segons en fitxers de múltiples parlants.

06El meu MP3 té música de fons — es ruïnarà la transcripció?+

La música en sord baix la parla està bé. Música alta que competeix amb la veu (senyals d'introducció, puntuació en entrevistes) de vegades causa falta de reconeixement en síl·labes superposades. Canvia supressió de música al formulari de feina per prefiltre.

07Pots manejar MP3s arrancats del correu de veu del telèfon o de les màquines de contesta?+

Sí, encara que aquests solen ser de 8 kHz de banda estreta recodificada com a MP3 — el sostre de qualitat d'àudio es fixa per la captura PSTN original, no l'embolcall d'MP3. Espera el 78-85% de precisió en aquest tipus de font, que és el mateix que obtindríem en la trucada subjacent.

08Conserveu el meu MP3 un cop que la transcripció està feta?+

Els fitxers es suprimeixen després de 30 dies per defecte, o immediatament a petició mitjançant el quadre de control. La transcripció es manté al teu compte fins que la suprimeixis. No utilitzem àudio de client per entrenar cap model — mai.

Transcriu MP3 a text.Etiquetes d'orador, 100+ idiomes.

Deixa-hi l'àudio o el vídeo

Paste a link, we’ll fetch the audio

Grava directament des del navegador

MP3 dins. Transcripció diaritzada surt.

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Whisper local lliure. Otter o Sonix. O nosaltres.

Whisper local / codi obert

Transcription.Solutions

Otter / Sonix

Tres coses que et causen problemes amb les eines de transcripció genèriques.

El que va malament

El que fem en comptes

Configuració de feina recomanada per a pujades d'MP3

95%+ en 192 kbps estèreo. Usable fins a 64 kbps mono.

8 coses que la gent pregunta sobre la transcripció d'MP3.

Deixa l'MP3. Obtén text en 90 segons.