Transscribe MP3 ad textum.Nominibus loquentium, 100+ linguae.

Dimitte limam MP3 quacumque velocitate 64–320 kbps. Accipe transscriptum cum notis temporis et nominibus loquentium in 99 linguis — nulla conversio formae, nulla recodificatio, nulla praestolatio caudae.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Vide quid exeunt

MP3 in. Transscriptum distinctum foras.

Capita framium MP3 legimus directe — VBR, CBR, stereo iunctum, quicumque codificator (LAME, Fraunhofer, FFmpeg). Si vera stereo speakers canalis separatis, hoc usurpamus ad voces dividendas. Flatus mono retrocedit ad distinctionem acusticam.

interview-tape-04.mp3REC 192 kbps · stereo · 38:42
en-GB automatice detectum44.1 kHz · LAME 3.100
~90s
Transscriptum · flumen95% accuratio
S1

Quando primum comprehendisti archivum esse incompletus?

S2

Circa 2019, cum digitizare bobinas reel-to-reel coeperimus.

S1

Et bobinaes quae abessent — num alicubi catalogatae erant?

S2

Index chartaceus ab '78 adest, sed dimidium aqua laesus est.

95% super 192 kbps stereoSRT · DOCX · TXT · JSON · VTT

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tres verae optiones · comparatio honesta

Whisper liberum locale. Otter vel Sonix. Aut nos.

Potis Whisper in tuo computatro proprio curre liberum si peritiam habes. Otter et Sonix acceptant MP3 mittere intra dashboards subscriptionis. Lima nos damus, transscriptum remittimus, nec te cogimus in UI habitare.

Option 01

Whisper locale / aperta

Liberum si GPU et meridiem habes. Distinctio loquentium non includit se.

ConstitutioPython + CUDA + 10 GB exemplaria
Distinctio loquentiumNon inclusum (pyannote addendum)
Celeritas · 1 h MP35–40 min super consumer GPU
Linguae99, sed exemplar parvum infra 80%
ExportatioTXT / SRT / VTT / JSON
PretiumLiberum + tua electricitas
Best forPeriti qui GPU iam possident, nominibus loquentium non opus, et privatiam plenam desiderant.
Option 02

Transcription.Solutions

Dimitte MP3. Accipe verba cum distinctione loquentium reddeuntia prope reali tempore × 0.025.

ConstitutioTraho et omitte, nulla subscriptio ad conandium
Distinctio loquentiumInclusum (Pro et Business planes)
Celeritas · 1 h MP3~90 secundae
Linguae99, automatice detectae
ExportatioSRT · VTT · DOCX · TXT · JSON
Pretium · per minutam$0.03
Best forQuisquis cum MP3 — charta iurnalistae, exportatio podcastii, admonitio vocis, copiatio archivi — qui solum verba claram in fine vult.
Option 03

Otter / Sonix

Dashboard poliendum, minutae mensium capae, Anglice tunus. Mittere limam sicut visum secundarium sentitur.

ConstitutioSubscriptio + planum mercedum
Distinctio loquentiumAcustica, EN-pendulum
Celeritas · 1 h MP35–10 min in cauda
LinguaeOtter EN-solum; Sonix ~40
ExportatioClausa post planis mercedum
Pretium$17+/mensis aut $10+/h (Sonix)
Best forSocietates quae volunt transscriptum editor et interface collaborationis magis quam fluxum API-styli lima → verba.

Pretia et facultates accurat Maio 2026. Whisper effectus per exemplaris magnitudinem et apparatus variat.

Specificum ad MP3

Tria quae homines mordent cum instrumentis transscriptionis genericis.

MP3 forma est, non stilus recordationis — quod significat modi defectus veniunt ab codificatore, non ab voce.

Quid mala fit

  1. 1Capita VBR male interpretantur. Quaedam instrumenta legunt MP3s variable-bitrate ut fixe-rate et male computant durationis — temporibus longae horae limae minutae aberrant.
  2. 2Stereo iunctum ad mono flaunt durante mittendo praeparatione. Separationem canalis per-loquentium perdit quae vere in lima erat.
  3. 3ID3 arte album emersum quaedam mittentes offendunt — lima vult ut 'non purum audio' vel nudant et recodificant, artificia delent.

Quid loco fit

  1. 1Caput Xing/LAME cum praesentem et frame-count remissium cum non. VBR temporibus accuratis manet ad ±0.1 s super multi-horae limae.
  2. 2Stereo iunctum et vera-stereo MP3s ad L/R PCM decodificantur ante distinctionem. Si tua speakers panis erant, eos divisos servamus.
  3. 3ID3v1, ID3v2, APE tagas, ars emersa — omnia pertranseunt illesa. Tuam MP3 numquam recodificamus.

Palatione suasae pro mittendarum MP3

Defectus quae ~80% limae MP3 caleant. Antelate per-opus ex forma.

Decodificator
Modus acutus, nulla recodificatio
Distinctio
Canalis divisio si stereo, aliter acustica
Exemplar loquentium
Auto · 1-12 loquentes
Lingua
Auto-detecta ab primo 30 s
Verba farciminis
Remota (togulam ad servum)
Exportationis fascis
DOCX + SRT + temporatum TXT

Accuracy · real-world numbers

95%+ super 192 kbps stereo. Utilis deorsum ad 64 kbps mono.

Accuratio MP3 limitata est ab eo quod codificator servavit, non ab nobis. Compressio sensibilis super ~96 kbps intelligentiam vocis optime servat; infra 64 kbps, sibilantia et consonantia incipiunt diffluere. Numeri infra ab veris limis MP3 clientium in productione.

96%
320 kbps stereo, fons studio

Prope-sine iactura pro voce. Mastera podcastii, exportationes dictaminis, rigae intervistarum professionales. Distinctio clara si speakers canalis separatis.

95%
192 kbps stereo, 2-3 loquentes

Vulgaris maxime velocitas bitum pro MP3 loquentibus. Exportationes Zoom, Riverside donabiles, voice recorders defectus. Artefacta compressionis auditori inaudita.

91%
128 kbps mono, conversabilis

Vocedefault admonitiones in phoneis pluribus. Distinctio acustica 2-4 loquentes habet. Numera et nomina propria interdum oculum reguirant.

84%
64 kbps mono, archivum / phone-dump

Vetus iacet machine ripi, archiva lectiones, fontes angust-bandi. Consonantia alti-frequentiae (f/s/sh) incubuit. Adhuc legibilis — correceptionem plana.

Quaestiones communes

8 res quae homines quaerunt de MP3 transscriptione.

01Qualis minima velocitas bitum MP3 adhuc transscriptum utilem dat?+
64 kbps limis practicus est. Infra hoc, sibilantia (s, sh, f) in strepitu compremuntur et erroris lex verborum super 20% ascendit. Si tu recens recordas, intende 128 kbps mono vel 192 kbps stereo — quicquid altiore oxa facit pro voce.
02Debene conversio MP3 ad WAV primum facere?+
Non. Recodificatio MP3 → WAV nullam accurationem addit quia data quam codificator omisit abita est perpetuo. Lima MP3 mittere directe. Framen decodificamus memoriam et PCM recognitori nutritus.
03Num stereo MP3 meliora nominibus loquentium quam mono dabit?+
Modo si speakers canalis separatis vere fuerunt recordati — plurima stereo MP3s eandem audium habet ambo parte ('dual mono') et nihil lucrantur. Vera canalis-divisio (e.g. Riverside exportationes, duo-mic field rigae) nos saltare permittunt distinctionem acusticam et nominibus loquentium prope perfectis.
04Qualis maxima lima MP3 magnitudo accipis?+
5 GB per mittere, quae prope 60 horae super 192 kbps vel 90 horae super 128 kbps. Si lima tuam maior est mittimus chunked mittere — opus nulla scindio tuae ipsius.
05Quantum temporis lima 60-minuta MP3 ad transscribendum?+
Typice 90 secundas ab mittendo-completo ad transscriptum-parum, velocitate bitum non obstat. Decodificatio framium MP3 velox; tempus in recognitore est. Distinctio 5-10 secundas multi-loquente limis addunt.
06Mea MP3 habet musicum fundi — transscriptum ruinatum erit?+
Lectum quietum musicum sub voce bene. Musicum forte quod competi cum voce (introductiones, scoring sub intervistarum) interdum incertitudines trigerat syllabae superpositus. Togula suppressio musici in lima forma ad pre-filtrare.
07Num MP3s ab phonie vocemail vel answerinae machines rips habere potes?+
Ita, quamquam haec saepe 8 kHz narrow-band recodificate MP3 — limitis superiorum qualitatus audio ab originali PSTN captura ponitur, non ab involucro MP3. Intende 78-85% accurationem talis fontis, quae eadem est quam in subiecto voce.
08Num limam meam MP3 servate post transscriptum?+
Limae delentur 30 dies post defecto, vel immediate ad rogatum per dashboard. Transscriptum in subscriptione tuam restat donec scindito. Clientium audio numquam usurpamus aliquem exemplari curanti — nunquam.

Diruta MP3. Accipe verba in 90 secundis.

30 minutae liberae omni mense. Nulla charta. Nominibus loquentium, 99 linguae, omnes exportationis formae inclusae.

Incipe liberum