Transkribi MP3 al teksto.Parolanta etikedoj, 100+ lingvoj.

Ĵetu MP3-dosieron ĉe ajna bitkvanto de 64 ĝis 320 kbps. Ricevu tempstampitan, parolanta-etikeditan sencon en 99 lingvoj — neniaj format-konvertiĝoj, neniaj re-kodadoj, neniaj atendado en vicoj.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Vidu kio eliras

MP3 en. Diariza senco ĝis.

Ni legas la MP3-framerojn rekte — VBR, CBR, komunŝtera, iu ajn kodilo (LAME, Fraunhofer, FFmpeg). Se la dosiero estas vera stereo kun parolantoj en apartaj kanaloj, ni uzas ĝin por dividi voĉojn. Monaŭra miksaĵo retroiras al akustika diarizo.

interview-tape-04.mp3REC 192 kbps · stereo · 38:42
aŭtomate detektita en-GB44.1 kHz · LAME 3.100
~90s
Senco · fluo95% akureco
S1

Do kiam vi unue rimarkis ke la arkivo estis nekompleta?

S2

Verŝajne ĉirkaŭ 2019, kiam ni komencis cigitizadi la rulumojn.

S1

Kaj la malhavaj benko — ĉu ili estis katalogita kie ajn?

S2

Ekzistas papera indekso de '78, sed duono el ĝi estas akvobrutita.

95% por 192 kbps stereoSRT · DOCX · TXT · JSON · VTT

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tri realaj variantoj · honesta komparo

Senpaga loka Whisper. Otter aŭ Sonix. Aŭ ni.

Vi povas ruli Whisper en via propra portatablo senpague se vi estas teknika. Otter kaj Sonix akceptas MP3-alŝutojn en abonaj tabloj. Ni prenas la dosieron, redonas la sencon, kaj ne devigas vin vivi ene de interfaco.

Option 01

Whisper loka / malfermitfonta

Senpaga se vi havas GPU-on kaj posttagmezon. Neniuj parolanta diarizo en kubo.

AranĝoPython + CUDA + 10 GB modeloj
Parolanta diarizoNe inkluziva (pyannote aldonaĵo)
Rapido · 1 h MP35–40 min sur nutra GPU
Lingvoj99, sed malgranda modelo falas sub 80%
ElportoTXT / SRT / VTT / JSON
PagoSenpaga + via elektro
Best forInĝenieroj kiuj jam posedas GPU-on, ne bezonas parolanta etikedoj, kaj volas plenajn lokan privateco.
Option 02

Transcription.Solutions

Ĵetu la MP3. Ricevu parolanta-etikeditan tekston reen en preskau duone de tempa kurso × 0.025.

AranĝoĴetu-kaj-iru, nenia konto bezonceca por provi
Parolanta diarizoEnmetita (Pro & Business-planoj)
Rapido · 1 h MP3~90 sekundoj
Lingvoj99, aŭtomate detektita
ElportoSRT · VTT · DOCX · TXT · JSON
Pago · po minuto$0.03
Best forIu ajn kun MP3-o — ĵurnalista bendo, podkasto-elporto, voĉa meznoto, arkiva kopio — kiu ĵus volas akuratan tekston el la alia fino.
Option 03

Otter / Sonix

Lustra tablaro, monata minutoj-ĉapo, angla-akordita. Dosiero-alŝuto sentas kvazaŭ flanka trajto.

AranĝoKonto + pagata plano
Parolanta diarizoAkustika, EN-klina
Rapido · 1 h MP35–10 min en vico
LingvojOtter EN-sole; Sonix ~40
ElportoŜlosita malantaŭ pagata niveloj
Pago$17+/monato aŭ $10+/h (Sonix)
Best forTeamoj kiuj volas sencon-redaktilon kaj kunlaboron interfacon pli ol pura API-stila dosiero→teksto fluo.

Prezaro kaj trajtoĝa atingebleco akurata kiel de majo 2026. Whisper efikeco varias laŭ modelo-grandeco kaj aparataro.

Specifa al MP3

Tri aferoj kiuj mordoblas homoji sur ĝeneralaj transkribaĵ-iloj.

MP3 estas formato, ne enregistraĵ-stilo — kio signifas ke la manko-modoj venas de la kodilo, ne de la parolado.

Kio igas malbonon

  1. 1VBR-ĉapoj malfacilas analisrojn. Iu iloj legas variablo-bitkvanta MP3o kiel fiksa-kursa kaj maltaksmalkulas daron — tempstampoj devias laŭ minutoj super hordurata dosiero.
  2. 2Komunŝtera iĝas ŝanĝita al monaŭro dum alŝuto-pretigo. Vi perdiĝis la po-parolanta kanala apartecon kiu reale estis en la dosiero.
  3. 3Enmetita ID3 albumo-arto tripojo malmultaj alŝutiloj — ili malakceptas la dosieron kiel 'ne-pura-odo' aŭ elstripre kaj re-kodas, malpli kvalitajn plu.

Kio ni igas anstataŭe

  1. 1Ni uzas la Xing/LAME-ĉapojn kiam ĉeestas kaj odrombro-apojon kiam ne. VBR-tempstampoj restas akurataj je ±0,1 s ĉe multi-hora dosieroj.
  2. 2Komunŝtera kaj vera-stereo MP3o iĝas dekoditaj al L/R PCM antaŭ diarizo. Se viaj parolantoj estis panita, ni konservas ilin disiĝintaj.
  3. 3ID3v1, ID3v2, APE-etikedoj, enmetita arto — ĉiuj trapasas sentimoziaj. Ni neniam re-kodas vian MP3.

Rekomendita laboraĵo-agordoj por MP3-alŝutoj

Normalaĵoj kiuj kontentas ~80% de MP3-dosieroj. Invalidigu po-laboraĵo el la formo.

Dekodiĝo
Frame-akurata, neniaj re-kodo
Diarizo
Kanala-divido se stereo, alie akustika
Parolanta-modelo
Aŭtomata · 1-12 parolantoj
Lingvo
Aŭtomate-detektita de unua 30-o
Ŝtopilo-vortoj
Forigita (ŝaltu por konservi)
Elporto-kunmetaĵo
DOCX + SRT + tempstampita TXT

Accuracy · real-world numbers

95%+ por 192 kbps stereo. Uzebla ĝis 64 kbps monaŭro.

MP3 akureco estas limite de kio la kodilo konservis, ne de ni. Percepto-ĉapitra premo super ~96 kbps konservas parol-klarecon tre bone; sub 64 kbps, sibilantoj kaj konsonatoj komencas disfali. Nombroj sube estas de vera klient-MP3o en produktaĵo.

96%
320 kbps stereo, studio-fonto

Preskau-senperde por parolado. Podkasto-masteroj, diktenilo-apel-elportoj, profesia intervju-oparo. Diarizo pura se parolantoj en apartaj kanaloj.

95%
192 kbps stereo, 2-3 parolantoj

Plej ofta bitkvanto por parol-vorta MP3o. Zoom-elportoj, Riverside-ĉutoj, voĉ-enregistrilo-normo. Ĉapitra artefaktoj senson por rekognosko.

91%
128 kbps monaŭro, diskutado

Voĉa-meznoto-normo sur plej multaj telefonoj. Akustika diarizo manipulas 2-4 parolantoj. Nombroj kaj propraj nomoj iam bezneco respekton.

84%
64 kbps monaŭro, arkiva / telefon-ĵeto

Malpla respondmašina-ripon, lekcion-arkivoj, mallarĝa-kanalaj fontoj. Altfrekvenca konsonatoj (f/s/sh) malbuloj. Ankoraŭ legebla — planu redaktadon.

Komunaj demandoj

8 aferoj kiuj le pide demandas pri MP3 transkribado.

01Kio estas la minimuma MP3-bitkvanto kiu ankoraŭ donas uzeblan sencon?+
64 kbps estas la praktika grundmalfermitaĵo. Sub tio, sibilantoj (s, sh, f) premo en bruon kaj vorto-erarakvanto supras 20%. Se vi enregistras novan, celu 128 kbps monaŭro aŭ 192 kbps stereo — ĉio pli ĉapo estas sennecesan por parolado.
02Ĉu mi bezonas konvertu mian MP3 al WAV unue?+
Ne. Re-kodado MP3 → WAV aldas nula akurecon ĉar la datenaj la kodilo forigis estas ĝiaj por senfina. Alŝutu la MP3 rekte. Ni dekoditoj framero en memoro kaj nutran PCM al la rekognoskomaĝino.
03Ĉu stereo MP3 donas min pli bonajn parolanta etikedojn ol monaŭro?+
Nur se la parolantoj estis reale enregistritaj sur apartaj kanaloj — plej stereo MP3o havas la saman odon ambaŭ flankoj ('duonaŭro') kaj gajnoj nenion. Vera kanala-divido (ekz. Riverside-elportoj, du-mikro-kampraîlo) permesas al ni salti akustikan diarizikon kaj etikediti parolantoj preskau-perfektion.
04Kio estas la maksimuma MP3-dosiero-grando kiu vi akceptas?+
5 GB po alŝuto, kiu iĝas preskau 60 horoj je 192 kbps aŭ 90 horoj je 128 kbps. Se via dosiero iĝas plu granda ni montros ĉapitan alŝuton — neniaj bezoncoj por dividi ĝin mem.
05Ĉu longe iĝas 60-minuta MP3 transkribi?+
Kutime 90 sekundoj de alŝuto-kompleto al senco-preta, sencifare de bitkvanto. Dekoditaĵo MP3-frameroj iĝas rapidaj; la tempo iĝas en la rekognosko. Diarizo aldas 5-10 sekundoj sur plurparolanta dosieroj.
06Mia MP3 havas malantaŭa muziko — ĉu la senco iĝos ruinita?+
Mallaŭta litela muziko sub parolado iĝas sona. Laŭta muziko kiu konkuras kun la voĉo (eniro-kantoj, markaĵo sub intervjuoj) iam trigoj misrekognoscojn sur superlitoj. Ŝaltu muziko supresco sur la laboraĵo-formo por antaŭ-filtradi.
07Ĉu vi manipulas MP3o-ĵetitajn de telefono-voĉomeso aŭ respondmašino?+
Jes, kvankam ĉi tiuj ofte estas 8 kHz mallarĝa-kanala re-kodita kiel MP3 — la odo-kvalita ĉapo estas agordita de la originala PSTN-kapto, ne de la MP3-envolvaĵo. Atendi 78-85% akurecon pri tia fonto, kio iĝas la samo ni donacas pri la subtenda telefono.
08Ĉu vi konservas mian MP3 post la senco iĝos preta?+
Dosieroj iĝas forigitaj post 30 tagoj per normo, aŭ nemediate se peton tra la tablaro. La senco restas en via konto ĝis vi ĝin foriĝas. Ni ne uzas klient-odon por trejni iun modelon — neniam.

Ĵetu vian MP3. Ricevu tekston reen en 90 sekundoj.

30 senpaga minuto ĉiu monato. Nenia karto bezonceca. Parolanta etikedoj, 99 lingvoj, ĉiu elporto-formato inkluziva.

Komenci senpage