Transkripsiyon ang MP3 ngadto sa teksto.Mga label ng speaker, 100+ na wika.

Ilagay ang MP3 file sa anumang bitrate mula 64 hanggang 320 kbps. Makakuha ng timestamped, speaker-labeled transcript sa 99 na wika — walang format conversion, walang re-encoding, walang paghihintay sa queue.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Tingnan kung ano ang lalabas

MP3 papasok. Diarized transcript lumalabas.

Binabasa namin ang MP3 frame headers direkta — VBR, CBR, joint-stereo, anumang encoder (LAME, Fraunhofer, FFmpeg). Kung ang file ay true stereo may speakers sa separate channels, ginagamit namin yan upang hatiin ang mga boses. Ang mono mix-down ay bumabalik sa acoustic diarization.

interview-tape-04.mp3REC 192 kbps · stereo · 38:42
auto-detected en-GB44.1 kHz · LAME 3.100
~90s
Transkript · streaming95% na tumpak
S1

Kaya kailan mo unang naintindihan na ang archive ay hindi kumpletong?

S2

Marahil sa paligid ng 2019, kung kailan namin nagsimulang i-digitise ang reel-to-reels.

S1

At ang mga nawawalang tapes — naka-catalogue sila kahit saang lugar?

S2

Mayroong paper index mula sa '78, ngunit kalahati nito ay water-damaged.

95% sa 192 kbps stereoSRT · DOCX · TXT · JSON · VTT

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tatlong tunay na opsyon · tapat na paghahambing

Libre local Whisper. Otter o Sonix. O kami.

Maaari mong i-run ang Whisper sa iyong sariling laptop nang libre kung ikaw ay technical. Ang Otter at Sonix ay tumatanggap ng MP3 uploads sa loob ng subscription dashboards. Kunin namin ang file, ibalik ang transcript, at hindi ka ginagawang manatili sa loob ng isang UI.

Option 01

Whisper local / open source

Libre kung mayroon kang GPU at isang hapon. Walang speaker diarization out of the box.

SetupPython + CUDA + 10 GB models
Speaker diarizationHindi kasama (pyannote add-on)
Speed · 1 hr MP35–40 min sa consumer GPU
Languages99, ngunit ang tiny model ay bumaba sa ibaba ng 80%
ExportTXT / SRT / VTT / JSON
CostLibre + ang iyong kuryente
Best forPara sa mga engineer na may-ari na ng GPU, hindi kailangan ng speaker labels, at gusto ng buong local privacy.
Option 02

Transcription.Solutions

Ilagay ang MP3. Makakuha ng speaker-labeled text pabalik sa roughly real-time × 0.025.

SetupDrag-and-drop, walang account na kailangan upang subukan
Speaker diarizationBuilt in (Pro & Business plans)
Speed · 1 hr MP3~90 segundo
Languages99, auto-detected
ExportSRT · VTT · DOCX · TXT · JSON
Cost · per min$0.03
Best forPara sa sinumang may MP3 — journalist tape, podcast export, voice memo, archival dub — na gusto lang ng accurate text sa dulo.
Option 03

Otter / Sonix

Polished dashboard, monthly minutes cap, English-tuned. Ang file upload ay parang side feature lang.

SetupAccount + paid plan
Speaker diarizationAcoustic, EN-leaning
Speed · 1 hr MP35–10 min sa queue
LanguagesOtter EN-only; Sonix ~40
ExportLocked sa likod ng paid tiers
Cost$17+/mo o $10+/hr (Sonix)
Best forPara sa mga team na gusto ng transcript editor at collaboration UI nang higit pa sa isang clean API-style file→text flow.

Ang pricing at feature availability ay tumpak mula May 2026. Ang Whisper performance ay nag-iiba depende sa model size at hardware.

Specific sa MP3

Tatlong bagay na problema sa generic transcription tools.

Ang MP3 ay isang format, hindi isang recording style — na nangangahulugang ang failure modes ay nagmumula sa encoder, hindi sa speech.

Ano ang napupunta sa sirang

  1. 1Ang VBR headers ay nais-parse. Ang ilan pang tools ay nagbabasa ng variable-bitrate MP3s bilang fixed-rate at maling kinakalkulan ang duration — ang mga timestamps ay umaalis ng ilang minuto sa loob ng hour-long file.
  2. 2Ang joint-stereo ay napiplapano sa mono sa panahon ng upload preprocessing. Nawalan ka ng per-speaker channel separation na tunay na nasa file.
  3. 3Ang embedded ID3 album art ay nakakanabigo sa ilang uploaders — sinasabing 'hindi pure audio' o sinisirang ito at re-encode, bumababa pa ang kalidad.

Ano ang ginagawa namin sa halip

  1. 1Ginagamit namin ang Xing/LAME header kung kasalukuyang at frame-count fallback kung wala. Ang VBR timestamps ay nananatiling accurate sa ±0.1 s sa multi-hour files.
  2. 2Ang joint-stereo at true-stereo MP3s ay na-decode sa L/R PCM bago ang diarization. Kung ang mga speakers mo ay panned, pinapanatili namin silang naghiwalay.
  3. 3Ang ID3v1, ID3v2, APE tags, embedded art — lahat ay naipasa nang walang kamay. Hindi kami kailanman nag-re-encode ng iyong MP3.

Mga rekomendasyon na job settings para sa MP3 uploads

Ang mga default na umaangkop sa ~80% ng MP3 files. Override per-job mula sa form.

Decoder
Frame-accurate, walang re-encode
Diarization
Channel split kung stereo, kung hindi acoustic
Speaker model
Auto · 1-12 speakers
Language
Auto-detect mula sa unang 30 s
Filler words
Tanggalin (toggle upang panatilihin)
Export bundle
DOCX + SRT + timestamped TXT

Accuracy · real-world numbers

95%+ sa 192 kbps stereo. Gamitin ang hanggang 64 kbps mono.

Ang MP3 accuracy ay nakabound sa kung ano ang encoder na itinago, hindi sa amin. Ang perceptual compression sa higit sa ~96 kbps ay napakahusay na nagsisiguro ng speech intelligibility; sa ibaba ng 64 kbps, ang mga sibilant at consonant ay nagsisimulang lumipol. Ang mga numero sa ibaba ay mula sa tunay na customer MP3s sa production.

96%
320 kbps stereo, studio source

Halos walang-pagkawala para sa speech. Podcast masters, dictation app exports, professional interview rigs. Diarization na malinis kung ang speakers ay nasa separate channels.

95%
192 kbps stereo, 2-3 speakers

Pinakakaraniwang bitrate para sa spoken-word MP3s. Zoom exports, Riverside downloads, voice recorders default. Compression artifacts na hindi marinig ng recognizer.

91%
128 kbps mono, conversational

Voice memo defaults sa karamihan ng phones. Acoustic diarization ay tumatrato ng 2-4 speakers. Ang mga numero at proper nouns ay paminsan-minsan ay kailangan ng tingin.

84%
64 kbps mono, archival / phone-dump

Lumang answering-machine rips, lecture archives, narrow-band sources. Ang high-frequency consonants (f/s/sh) ay nagiging hazy. Legible pa rin — mag-plano ng proofread.

Karaniwang mga tanong

8 na bagay na inaasktang ng mga tao tungkol sa MP3 transcription.

01Ano ang minimum MP3 bitrate na nagbibigay pa rin ng usable transcript?+
64 kbps ang practical floor. Sa ibaba nito, ang mga sibilants (s, sh, f) ay sumasama sa ingay at ang word error rate ay tumataas ng higit 20%. Kung nag-rerecord ka ng bago, target 128 kbps mono o 192 kbps stereo — anumang mas mataas ay sobra na para sa speech.
02Kailangan ko ba na i-convert ang iyong MP3 sa WAV muna?+
Hindi. Ang re-encoding MP3 → WAV ay nagdadagdag ng zero accuracy dahil ang data na itinapon ng encoder ay hindi na bumabalik. Upload ang MP3 direkta. Kami ay nag-decode ng frames sa memory at nagpapakain ng PCM sa recognizer.
03Ang stereo MP3 ay magbibigay sa akin ng mas mahusay na speaker labels kaysa sa mono?+
Lamang kung ang mga speakers ay tunay na narekord sa separate channels — karamihan ng stereo MP3s ay may parehong audio sa magkabilang panig ('dual mono') at walang makukuhang bagay. Ang true channel-split (e.g. Riverside exports, two-mic field rigs) ay nagpapahintulot sa amin na laktawan ang acoustic diarization at label ng speakers nang halos perpekto.
04Ano ang maximum MP3 file size na tinatanggap ninyo?+
5 GB per upload, na humigpit na 60 oras sa 192 kbps o 90 oras sa 128 kbps. Kung mas malaki ang iyong file ay magpapakita kami ng chunked upload — walang pangangailangan na i-split ito mismo.
05Gaano katagal ang 60-minute MP3 na mag-transcribe?+
Karaniwang 90 segundo mula sa upload-complete hanggang transcript-ready, anuman ang bitrate. Ang pag-decode ng MP3 frames ay mabilis; ang oras ay nasa recognizer. Ang diarization ay nagdadagdag ng 5-10 segundo sa multi-speaker files.
06Ang aking MP3 ay may background music — masisira ba ang transcript?+
Ang quiet bed music sa ilalim ng speech ay ayos. Ang malakas na musika na nakikipagkompetensya sa boses (intro stings, scoring sa ilalim ng interviews) ay paminsan-minsan ay nagtutulak ng misrecognitions sa overlapping syllables. I-toggle ang music suppression sa job form upang mag-pre-filter.
07Kaya ninyo ba ang MP3s na ripped mula sa phone voicemail o answering machines?+
Oo, bagaman ang mga ito ay madalas na 8 kHz narrow-band re-encoded bilang MP3 — ang audio quality ceiling ay itinakda ng original PSTN capture, hindi ang MP3 wrapper. Inaasahan ang 78-85% accuracy sa ganitong uri ng source, na pareho sa makukuha namin sa underlying call.
08Pinapangalaguan ninyo ba ang aking MP3 pagkatapos na tapos ang transcript?+
Ang mga files ay dine-delete pagkatapos ng 30 araw bilang default, o kaagad sa request sa pamamagitan ng dashboard. Ang transcript ay nananatili sa iyong account hanggang sa i-delete mo ito. Hindi namin ginagamit ang customer audio upang magsanay ng anumang modelo — kailanman.

Ilagay ang iyong MP3. Makakuha ng teksto pabalik sa 90 segundo.

30 libre na minuto bawat buwan. Walang card na kailangan. Speaker labels, 99 na wika, bawat export format ay kasama.

Magsimula nang libre