Whisper local / open source
Libre kung mayroon kang GPU at isang hapon. Walang speaker diarization out of the box.
Ilagay ang MP3 file sa anumang bitrate mula 64 hanggang 320 kbps. Makakuha ng timestamped, speaker-labeled transcript sa 99 na wika — walang format conversion, walang re-encoding, walang paghihintay sa queue.
MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously
YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more
↓ Tingnan kung ano ang lalabas
Binabasa namin ang MP3 frame headers direkta — VBR, CBR, joint-stereo, anumang encoder (LAME, Fraunhofer, FFmpeg). Kung ang file ay true stereo may speakers sa separate channels, ginagamit namin yan upang hatiin ang mga boses. Ang mono mix-down ay bumabalik sa acoustic diarization.
Kaya kailan mo unang naintindihan na ang archive ay hindi kumpletong?
Marahil sa paligid ng 2019, kung kailan namin nagsimulang i-digitise ang reel-to-reels.
At ang mga nawawalang tapes — naka-catalogue sila kahit saang lugar?
Mayroong paper index mula sa '78, ngunit kalahati nito ay water-damaged.
↓ This is the dashboard
Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.
Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.
Tatlong tunay na opsyon · tapat na paghahambing
Maaari mong i-run ang Whisper sa iyong sariling laptop nang libre kung ikaw ay technical. Ang Otter at Sonix ay tumatanggap ng MP3 uploads sa loob ng subscription dashboards. Kunin namin ang file, ibalik ang transcript, at hindi ka ginagawang manatili sa loob ng isang UI.
Libre kung mayroon kang GPU at isang hapon. Walang speaker diarization out of the box.
Ilagay ang MP3. Makakuha ng speaker-labeled text pabalik sa roughly real-time × 0.025.
Polished dashboard, monthly minutes cap, English-tuned. Ang file upload ay parang side feature lang.
Ang pricing at feature availability ay tumpak mula May 2026. Ang Whisper performance ay nag-iiba depende sa model size at hardware.
Specific sa MP3
Ang MP3 ay isang format, hindi isang recording style — na nangangahulugang ang failure modes ay nagmumula sa encoder, hindi sa speech.
Ang mga default na umaangkop sa ~80% ng MP3 files. Override per-job mula sa form.
Accuracy · real-world numbers
Ang MP3 accuracy ay nakabound sa kung ano ang encoder na itinago, hindi sa amin. Ang perceptual compression sa higit sa ~96 kbps ay napakahusay na nagsisiguro ng speech intelligibility; sa ibaba ng 64 kbps, ang mga sibilant at consonant ay nagsisimulang lumipol. Ang mga numero sa ibaba ay mula sa tunay na customer MP3s sa production.
Halos walang-pagkawala para sa speech. Podcast masters, dictation app exports, professional interview rigs. Diarization na malinis kung ang speakers ay nasa separate channels.
Pinakakaraniwang bitrate para sa spoken-word MP3s. Zoom exports, Riverside downloads, voice recorders default. Compression artifacts na hindi marinig ng recognizer.
Voice memo defaults sa karamihan ng phones. Acoustic diarization ay tumatrato ng 2-4 speakers. Ang mga numero at proper nouns ay paminsan-minsan ay kailangan ng tingin.
Lumang answering-machine rips, lecture archives, narrow-band sources. Ang high-frequency consonants (f/s/sh) ay nagiging hazy. Legible pa rin — mag-plano ng proofread.
Karaniwang mga tanong
30 libre na minuto bawat buwan. Walang card na kailangan. Speaker labels, 99 na wika, bawat export format ay kasama.
Magsimula nang libre