I-transkripsiyon ang MP4 video sa text.Automatic na hiwalay ang audio.

I-drop lang ang MP4 file tulad na — kuhain namin ang audio track server-side, ibalik ang timestamped transcript, at ipadala ang SRT na direktang umakyat sa YouTube, Vimeo, o sa iyong NLE.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Tingnan kung ano ang lalabas

MP4 papasok. Transcript + SRT ang labas.

Ang MP4 ay container — binabasa namin ang audio stream nang direkta, hindi na-re-encode ang video. Ang timestamps ay natitira na frame-accurate sa iyong original timeline, kaya ang SRT ay umakyat sa unang import.

training-module-04.mp4REC 1080p · 22:14 · 412 MB
auto-detected en-USAAC 48 kHz stereo · 192 kbps
~90s
Transcript · streaming95% accuracy
S1

Alright, sa module na ito titingin tayo sa refund workflow end-to-end.

S2

Mabilis na tanong bago tayo magsimula — applicable na din ito sa partial refunds?

S1

Maganda catch. Ang partials ay gumagamit ng same screen pero iba reason code.

S2

Got it. At ang approval threshold ay dalawampung piso pa rin ba?

95% sa malinaw na dialogSRT · VTT · DOCX · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tatlong tunay na opsyon · tapat na comparison

DIY gamit ang ffmpeg. Isang video editor. O kami.

Pwede mong extrahin ang audio mo sarili at i-run ang Whisper. Pwede mong i-drag ang MP4 sa Descript o VEED at manatili sa kanilang editor. O pwede mong i-drop ang file dito at makakuha ng transcript + SRT, walang editor lock-in.

Option 01

ffmpeg + Whisper

Libre, lokal, kumplikado. Ikaw ang hawak ng pipeline at bawat bug nito.

KailanganCLI + 10 GB model + GPU
Speaker diarizationHiwalay na tool (pyannote)
SRT outputOo, manual flag
Oras sa 1-hour MP420–90 min sa CPU
Multi-track audioIkaw pipili ng stream
Bayad$0 + ang iyong hardware
Best forMga engineers na gumagamit na ng Whisper locally at hindi na problema ang diarization.
Option 02

Transcription.Solutions

I-drop ang MP4. Audio extraction, diarization, SRT, summary — isang pass lang.

KailanganBrowser, yan lang
Speaker diarizationBuilt in, lahat ng trabaho
SRT outputFrame-aligned sa source
Oras sa 1-hour MP4~4 min, streamed
Multi-track audioIna-list namin lahat ng streams
Bayad · per min$0.03
Best forSinuman may MP4 na gusto ng text at SRT nang walang pag-aral ng video editor o CLI.
Option 03

Descript / VEED

I-load ang MP4 sa editor. Ang transcript ay lilitaw bilang bahagi ng timeline UI.

KailanganAccount + editor learning curve
Speaker diarizationOo, EN-tuned
SRT outputExport-gated ng plan
Upload cap5 GB (Descript free)
Multi-track audioUna track lang
Bayad$12–24/user/buwan
Best forMga editor na gusto mag-cut ng video at transcript sa parehong tool.

Ang pricing at feature caps ay approximate bilang 2026. Ang Descript at VEED tier names ay madalas nagbabago — tingnan ang kanilang site para sa current limits.

Specific sa MP4

Tatlong bagay na nagsasakit sa karaniwang transcription tools.

Ang MP4 ay container, hindi codec — at karamihan ng transcription tools ay tinatrato ito na isang malaking audio blob. Doon nanggagaling ang mga misses.

Ano ang napupunta ng mali

  1. 1Multi-track MP4 na may boom + lav. Ang generic tools ay kumuha ng track 1 at hindi na ng iba, kaya nawala ang mas malinaw na mic. Karaniwan sa FCP at Premiere exports.
  2. 2Background music sa vlogs at ads ay nag-trigger ng phantom words. Ang recognizer ay sinisikap na i-transcribe ang vocals sa music bed.
  3. 3SRT timestamps ay lumilipat kapag ang tool ay nag-re-encode ng video sa entry. By minute 40 ang captions ay isang segundo na off.

Ano ang baguhin dito

  1. 1I-upload — sinusuri namin bawat audio stream at dapat kang pumili kung alin ang i-transkripsiyon. Ang default ay ang highest-bitrate track.
  2. 2I-turn on Music suppression sa job form. Sinusukal namin ang recognizer sa speech VAD kaya ang instrumental sections ay natitira na bakante.
  3. 3Hindi kami kailanman nag-re-encode ng video. Ang audio ay hinihiwalay sa native sample rate, ang timestamps ay tumutukoy sa MP4's edit list — ang SRT ay frame-accurate.

Recommended job settings para sa MP4

I-drop ang MP4 at ang mga ito ay naka-flip na by default. Override per-job mula sa form.

Audio extraction
Native sample rate, walang re-encode
Track selection
Highest-bitrate stream
Diarization
Acoustic · 1-6 speakers
Music suppression
On para sa vlog/ad presets
SRT format
≤42 chars/line, 2 lines max
Export
SRT · VTT · DOCX · timestamped TXT

Accuracy · real-world numbers

95% sa malinaw na shoot. Tapat na numbers pagka-labag ang audio.

Ang MP4 accuracy ay itinakda ng mic, hindi ng codec. Ang lav mic sa quiet set ay laging nanalo sa 4K camera na may on-board audio. Ang numbers sa baba ay galing sa tunay na customer MP4s, inayos ayon sa ano ang kumukuha ng audio.

96%+
Studio shoot, lav o shotgun mic

Lapel o boom papunta sa recorder, 48 kHz AAC sa 192+ kbps, treated room. Ang pinakamataas na case. Ang speaker labels ay nakukuha ito sa two-person shoot.

93%
DSLR na may on-camera shotgun

Camera-top mic 2-4 piye mula sa speaker. May room tone pero ang salita ay maintindihan. Karamihan ng YouTube creator footage ay nandito.

89%
Screen recording na may USB mic

OBS, Loom, Camtasia exports. Ang mic ay malapit pero ang room ay untreated, madalas may system audio bleed. Maganda na para sa tutorial transcripts.

84%
Phone-shot vlog, internal mic

Built-in phone mic, hangin o handling noise, distansya ay iba-iba. Ang mga salita ay magagamit, asahan 1-2 fixes per minuto sa proper nouns.

Mga karaniwang tanong

8 bagay na tinatanong ng mga tao tungkol sa MP4 transcription.

01Re-i-encode ninyo ba ang aking video?+
Hindi. Binabasa lang namin ang audio stream mula sa MP4 container. Ang video stream ay hindi na-touch, hindi na-re-encode, at hindi na-store pagpatapos ang job — pangalagaan mo ang iyong original file na walang pagbabago.
02Anong codecs sa loob ng MP4 ang supported?+
Ang standard H.264 + AAC ay madali. Sinusuportahan din namin ang HEVC/H.265, ProRes-in-MP4, at audio sa MP3, Opus, ALAC, o PCM. Kung kaya ng ffmpeg na i-probe, kaya naming i-transkripsiyon.
03Ano ang file size cap?+
10 GB per upload sa web uploader, 50 GB via ang API na may resumable chunks. Ang typical 1-hour 1080p MP4 ay 1-3 GB kaya karamihan ng files ay fit sa web path nang walang iniisip.
04Uunakyat ba ang SRT sa aming original video?+
Oo — ang timestamps ay tumutukoy sa MP4's edit list at native sample rate. Hindi kami nag-re-encode, kaya walang drift. I-drop ang SRT sa tabi ng MP4 sa any player o NLE at ang captions ay mag-sync sa unang load.
05Pwede ko ba i-burn ang subtitles sa video?+
Hindi sa aming side — ine-output namin ang SRT at iniwan ang burn-in sa iyong editor. ffmpeg one-liner, HandBrake, Premiere, DaVinci, Kapwing lahat ay tumatanggap ng SRT na ginawa namin. Hindi kami gusto na maging encoding tool din.
06Paano ang MOV, MKV, M4V, WebM?+
Lahat supported sa parehong pipeline. MOV lalo na — parehong MPEG-4 family, identical extraction path. MKV na may maraming audio tracks ay makakakuha ng parehong stream-picker UI bilang multi-track MP4.
07Pwede ba akong magpadala ng YouTube o Vimeo URL?+
Oo para sa YouTube — i-paste ang public URL sa upload screen at kuhain namin ang audio direkta, walang MP4 download na kailangan. Vimeo ay nangangailangan ng direct file o signed download link dahil ang kanilang player ay nag-gate sa stream.
08Paano kung walang spoken dialog, music o B-roll lang?+
Ang VAD ay nakatuon sa silent at music-only sections at ti-skip ang mga ito, kaya hindi ka nagbabayad para sa ambient footage. Ang transcript ay markahan ang mga range bilang `[music]` o `[no speech]` imbes na gumagawa ng mga salita.

I-drop ang iyong MP4. Makuha ang transcript at SRT pabalik.

30 minuto libre bawat buwan. Walang card. Ang audio ay hinahiwalay server-side, speaker labels, frame-accurate SRT — lahat kasama.

Magsimula ng libre