Trascrivi video MP4 in testo.Audio estratto automaticamente.

Carica il file MP4 così com'è — estraiamo la traccia audio lato server, restituiamo una trascrizione con timestamp e spediamo un SRT che si integra direttamente in YouTube, Vimeo o nel tuo NLE.

Trascina qui il tuo audio o video

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Registra direttamente dal tuo browser

La registrazione richiede 30 secondi: la registrazione si apre subito dopo, nella dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFile cancellati automaticamente in 24h

↓ Guarda cosa esce fuori

MP4 dentro. Trascrizione + SRT fuori.

MP4 è un contenitore — leggiamo il flusso audio direttamente, non ri-codifichiamo mai il video. I timestamp rimangono frame-accurate rispetto alla tua timeline originale, quindi l'SRT si allinea al primo import.

training-module-04.mp4REC 1080p · 22:14 · 412 MB

rilevato automaticamente en-USAAC 48 kHz stereo · 192 kbps

~90s

Trascrizione · streamingPrecisione 95%

S1

Va bene, in questo modulo andiamo attraverso il flusso di rimborso da capo a fondo.

S2

Domanda veloce prima di iniziare — questo vale anche per i rimborsi parziali?

S1

Buona osservazione. I rimborsi parziali usano lo stesso schermo ma un codice motivo diverso.

S2

Capito. E la soglia di approvazione è ancora duecento dollari?

95% su dialogo pulitoSRT · VTT · DOCX · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Riepilogo 5Trascrizione 1,420Parlanti 2Esportazioni

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Punti chiave

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Elementi d'azione

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Tre opzioni reali · confronto onesto

Fai da te con ffmpeg. Un editor video. O noi.

Puoi estrarre l'audio da solo ed eseguire Whisper. Puoi trascinare l'MP4 in Descript o VEED e vivere dentro il loro editor. Oppure puoi caricare il file qui e ottenere la trascrizione + SRT indietro, senza blocco dell'editor.

Option 01

ffmpeg + Whisper

Gratuito, locale, complicato. Possiedi la pipeline e ogni bug in essa.

RichiedeCLI + modello 10 GB + GPU

Diarizzazione del parlanteStrumento separato (pyannote)

Output SRTSì, flag manuale

Tempo su un MP4 di 1 ora20–90 min su CPU

Audio multitracciaScegli tu il flusso

Costo$0 + il tuo hardware

Best forIngegneri che già eseguono Whisper localmente e non temono di aggiungere la diarizzazione in cima.

Option 02

Transcription.Solutions

Carica l'MP4. Estrazione audio, diarizzazione, SRT, riepilogo — un solo passaggio.

RichiedeBrowser, basta così

Diarizzazione del parlanteIntegrata, ogni lavoro

Output SRTAllineato ai frame della fonte

Tempo su un MP4 di 1 ora~4 min, in streaming

Audio multitracciaElenchiamo tutti i flussi

Costo · al minuto$0.03

Best forChiunque abbia un MP4 e voglia il testo e SRT senza imparare un editor video o una CLI.

Option 03

Descript / VEED

Carica MP4 nell'editor. La trascrizione appare come parte della UI della timeline.

RichiedeAccount + curva di apprendimento dell'editor

Diarizzazione del parlanteSì, ottimizzata per l'EN

Output SRTLimitato dall'esportazione del piano

Limite di caricamento5 GB (Descript gratuito)

Audio multitracciaSolo la prima traccia

Costo$12–24/utente/mese

Best forEditor che vogliono tagliare il video e la trascrizione nello stesso strumento.

Prezzi e limiti di funzionalità approssimativi al 2026. I nomi dei livelli di Descript e VEED cambiano frequentemente — controlla il loro sito per i limiti attuali.

Specifico per MP4

Tre cose che mordono le persone sugli strumenti di trascrizione generici.

MP4 è un contenitore, non un codec — e la maggior parte degli strumenti di trascrizione lo trattano come un grande blob audio. È da lì che vengono i problemi.

Cosa va male

1MP4 multitraccia con boom + lavalier. Gli strumenti generici prendono la traccia 1 e ignorano il resto, quindi perdi il microfono più pulito. Comune nelle esportazioni di FCP e Premiere.
2La musica di sottofondo in vlog e annunci attiva parole fantasma. Il riconoscitore cerca di trascrivere i vokali sul letto musicale.
3I timestamp SRT derivano quando lo strumento ri-codifica il video in ingresso. Al minuto 40 i sottotitoli sono di un secondo dietro.

Cosa cambiare qui

1Carica — sondaimo ogni flusso audio e ti lasciamo scegliere quale trascrivere. L'impostazione predefinita è la traccia con il bitrate più elevato.
2Attiva la soppressione della musica nel modulo del lavoro. Istruiamo il riconoscitore su speech VAD così le sezioni strumentali rimangono vuote.
3Non ri-codifichiamo mai il video. L'audio viene estratto alla frequenza di campionamento nativa, i timestamp fanno riferimento all'elenco di modifica del contenitore — SRT si allinea frame-accurate.

Impostazioni di lavoro consigliate per MP4

Carica un MP4 e questi si attivano per impostazione predefinita. Sostituisci per lavoro dal modulo.

Estrazione audio: Frequenza di campionamento nativa, nessuna ri-codifica
Selezione traccia: Flusso con bitrate più elevato
Diarizzazione: Acustica · 1-6 parlanti
Soppressione della musica: Attiva per i preset vlog/ad
Formato SRT: ≤42 caratteri/riga, max 2 righe
Esportazione: SRT · VTT · DOCX · TXT con timestamp

Accuracy · real-world numbers

95% su una ripresa pulita. Numeri onesti quando l'audio si fa difficile.

La precisione MP4 è impostata dal microfono, non dal codec. Un microfono a bavero su un set tranquillo batte sempre una fotocamera 4K con audio integrato. I numeri seguenti provengono da MP4 reali di clienti, ordinati in base a ciò che stava catturando l'audio.

96^%+

Ripresa in studio, microfono lavalier o fucile

Lavalier o boom in un registratore, AAC 48 kHz a 192+ kbps, stanza trattata. Il caso migliore. Le etichette del parlante funzionano perfettamente in una ripresa a due persone.

93^%

DSLR con fucile montato sulla fotocamera

Microfono in cima alla fotocamera a 2-4 piedi dall'oratore. Un po' di room tone ma la parola è intelligibile. La maggior parte dei filmati dei creatori YouTube finisce qui.

89^%

Registrazione dello schermo con microfono USB

Esportazioni OBS, Loom, Camtasia. Il microfono è vicino ma la stanza non è trattata, spesso con bleed audio di sistema. Abbastanza buono per le trascrizioni tutorial.

84^%

Vlog girato con il telefono, microfono interno

Microfono del telefono integrato, rumore di vento o maneggio, la distanza varia da un'inquadratura all'altra. Parole utilizzabili, aspettati 1-2 correzioni al minuto sui nomi propri.

What affects accuracy

The model isn’t the bottleneck — the audio is.

01

Microphone distance and quality

USB or lavalier mic at 30 cm vs phone in pocket at 3 m: 10-point accuracy swing. The mic captures or it doesn't.

02

Background noise

Café chatter, AC hum, traffic, room reverb. The model filters some but can't recover frequencies the mic masked entirely.

03

Accent and speech rate

Strong regional accents, fast speech, code-switching — all drop accuracy 2–4% vs neutral English. Still usable, but plan a review pass.

04

Codec and bitrate

Lossless WAV at 16 kHz+ beats MP3 by 1–2%. Below 64 kbps MP3, perceptual compression starts eating word accuracy noticeably.

05

Speaker overlap

Two people talking simultaneously is the hardest case. Diarization labels both turns but the words inside the overlap may be wrong.

Domande frequenti

8 cose che le persone chiedono sulla trascrizione MP4.

01Ri-codificate il mio video?+

No. Leggiamo solo il flusso audio dal contenitore MP4. Il flusso video non viene mai toccato, mai ri-codificato e mai archiviato dopo il completamento del lavoro — mantieni il tuo file originale invariato.

02Quali codec dentro l'MP4 sono supportati?+

H.264 + AAC standard è il caso facile. Gestiamo anche HEVC/H.265, ProRes-in-MP4 e audio in MP3, Opus, ALAC o PCM. Se ffmpeg può sondarlo, possiamo trascriverlo.

03Qual è il limite della dimensione del file?+

10 GB per caricamento sul caricatore web, 50 GB tramite l'API con blocchi riprendibili. Un tipico MP4 1080p di 1 ora è 1-3 GB quindi la maggior parte dei file si adatta al percorso web senza pensarci.

04L'SRT si allineerà con il mio video originale?+

Sì — i timestamp fanno riferimento all'elenco di modifica MP4 e alla frequenza di campionamento nativa. Non ri-codifichiamo, quindi non c'è deriva. Metti l'SRT accanto all'MP4 in qualsiasi lettore o NLE e i sottotitoli si sincronizzano al primo caricamento.

05Posso bruciare i sottotitoli nel video?+

Non dalla nostra parte — produciamo l'SRT e lasciamo il burn-in al tuo editor. ffmpeg one-liner, HandBrake, Premiere, DaVinci, Kapwing accettano tutti l'SRT che produciamo. Non vogliamo essere anche lo strumento di codifica.

06Che dire di MOV, MKV, M4V, WebM?+

Tutti supportati tramite la stessa pipeline. MOV in particolare — stessa famiglia MPEG-4, identico percorso di estrazione. MKV con più tracce audio ottiene la stessa UI di selezione flusso di un MP4 multitraccia.

07Posso semplicemente inviare un URL YouTube o Vimeo?+

Sì per YouTube — incolla un URL pubblico sullo schermo di caricamento e recuperiamo l'audio direttamente, non è necessario il download MP4. Vimeo richiede un file diretto o un link di download firmato perché il loro lettore limita il flusso.

08E se non ci fosse dialogo parlato, solo musica o B-roll?+

VAD rileva sezioni silenziose e solo musica e le salta, quindi non paghi per i filmati ambientali. La trascrizione contrassegna questi intervalli come `[music]` o `[no speech]` invece di inventare parole.

Carica il tuo MP4. Ottieni la trascrizione e SRT indietro.

30 minuti gratuiti ogni mese. Senza carta. Audio estratto lato server, etichette di parlante, SRT frame-accurate — tutto incluso.