Trascrivi file audio lunghi.Fino a 10 ore. Senza timeout.

Carica un file audio lungo — fino a 10 ore, 5 GB su Business. Suddividiamo in parallelo, manteniamo coerenti gli ID del relatore da capo a fondo e restituiamo un trascritto unico anziché una cartella numerata.

Trascina qui il tuo audio o video

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Registra direttamente dal tuo browser

La registrazione richiede 30 secondi: la registrazione si apre subito dopo, nella dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFile cancellati automaticamente in 24h

↓ Un file di 5 ore, a metà trascrizione

Ore dentro. Un file pulito fuori.

La maggior parte degli strumenti si interrompe intorno al limite dei 90 minuti o divide la tua registrazione lunga in parziali numerati che devi unire. Suddividiamo in finestre sovrapposte di 12 minuti, le elaboriamo in parallelo e le riassichiamo con un passaggio relatore globale.

Sessione di strategia del consiglioREC 3 relatori · 5:14:22 · 3,1 GB

en-GB rilevato automaticamente44,1 kHz stereo · 192 kbps

~90s

Trascritto · file unico92% accuratezza · t=3:14:08

S1

Siamo a tre ore di distanza — torniamo al punto della catena di approvvigionamento della sessione mattutina.

S2

Giusto, la modifica produttiva del Vietnam. Penso che abbiamo sorvolato il rischio di tempo di consegna.

S1

I tempi di consegna sono passati da 14 a 31 giorni dopo il cambio tariffario.

S3

E questo è prima ancora di considerare la congestione portuale a Long Beach.

92% su intero file di 5hDOCX · SRT · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Riepilogo 5Trascrizione 1,420Parlanti 2Esportazioni

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Punti chiave

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Elementi d'azione

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Tre vere opzioni · confronto onesto

Otter Pro. DIY Whisper chunking. O noi.

Gli strumenti per consumatori limitano la lunghezza del file e troncano silenziosamente. L'API Whisper ha un limite di 25 MB per richiesta, quindi costruisci il chunker tu stesso. Noi accettiamo l'intero file di 10 ore e restituiamo un trascritto.

Option 01

Otter Pro

Limita i file lunghi a 4 ore per registrazione. Gli identificatori del relatore si spostano dopo il segno di 2 ore.

Lunghezza massima del file4 ore (livello Pro)

Dimensione massima del file~1,5 GB upload

ID relatore end-to-endSi sposta dopo 2 ore

Output file lungoSingolo doc, troncato al limite

Costo$16,99/utente/mese

Upload ripristinabileNo

Best forRiunioni brevi sotto le 2 ore. Non funziona su registrazioni di intera giornata.

Option 02

Transcription.Solutions

10 ore per file. Chunking parallelo, passaggio relatore globale, un DOCX fuori.

Lunghezza massima del file10 ore (Pro & Business)

Dimensione massima del file2 GB Pro · 5 GB Business

ID relatore end-to-endPassaggio embedding globale

Output file lungoFile unico · DOCX/SRT/TXT

Costo · per minuto$0,03 fisso indipendentemente dalla lunghezza

Upload ripristinabileMultipart, sopravvive ai cali

Best forWorkshop di intera giornata, deposizioni, riunioni di consiglio, storie orali — qualsiasi cosa oltre il limite dei 90 minuti.

Option 03

Whisper API + chunking DIY

Più economico al minuto. Costruisci il chunker, l'unione del relatore e la logica di ripetizione.

Lunghezza massima del file25 MB per richiesta (~25 min)

Dimensione massima del filelimite fisso di 25 MB

ID relatore end-to-endNessuno — nessuna diarizzazione

Output file lungoParziali numerati, tu unisci

Costo · per minuto$0,006 (OpenAI Whisper)

Tempo di progettazioneOre fino a giorni per pipeline

Best forIngegneri che desiderano testo grezzo per chunk e non hanno bisogno di relatori, riepiloghi o un singolo output.

Prezzi e limiti precisi a maggio 2026. Limite di lunghezza Otter Pro verificato l'ultima volta sulla loro pagina di prezzi pubblica.

Specifico per file lunghi

Tre modi in cui gli strumenti generici muoiono dopo il limite dei 90 minuti.

La maggior parte delle pipeline sono state costruite per riunioni di un'ora. L'audio lungo le spezza in modi prevedibili — ecco cosa facciamo diversamente.

Cosa va storto

1Timeout silenzioso a 90 minuti. Il lavoro gira per un'ora, poi muore senza un errore utile. Ti rimane nulla che riprovare.
2Gli ID del relatore si spostano tra i chunk. Il relatore 1 all'ora 1 diventa il relatore 4 all'ora 3 perché ogni chunk viene diarizzato in isolamento.
3L'output è una cartella numerata. `trascritto_parte_01.txt` fino a `trascritto_parte_24.txt` con reset del timestamp ad ogni confine del chunk. Tu lo unisci da solo.

Cosa invertire qui

1Upload multipart ripristinabile. La connessione cade all'ora 2 dell'upload? Riprende dall'ultima parte completata. Nessun re-upload di 4 GB.
2Passaggio embedding relatore globale. Dopo la diarizzazione per chunk, raggruppiamo le voci su tutto il file in modo che il relatore 3 sia la stessa persona al minuto 12 e al minuto 487.
3DOCX singolo con marcatori orari. Un file, timestamp continui, interruzione di capitolo opzionale ogni 60 minuti. Nessuna unione.

Impostazioni di lavoro consigliate per file lunghi

Carica qualsiasi cosa oltre 90 minuti e questi si attivano automaticamente. Ignora per lavoro dal modulo.

Strategia di chunking: Finestre da 12 min · sovrapposizione 10s
Diarizzazione: Passaggio globale su tutti i chunk
Modello relatore: Long-form · 2-20 relatori
Upload: Multipart ripristinabile
Coda: Prioritaria (piano Business)
Esportazione: DOCX singolo · marcatori orari attivati

Accuracy · real-world numbers

Il 92% si mantiene su un file di 5 ore. La qualità rimane costante ora dopo ora.

La parte difficile dell'audio lungo non è il modello — è mantenere l'accuratezza costante dal minuto 1 al minuto 600. Lo spostamento del relatore e gli errori al confine del chunk sono quello che uccide la maggior parte delle pipeline. I numeri sottostanti sono misurati su file cliente di lunghezza intera, non sui primi 10 minuti.

95^%

Audio long-form in studio, relatore singolo

Narrazione di audiolibro, podcast solista, manoscritto dettato. 6-10 ore di voce pulita senza rumore di fondo. Nessuna diarizzazione necessaria.

92^%

Sala del consiglio, 2-6 relatori

Tavolo conferenza, microfono decente, 3-5 ore. Il passaggio relatore globale mantiene gli ID stabili su tutto il file.

88^%

Workshop di intera giornata, microfoni a risvolto

Giornata di formazione di 7-9 ore con passaggi di microfono e domande del pubblico. I nomi hanno bisogno di un passaggio di 5 minuti sui chip del relatore.

82^%

Tavola rotonda sul campo, 8+ relatori

Lungo storia orale, focus group o pannello con voci sovrapposte e rumore ambientale. Utilizzabile, ma aspettati pulizia.

What affects accuracy

The model isn’t the bottleneck — the audio is.

01

Microphone distance and quality

USB or lavalier mic at 30 cm vs phone in pocket at 3 m: 10-point accuracy swing. The mic captures or it doesn't.

02

Background noise

Café chatter, AC hum, traffic, room reverb. The model filters some but can't recover frequencies the mic masked entirely.

03

Accent and speech rate

Strong regional accents, fast speech, code-switching — all drop accuracy 2–4% vs neutral English. Still usable, but plan a review pass.

04

Codec and bitrate

Lossless WAV at 16 kHz+ beats MP3 by 1–2%. Below 64 kbps MP3, perceptual compression starts eating word accuracy noticeably.

05

Speaker overlap

Two people talking simultaneously is the hardest case. Diarization labels both turns but the words inside the overlap may be wrong.

Domande comuni

8 cose che le persone chiedono sulla trascrizione di audio lungo.

01Qual è il limite effettivo di lunghezza e dimensione del file?+

10 ore per file sia su Pro che su Business. Pro limita la dimensione del file a 2 GB, Business a 5 GB. Se hai qualcosa di più lungo di 10 ore, dividilo una volta a un'interruzione naturale — manterremo gli ID del relatore coerenti se li carichi di nuovo su una pausa sul stesso progetto.

02Ottengo un trascritto o una cartella di parziali numerati?+

Un file. Sempre. DOCX, SRT, TXT o JSON — la tua scelta. I timestamp vengono eseguiti continuamente da 00:00:00 alla fine della registrazione, non ripristinati ad ogni confine del chunk.

03Quanto tempo impiega un file di 6 ore per tornare indietro?+

Approssimativamente 18-25 minuti nella coda Pro, 8-12 nella priorità Business. Elaboriamo i chunk da 12 minuti in parallelo, quindi il tempo wall-clock si ridimensiona sub-linearmente con la lunghezza del file, non minuto per minuto.

04Gli ID del relatore rimangono coerenti end-to-end?+

Sì. Dopo la diarizzazione per chunk, un passaggio embedding globale raggruppa le voci su tutto il file. Il relatore 3 al minuto 12 è lo stesso relatore 3 al minuto 487. Questo è il motivo per cui la maggior parte delle pipeline Whisper DIY sbaglia.

05Che cosa succede se il mio upload cade all'ora 3 di un file di 4 GB?+

L'upload multipart ripristinabile riprende dall'ultima parte completata. Non fai nuovamente l'upload dei primi 3 GB. Funziona su Wi-Fi hotel traballante e tethering cellulare — abbiamo testato entrambi.

06Perché l'API Whisper blocca i file lunghi?+

L'endpoint di Whisper di OpenAI ha un limite fisso di 25 MB per richiesta — approssimativamente 25 minuti di audio compresso. Qualsiasi cosa di più lunga ha bisogno di chunking, trascrizione in parallelo, quindi allineamento e allineamento del relatore dei trascritti tu stesso. Facciamo tutto questo lato server.

07Il prezzo al minuto è lo stesso su un file di 10 ore come su un file di 10 minuti?+

Sì. $0,03 al minuto, indipendentemente dalla lunghezza. Un file di 10 ore costa $18. Non applichiamo surcariche per file lunghi come fa Rev ($1,50/min umano × 10 ore = $900).

08Posso ottenere marcatori di capitolo o timestamp ogni ora?+

Attiva 'Marcatori orari' nel modulo di lavoro e il DOCX esporta con un'interruzione di intestazione ogni 60 minuti. SRT mantiene il codice di tempo continuo. JSON ha entrambi — array di capitoli più timestamp a livello di parola.

Carica il tuo file lungo. Ricevi un trascritto unico.

30 minuti gratuiti ogni mese. Senza carta. File fino a 10 ore, etichette del relatore che rimangono coerenti, esportazione in file unico.

Inizia gratuitamente