Transcriu arxius d'àudio fins a 10 hores — àudio llarg a text, sense límit de temps

Transcriu arxius d'àudio llargs.Fins a 10 hores. Sense límit de temps.

Carrega un arxiu d'àudio llarg — fins a 10 hores, 5 GB en Business. Dividim en paral·lel, mantenim les IDs de parlants consistents de principi a fi, i retornem una única transcripció en lloc d'una carpeta numerada.

Deixa-hi l'àudio o el vídeo

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Grava directament des del navegador

El registre triga 30 segons — la gravació s'obre just després, al dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTEls fitxers s'esborren en 24 h

Hores dins. Un arxiu net fora.

La majoria d'eines s'estallen al voltant de la marca de 90 minuts o divideixen la teva gravació llarga en parcials numerats que has de cosir. Dividim en finestres solapades de 12 minuts, les processem en paral·lel i les reassemblem amb una passada global de parlant.

Sessió d'estratègia de juntaREC 3 parlants · 5:14:22 · 3.1 GB

detectat automàticament en-GB44.1 kHz estèreo · 192 kbps

~90s

Transcripció · arxiu únic92% de precisió · t=3:14:08

Portem tres hores — tornem al tema de la cadena de subministrament de la sessió del matí.

Clar, el gir de la manufactura a Vietnam. Crec que vam passar per alt el risc de temps de lliurament.

Els temps de lliurament van passar de 14 a 31 dies després del canvi d'aranzels.

I això és abans de tenir en compte la congestió portuària a Long Beach.

92% en tot l'arxiu de 5hDOCX · SRT · TXT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Resum 5Transcripció 1,420Veus 2Exportacions

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Punts clau

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Tasques a fer

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Option 01

Otter Pro

Limita arxius llargs a 4 hores per gravació. Les etiquetes de parlant es desviuen després de la marca de 2 hores.

Longitud màxima de l'arxiu4 hores (nivell Pro)

Mida màxima de l'arxiu~1,5 GB de càrrega

IDs de parlant de principi a fiEs desvia després de 2 hores

Sortida de l'arxiu llargDocument únic, truncat al límit

Cost$16,99/usuari/mes

Càrrega reanudableNo

Best forReunions curtes de menys de 2 hores. Es col·lapsa en gravacions de tot el dia.

Option 02

Transcription.Solutions

10 hores per arxiu. Chunking paral·lel, passada de parlant global, un DOCX de sortida.

Longitud màxima de l'arxiu10 hores (Pro i Business)

Mida màxima de l'arxiu2 GB Pro · 5 GB Business

IDs de parlant de principi a fiPassada global d'embedding

Sortida de l'arxiu llargArxiu únic · DOCX/SRT/TXT

Cost · per minut$0,03 plans independentment de la longitud

Càrrega reanudableMultipart, resistent a bestretes

Best forTallers de tot el dia, deposicions, reunions de junta, històries orals — qualsevol cosa més enllà de la barrera de 90 minuts.

Option 03

Whisper API + chunking DIY

Més barat per minut. Tu construeixes el divisor, la costura de parlant i la lògica de reintent.

Longitud màxima de l'arxiu25 MB per sol·licitud (~25 min)

Mida màxima de l'arxiuLímit dur de 25 MB

IDs de parlant de principi a fiCap — sense diarització

Sortida de l'arxiu llargParcials numerats, tu cosius

Cost · per minut$0,006 (OpenAI Whisper)

Temps d'enginyeriaHores a dies per pipeline

Best forEnginyers que volen text brut per chunk i no necessiten parlants, resum o una sortida única.

Preus i límits precisos a partir de maig de 2026. Límit de longitud de Otter Pro verificat per última vegada a la seva pàgina de preus públics.

92% es manté en un arxiu de 5 hores. La qualitat es manté plana hora a hora.

La part difícil amb l'àudio llarg no és el model — és mantenir la precisió plana del minut 1 al minut 600. La deriva de parlant i els errors als límits de chunks són els que maten la majoria de pipelines. Els números següents es mesuren en arxius de clients de longitud completa, no en els primers 10 minuts.

8 coses que la gent pregunta sobre la transcripció d'àudio llarg.

01Quin és el límit real de longitud i mida de l'arxiu?+

10 hores per arxiu tant en Pro com en Business. Pro limita la mida de l'arxiu a 2 GB, Business a 5 GB. Si tens quelcom més de 10 hores, divideix-lo una vegada en un trencament natural — mantindrem les IDs de parlant consistents si les carregues consecutivament en el mateix projecte.

02Obtinc una transcripció o una carpeta de parcials numerats?+

Un arxiu. Sempre. DOCX, SRT, TXT o JSON — la teva tria. Les marques de temps corren contínuament de 00:00:00 fins al final de la gravació, no es restableixen a cada límit de chunk.

03Quant temps tarda en tornar un arxiu de 6 hores?+

Més o menys 18-25 minuts a la cua Pro, 8-12 a la prioritat Business. Processem els chunks de 12 minuts en paral·lel, de manera que el temps s'escala sub-linealment amb la longitud de l'arxiu, no minut a minut.

04Les IDs de parlant es mantenen consistents de principi a fi?+

Sí. Després de la diarització per chunk, una passada global d'embedding agrupa veus en tot l'arxiu. Parlant 3 al minut 12 és el mateix Parlant 3 al minut 487. Això és la cosa principal que els pipelines DIY de Whisper fan malament.

05Què passa si la meva càrrega cau a l'hora 3 d'un arxiu de 4 GB?+

La càrrega multipart reanudable es reprèn des de la darrera part completada. No has de re-carregar els primers 3 GB. Funciona en Wi-Fi d'hotel inestable i tethering cel·lular — hem provat ambdós.

06Per què l'API de Whisper s'estrangula amb arxius llargs?+

L'endpoint de Whisper d'OpenAI té un límit dur de 25 MB per sol·licitud — uns 25 minuts d'àudio comprimit. Qualsevol cosa més llarga necessita que divideixis, transcribiu en paral·lel, després cosiu transcripcions i alineeu parlants. Ho fem tot del costat del servidor.

07El preu per minut és el mateix en un arxiu de 10 hores que en un arxiu de 10 minuts?+

Sí. $0,03 per minut plans, independentment de la longitud. Un arxiu de 10 hores costa $18. No sobrecarreguem arxius llargs com fa Rev ($1,50/min humana × 10 hores = $900).

08Puc obtenir marcadors de capítol o marques de temps cada hora?+

Alterna 'Marcadors d'hora' al formulari de treball i el DOCX exporta amb una pausa d'encapçalament cada 60 minuts. SRT manté el codi de temps continu. JSON té ambdós — matriu de capítols més marques de temps a nivell de paraula.

Transcriu arxius d'àudio llargs.Fins a 10 hores. Sense límit de temps.

Deixa-hi l'àudio o el vídeo

Paste a link, we’ll fetch the audio

Grava directament des del navegador

Hores dins. Un arxiu net fora.

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Otter Pro. Chunking DIY de Whisper. O nosaltres.

Otter Pro

Transcription.Solutions

Whisper API + chunking DIY

Tres maneres en què les eines genèriques moren més enllà de la marca de 90 minuts.

Què va malament

Què canviar aquí

Configuració de treball recomanada per a arxius llargs

92% es manté en un arxiu de 5 hores. La qualitat es manté plana hora a hora.

8 coses que la gent pregunta sobre la transcripció d'àudio llarg.

Carrega el teu arxiu llarg. Obtén una transcripció.