Transcripció de YouTube. Millor que les llegendes automàtiques.Més barat que els humans.

Enganxa una URL de vídeo de YouTube. Obtén un transcript de 95%+ exactitud amb etiquetes de parlant, marca de temps de capítol, i SRT/VTT que pots re-pujar — sense Premium, sense extensió de Chrome.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Mira què surt

URL dins. Subtítols i transcript net surt.

Enganxa un enllaç de youtu.be o youtube.com. Ho resolem, extraiem la pista d'àudio de major bitrate del servidor, executem la diarització, i retornem un transcript amb marca de temps més SRT/VTT llest per pujar com a captions de comunitat.

youtu.be/dQw4w9WgXcQREC Entrevista · 2 parlants · 28:14
detectat automàticament en-USopus 160 kbps · 48 kHz
~90s
Transcript · streaming96% exactitud
S1

Així que el canal va arribar a 100k subscriptors en vuit mesos — què va moure l'agulla?

S2

Honestament, publicar Shorts diàriament durant sis setmanes. El temps de reproducció de format llarg va venir després.

S1

I el redisseny de la miniatura — va ser prova A/B a YouTube Studio?

S2

Sí, l'eina nova Test & Compare. Dos de tres guanyadors no tenien cara.

96% en àudio de talking-headSRT · VTT · DOCX · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tres opcions reals · comparació honesta

Llegendes automàtiques de YouTube. Rev humà. O nosaltres.

YouTube inclou llegendes automàtiques en cada vídeo de forma gratuïta — simplement no són prou precises i no tenen etiquetes de parlant. Rev ven transcripts humans a $1.50/min. Nosaltres estem en el mig: IA a 95%+, etiquetes de parlant, turnaround de tres minuts.

Option 01

Llegendes automàtiques de YouTube

Gratuït, integrat en cada vídeo públic. Sense puntuació completa, sense etiquetes de parlant.

CostGratuït
Exactitud~80% en parla neta
Etiquetes de parlantCap
PuntuacióEscassa, sense paràgrafs
ExportacióCopia-enganxa des del panell de transcript
Funciona enNomés vídeos públics
Best forEscannejar ràpidament vídeos que no posseixes quan la precisió no importa.
Option 02

Transcription.Solutions

Enganxa l'URL. Tres minuts més tard: transcript net, SRT/VTT, resum d'IA amb enllaços de capítol.

Cost · per min$0.03 en Pro
Exactitud95%+ en talking-head
Etiquetes de parlantSí (Pro i Business)
PuntuacióCompleta, amb paràgrafs
ExportacióSRT · VTT · DOCX · TXT · JSON
Funciona enURLs públiques + no listades
Best forCreadors re-pujant captions, podcasters reutilitzant vídeo en blog, investigadors traient cites d'entrevistes.
Option 03

Transcripció humana Rev

Un humà ho escriu. Màxima exactitud, turnaround més lent, preu per minut.

Cost · per min$1.50
Exactitud99%+ garantit
Etiquetes de parlant
PuntuacióCompleta, nivell editorial
Turnaround12-24 hores típic
Funciona enQualsevol fitxer pujat
Best forContingut admissible en judici, subtítols broadcast, o entrevistes on una paraula perduda mata la cita.

Preus exactes a partir de 2026. Les tarifes de Rev reflecteixen el seu nivell de servei estàndard; les tarifes només d'IA de competitors no es comparen aquí.

Específic a YouTube

Tres coses que fan problema amb les eines de transcripció genèrica.

L'àudio de YouTube té peculiaritats que els transcriptors estàndard no manegen. Activa els paràmetres correctes i el transcript torna llest per re-pujar com a captions.

Què va malament

  1. 1La música de fons confon el reconeixador. Els jingles d'intro i la música de fons es transcriuen com a paraules brutes. L'IA genèrica no sap que les ha ignorar.
  2. 2Les longituds de línia SRT no coincideixen amb les regles de caption de YouTube. Els subtítols desborden l'àrea segura en mòbil, o es tallen a la meitat de la paraula perquè el chunker no va ser ajustat per a vídeo.
  3. 3Els noms específics del canal (marques patrocinadores, títols de jocs, identificadors de convidats com @MKBHD) es deletregen fonèticament. Un error tipogràfic i la cita és no cercarable.

Què activa aquí

  1. 1Activa la segmentació conscient de música al formulari de tasca. Etiquetem les regions de música amb `[music]` en lloc d'alucinar lletres, i reprenim la transcripció neta quan la veu torna.
  2. 2Tria SRT segur per a YouTube com l'exportació. Les línies es limiten a 42 caràcters, màxim dues línies per cue, i els salts cauen en límits de frase — envia el fitxer directament a YouTube Studio.
  3. 3Enganxa vocabulari del canal (noms patrocinadors, convidats recurrents, títols de jocs) a Vocabulari personalitzat. El passem al reconeixador com a consell perquè les marques es deletegin correctament.

Configuració de tasca recomanada per a YouTube

Enganxa una URL de YouTube i aquests s'activen per defecte. Substitucio per tasca des del formulari.

Origen
Enganxament URL · auto-resol youtu.be
Diarització
Acústica · 1-4 parlants
Maneig de música
Marca [music], omet lletres
Paraules de farciment
Eliminades per defecte
Resum
Marca de temps de capítol + moments clau
Exportació
SRT segur per a YouTube · VTT · DOCX

Accuracy · real-world numbers

95%+ en vídeos de talking-head. La música i l'àudio del joc són més baixos.

El contingut de YouTube varia molt — un podcast d'estudi i una transmissió Fortnite no són el mateix problema. Talking-head amb micròfon de solap és el millor cas; la música de fons i l'àudio de joc superposat arrosseguen l'exactitud més ràpid. Els números de sota provenen d'URLs reals de YouTube de clients en producció.

97%
Podcast d'estudi · micròfon per convidado

Configuració estil Joe Rogan: cada convidado en un micròfon boom separat, tractament lleuger de sala, cap música de fons. La diarització és trivial quan les veus no es barregen.

95%
Talking-head únic · micròfon de solap/USB

Tutorial estàndard o assaig en vídeo. Un parlant, àudio interior, música d'intro amortida sota la veu. La majoria de vídeos de YouTube aterren aquí.

89%
Vlog amb B-roll · àudio exterior

Vent, tràfic, música ambient sota la veu en off. Les paraules són útils; espera errades ocasionals en noms propis i de marca.

84%
Transmissió de videojocs · veu sobre àudio del joc

SFX de joc, música i lectura de xat a volum variable. La veu del streamer és clara normalment; els companys en Discord es perden més ràpid. Pitjor cas en les nostres dades.

Preguntes freqüents

8 coses que la gent pregunta sobre la transcripció de YouTube.

01Simplement enganxo l'URL, o he de descarregar el vídeo primer?+
Només enganxa l'URL. Acceptem youtube.com/watch, enllaços curts youtu.be, i URLs de vídeo no listats. Ho resolem del servidor, extraiem només la pista d'àudio (no el vídeo), i comencem a transcriure — normalment dins de 10 segons de l'enganxament.
02Funciona en vídeos privats o no listats?+
No listats sí, privats no. Els URLs no listats són resolts públicament si tens l'enllaç, així que els podem recuperar. Els vídeos privats requereixen estar connectat a la teva compte de Google — no podem suplantarte. Descarrega primer l'MP4 des de YouTube Studio, després puja el fitxer.
03Per què el vostre transcript és molt millor que les llegendes automàtiques de YouTube?+
Les llegendes automàtiques de YouTube executem un model de streaming ajustat pel cost a escala en miliards de vídeos. Executem un model més gran amb decodificació de context complet, vocabulari personalitzat, i una passa de diarització separada. Resultat: ~95% vs ~80%, més etiquetes de parlant i puntuació correcta.
04Puc pujar l'SRT a YouTube com captions de comunitat?+
Sí. Exporta com a SRT segur per a YouTube, obri YouTube Studio → Subtítols → Afegir → Pujar fitxer. Les nostres longituds de línia i marques de temps coincideixen amb les regles de visualització de YouTube, així que les cues no desbordarán en mòbil ni es trencaran a la meitat de la paraula.
05Què sobre drets d'autor — és legal transcriure vídeos d'altres?+
La transcripció per a ús personal, recerca, periodisme, o comentari és generalment fair use als EUA. Re-publicar el transcript complet comercialment és més incert. No allotgem l'àudio o vídeo, et passem el text — el que en fas és teu. No és consell legal.
06Pots manejar vídeos llargs com episodis de podcast de 4 hores?+
Sí. El nostre límit dur és 8 hores per fitxer. Un episodi de 4 hores estil Lex Fridman es transcriu en uns 8-12 minuts wall-clock i costa al voltant de $7.20 en preus Pro. La diarització acústica es manté la longitud completa.
07Manegeu vídeos de YouTube en idiomes que no són l'anglès?+
Sí — 99 idiomes auto-detectats. Espanyol, hindi, portuguès i japonès aterren tots dins de 2-3 punts de la precisió de l'anglès en àudio net. El code-switching (anglès + espanyol a la mateixa frase) funciona però es degrada en ~5 punts.
08Puc obtenir marques de temps de capítol com els auto-capítols de YouTube?+
Sí. El resum d'IA inclou marques de temps estil capítol als canvis de tema més enllaços de moment clau. Enganxa'ls a la teva descripció de vídeo com `00:00 Intro / 03:42 Setup / …` — YouTube les mostra com a capítols clicables automàticament.

Enganxa una URL de YouTube. Mira què surt.

30 minuts gratuïts cada mes. Sense targeta. Etiquetes de parlant, SRT segur per a YouTube, resum d'IA amb marques de temps de capítol — tot inclòs.

Comença gratuït