YouTube-transkription. Bättre än automatiska bildtexter.Billigare än människa.

Klistra in en YouTube-video URL. Få en avskrift med 95%+ noggrannhet med talaretikett, kapitelstidsstämplar, och SRT/VTT-bildtexter som du kan ladda upp igen — ingen Premium, ingen Chrome-tillägg.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Se vad som kommer ut

URL in. Bildtexter och ren avskrift ut.

Klistra in en youtu.be eller youtube.com länk. Vi löser den, drar ut den högsta bithastighetens ljudspår på servern, kör diarisation, och skickar tillbaka en tidsstämplad avskrift plus SRT/VTT redo att ladda upp som publika bildtexter.

youtu.be/dQw4w9WgXcQREC Intervju · 2 talare · 28:14
auto-detekterad en-USopus 160 kbps · 48 kHz
~90s
Avskrift · direktuppspelning96% noggrannhet
S1

Så kanalen nådde 100k prenumeranter på åtta månader — vad fick faktiskt igång det?

S2

Ärligt talat, publicerade Shorts dagligen i sex veckor. Det långformiga tittandet följde efter.

S1

Och omarbetningen av miniatyrbilden — testades den A/B i YouTube Studio?

S2

Ja, det nya Test & Compare-verktyget. Två av tre vinnare hade inget ansikte på dem.

96% på talkhead-ljudSRT · VTT · DOCX · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tre riktiga alternativ · ärlig jämförelse

YouTubes automatiska bildtexter. Rev människa. Eller vi.

YouTube skickar automatiska bildtexter på varje video gratis — de är bara inte särskilt exakta och har ingen talaretikett. Rev säljer mänskskrivna avskrifter för $1,50/min. Vi sitter i mitten: AI på 95%+, talaretikett, tre minuters responstid.

Option 01

YouTubes automatiska bildtexter

Kostnadsfritt, inbyggt i varje offentlig video. Ingen punkteringskontroll, ingen talaretikett.

KostnadKostnadsfritt
Noggrannhet~80% på ren tal
TalaretikettIngen
InterpunktionSparsamt, inga stycken
ExportKopiera från avskriftpanelen
Fungerar påEndast offentliga videor
Best forSnabbt granskning av en video du inte äger när noggrannhet inte spelar roll.
Option 02

Transcription.Solutions

Klistra in URL:en. Tre minuter senare: ren avskrift, SRT/VTT, AI-sammanfattning med kapitelilänkar.

Kostnad · per minut$0,03 på Pro
Noggrannhet95%+ på talkhead
TalaretikettJa (Pro och Business)
InterpunktionFullständig, med stycken
ExportSRT · VTT · DOCX · TXT · JSON
Fungerar påOffentliga + dolda URL:er
Best forSkapare som laddar upp bildtexter på nytt, poddar som återanvänder video för blog, forskare som hämtar citat från intervjuer.
Option 03

Rev mänsklig transkription

En människa skriver den. Högsta noggrannhet, långsammaste responstid, prissatt per minut.

Kostnad · per minut$1,50
Noggrannhet99%+ garanterad
TalaretikettJa
InterpunktionFullständig, redaktionell kvalitet
Responstid12-24 timmar typiskt
Fungerar påAlla uppladdade filer
Best forRättegångstillåtet innehål, broadcast-undertexter, eller intervjuer där ett missat ord förstör citatet.

Prissättning korrekt från 2026. Rev-priser återspeglar deras standardservicelager; AI-endast nivåer från konkurrenter jämfördes inte här.

Specifikt för YouTube

Tre saker som skadar folk på generiska transkriptionsverktyg.

YouTube-ljud har egenhet som generiska transkriptörer inte hanterar. Vänd rätt inställningar och avskriften kommer tillbaka redo att ladda upp som bildtexter.

Vad som går fel

  1. 1Musikbottnar förvirrar igenkännaren. Intro-signaler och bakgrundsmusik transkriberas som garbled ord. Generisk AI vet inte att ignorera dem.
  2. 2SRT-radlängder matchar inte YouTubes bildtextregel. Undertexter svämmar över det säkra området på mobil, eller skärs mitt i ordet eftersom chunker inte var inställd för video.
  3. 3Kanalspecifika namn (sponsorvarumärken, speltitlar, gästhanteringar som @MKBHD) deleteras fonetiskt. En stavfel och citatet är osökbart.

Vad du vänder här

  1. 1Aktivera Musikmedveten segmentering på jobbformuläret. Vi märker musikregioner med `[music]` istället för att hålla på med låttexter, och återupptar transkriptionen rent när rösten återvänder.
  2. 2Välj YouTube-säker SRT som export. Raderna löper upp till 42 tecken, max två rader per signal, och brott landar på frasdelning — släpp filen direkt i YouTube Studio.
  3. 3Klistra in kanalvokabulär (sponsornamn, återkommande gäster, speltitlar) i Anpassad vokabulär. Vi matar det framför igenkännaren som ett tips så varumärkesstavning förblir korrekt.

Rekommenderade jobbinställningar för YouTube

Klistra in en YouTube URL och dessa aktiveras som standard. Skriv över per jobb från formuläret.

Källa
URL-inklistring · auto-lösta youtu.be
Diarisation
Akustisk · 1-4 talare
Musikhantering
Märk [music], hoppa låttexter
Uppfyllningsord
Borttagen som standard
Sammanfattning
Kapitelstidsstämplar + nyckelmöten
Export
YouTube-säker SRT · VTT · DOCX

Accuracy · real-world numbers

95%+ på talkhead-videor. Musik och spelljud sätter ett tak lägre.

YouTube-innehål varierar enormt — en studiepodcast och en Fortnite-stream är inte samma problem. Lavalier-mikrofon-talkhead är bästa fallet; bakgrundsmusik och överlappande spelljud drar ner noggrannheten snabbast. Siffrorna nedan kommer från riktiga YouTube-URL:er från kunder i produktion.

97%
Studiepodcast · separat gäst-mikrofon

Joe Rogan-stil setup: varje gäst på en separat boom-mikrofon, lätt rumsbehandling, ingen musikbotten. Diarisation är trivial när röster inte läcker.

95%
Enskild talkhead · lavalier/USB-mikrofon

Standardhandledning eller videouppsats. En talare, inomhusljud, intro-musik mixad under tal. De flesta YouTube-uppladdningar hamnar här.

89%
Vlog med b-material · utomhusljud

Vind, trafik, omgivningsmusik under voiceover. Ord är fortfarande användbara; förvänta dig ibland missar på egennamn och varumärken.

84%
Spelstream · röst över spelljud

Spel-SFX, musik och chattläsning på variabel volym. Streamerns röst vanligtvis klar; lagkamrater på Discord faller snabbast. Värsta fallet i vår data.

Vanliga frågor

8 saker folk frågar om YouTube-transkription.

01Klistrar jag bara in URL:en, eller laddar jag ner videon först?+
Bara klistra in URL:en. Vi accepterar youtube.com/watch, youtu.be-korta länkar, och undervalda video-URL:er. Vi löser den på servern, drar bara ljudspåret (inte videon), och börjar transkribera — vanligtvis inom 10 sekunder efter klistring.
02Fungerar det på privata eller dolda videor?+
Dold ja, privat nej. Dolda URL:er är offentligt lösliga om du har länken, så vi kan hämta dem. Privata videor kräver att du är inloggad på ditt Google-konto — vi kan inte personifiera dig. Ladda ner MP4:an från YouTube Studio först, ladda sedan upp filen.
03Varför är din avskrift så mycket bättre än YouTubes automatiska bildtexter?+
YouTubes automatiska bildtexter kör en streamingmodell inställd för kostnad-i-skala över miljarder videor. Vi kör en större modell med full-context dekodning, anpassad vokabulär, och ett separat diarisationspass. Resultat: ~95% mot ~80%, plus talaretikett och korrekt interpunktion.
04Kan jag ladda upp SRT:en tillbaka till YouTube som publika bildtexter?+
Ja. Exportera som YouTube-säker SRT, öppna YouTube Studio → Bildtexter → Lägg till → Ladda upp fil. Våra radlängder och tidpunkter matchar YouTubes visningsregler, så signaler svämmar inte över på mobil eller går sönder mitt i ordet.
05Vad gäller upphovsrätt — är det lagligt att transkribera någon annans video?+
Transkribering för personligtbruk, forskning, journalistik eller kommentar är vanligtvis skäligen rättegång i USA. Publicering av den fullständiga avskriften kommersiellt är grumligare. Vi lagrar inte ljudet eller videon, vi lämnar dig texten — vad du gör med den är din grej. Inte juridisk rådgivning.
06Kan du hantera långvideoklipp som 4-timmars podcastepisoder?+
Ja. Vår hårda gräns är 8 timmar per fil. En fyratimmar Lex Fridman-episod transkriberas på ungefär 8-12 minuter väggklocka och landar runt $7,20 på Pro-prissättning. Talardiarisation håller upp över hela längden.
07Hanterar du icke-engelska YouTube-videor?+
Ja — 99 språk auto-detekteras. Spanska, Hindi, Portugisiska och japanska landar alla inom 2-3 poäng av engelsk noggrannhet på ren ljud. Code-switching (engelska + spanska i samma mening) fungerar men försämras med ~5 poäng.
08Kan jag få kapitelstidsstämplar som YouTubes auto-kapitel?+
Ja. AI-sammanfattningen inkluderar kapitelstilar tidsstämplar till ämnestransitioner plus nyckelmomentilänkar. Klistra in dem i din videobeskrivning som `00:00 Intro / 03:42 Setup / …` — YouTube renderar dem som klickbara kapitel automatiskt.

Klistra in en YouTube URL. Se vad som kommer ut.

30 kostnadsfria minuter varje månad. Inget kort. Talaretikett, YouTube-säker SRT, AI-sammanfattning med kapitelstidsstämplar — allt ingår.

Börja gratis