YouTube-Transkription. Besser als Auto-Captions.Günstiger als manuell.

Gib eine YouTube-Video-URL ein. Bekomme ein 95%+ genaues Transkript mit Sprecherkennzeichnungen, Kapitel-Zeitstempel und SRT/VTT-Captions zum Erneut-Hochladen — ohne Premium, ohne Chrome-Erweiterung.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Schau, was herauskommt

URL rein. Captions und sauberes Transkript raus.

Gib einen youtu.be oder youtube.com Link ein. Wir lösen ihn auf, ziehen die höchste Audio-Bitrate server-seitig, führen Diarisierung durch und geben dir ein zeitgestempeltes Transkript plus SRT/VTT zurück, ready zum Hochladen als Community-Captions.

youtu.be/dQw4w9WgXcQREC Interview · 2 Sprecher · 28:14
auto-detektiert en-USopus 160 kbps · 48 kHz
~90s
Transkript · Streaming96% Genauigkeit
S1

Der Channel hat 100k Subs in acht Monaten erreicht — was hat tatsächlich den Unterschied gemacht?

S2

Ehrlich gesagt, täglich Shorts posten für sechs Wochen. Die Long-Form Watch-Time folgte.

S1

Und das Thumbnail-Redesign — wurde das in YouTube Studio A/B getestet?

S2

Ja, mit dem neuen Test & Compare Tool. Zwei von drei Gewinnern hatten kein Gesicht drauf.

96% auf Talking-Head-AudioSRT · VTT · DOCX · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Drei echte Optionen · ehrlicher Vergleich

YouTube Auto-Captions. Rev manuell. Oder uns.

YouTube liefert Auto-Captions auf jedem Video kostenlos — nur sind sie nicht sehr genau und haben keine Sprecherkennzeichnungen. Rev verkauft manuell eingegebene Transkripte für $1,50/Min. Wir sind in der Mitte: AI mit 95%+, Sprecherkennzeichnungen, drei-Minuten Turnaround.

Option 01

YouTube Auto-Captions

Kostenlos, eingebaut in jedem öffentlichen Video. Keine Interpunktion, keine Sprecherkennzeichnungen.

KostenKostenlos
Genauigkeit~80% bei klarer Sprache
SprecherkennzeichnungenKeine
InterpunktionSpärlich, keine Absätze
ExportCopy-Paste aus Transkript-Panel
Funktioniert beiNur öffentliche Videos
Best forSchnell ein Video überfliegen, das du nicht selbst machst, wenn Genauigkeit nicht wichtig ist.
Option 02

Transcription.Solutions

URL einfügen. Drei Minuten später: sauberes Transkript, SRT/VTT, AI-Zusammenfassung mit Kapitel-Links.

Kosten · pro Min$0,03 auf Pro
Genauigkeit95%+ bei Talking-Head
SprecherkennzeichnungenJa (Pro und Business)
InterpunktionVollständig, mit Absätzen
ExportSRT · VTT · DOCX · TXT · JSON
Funktioniert beiÖffentliche + nicht gelistete URLs
Best forCreator, die Captions erneut hochladen, Podcaster, die Video zum Blog umnutzen, Forscher, die Zitate aus Interviews ziehen.
Option 03

Rev manuell

Ein Mensch tippt es. Höchste Genauigkeit, langsamster Turnaround, abgerechnet pro Minute.

Kosten · pro Min$1,50
Genauigkeit99%+ garantiert
SprecherkennzeichnungenJa
InterpunktionVollständig, redaktionelle Qualität
Turnaround12–24 Stunden typisch
Funktioniert beiJede hochgeladene Datei
Best forGerichtsverfahren-zulässiger Content, Broadcast-Untertitel oder Interviews, wo ein fehlerhaftes Wort das Zitat zerstört.

Preise korrekt Stand 2026. Rev-Raten spiegeln ihren Standard-Service wider; AI-only Tiers von Konkurrenten sind nicht vergleichbar.

Spezifisch für YouTube

Drei Probleme mit generischen Transkriptionstools.

YouTube-Audio hat Eigenheiten, die Standard-Transkriber nicht bewältigen. Spiele die richtigen Einstellungen und das Transkript kommt back ready zum Hochladen als Captions.

Was schiefgeht

  1. 1Musik-Beds verwirren den Recognizer. Intro-Stings und Background-Musik werden als verstümmelte Worte transkribiert. Standard-AI weiß nicht, sie zu ignorieren.
  2. 2SRT-Zeilenlängen passen nicht zu YouTubes Caption-Regeln. Untertitel überfluten den Safe Area auf Mobile oder brechen mid-word weil der Chunker nicht für Video optimiert wurde.
  3. 3Kanal-spezifische Namen (Sponsor-Marken, Game-Titel, Guest-Handles wie @MKBHD) werden phonetisch geschrieben. Ein Tippfehler und das Zitat ist unsuchbar.

Was du hier einstellen solltest

  1. 1Schalte Music-aware Segmentation auf dem Job-Formular an. Wir taggen Musik-Regionen mit `[music]` statt Lyrics zu halluzinieren und setzen die Transkription sauber fort wenn die Stimme zurückkommt.
  2. 2Wähle YouTube-safe SRT als Export. Zeilen begrenzt auf 42 Zeichen, max zwei Zeilen pro Cue, und Umbrüche landen auf Phrase-Grenzen — füge die Datei direkt in YouTube Studio ein.
  3. 3Gib Kanal-Vokabular (Sponsor-Namen, Stamm-Gäste, Game-Titel) in Custom Vocabulary ein. Wir fügen es als Hinweis dem Recognizer zu damit Marken-Schreibweisen korrekt bleiben.

Empfohlene Job-Einstellungen für YouTube

Gib eine YouTube-URL ein und diese sind per Default an. Überschreibe pro-Job vom Formular.

Quelle
URL paste · auto-resolve youtu.be
Diarisierung
Akustisch · 1–4 Sprecher
Musik-Handling
Tag [music], skip lyrics
Füllwörter
Per Default entfernt
Zusammenfassung
Kapitel-Zeitstempel + Schlüsselmomente
Export
YouTube-safe SRT · VTT · DOCX

Accuracy · real-world numbers

95%+ bei Talking-Head-Videos. Musik und Game-Audio sind die Grenze.

YouTube-Content unterscheidet sich stark — ein Studio-Podcast und ein Fortnite-Stream sind nicht das gleiche Problem. Lapel-Mic Talking-Head ist der beste Fall; Background-Musik und überlappender Game-Audio senken die Genauigkeit schnell. Die Zahlen unten stammen von echten Customer YouTube-URLs in Produktion.

97%
Studio-Podcast · pro Gast miked

Joe Rogan Style: jeder Gast auf separatem Boom-Mic, leichte Raumbehandlung, keine Musik im Hintergrund. Diarisierung ist trivial wenn Stimmen sich nicht überlappen.

95%
Single Talking-Head · Lapel/USB Mic

Standard Tutorial oder Video Essay. Ein Sprecher, Indoor-Audio, Intro-Musik unter Voiceover gedrosselt. Die meisten YouTube-Uploads landen hier.

89%
Vlog mit B-Roll · Outdoor-Audio

Wind, Verkehr, Background-Musik unter Voiceover. Worte sind noch nutzbar; rechne mit gelegentlichen Fehlern bei Eigennamen und Marken.

84%
Gaming-Stream · Stimme über Game-Audio

Game SFX, Musik und Chat-Reading bei variablem Lautstärke. Streamer-Stimme meist klar; Teammates auf Discord fallen schnell raus. Worst Case in unseren Daten.

Häufige Fragen

8 häufig gestellte Fragen zur YouTube-Transkription.

01Gebe ich einfach die URL ein oder muss ich das Video zuerst herunterladen?+
Gib einfach die URL ein. Wir akzeptieren youtube.com/watch, youtu.be Short Links und nicht gelistete Video-URLs. Wir lösen sie server-seitig auf, ziehen nur den Audio-Track (nicht das Video) und starten das Transkribieren — normalerweise innerhalb von 10 Sekunden nach dem Einfügen.
02Funktioniert es auf privaten oder nicht gelisteten Videos?+
Nicht gelistet ja, privat nein. Nicht gelistete URLs sind öffentlich auflösbar wenn du den Link hast, also können wir sie abrufen. Private Videos benötigen dich, in deinem Google-Konto angemeldet zu sein — wir können dich nicht verkörpern. Lade das MP4 zuerst aus YouTube Studio herunter, dann lade die Datei hoch.
03Warum ist euer Transkript so viel besser als YouTubes Auto-Captions?+
YouTubes Auto-Captions führen ein Streaming-Modell auf, das für Kosten im Maßstab über Milliarden von Videos optimiert ist. Wir betreiben ein größeres Modell mit vollständiger Context-Dekodierung, Custom Vocabulary und einen separaten Diarisierungs-Pass. Resultat: ~95% vs ~80%, plus Sprecherkennzeichnungen und korrekte Interpunktion.
04Kann ich das SRT als Community-Captions zu YouTube hochladen?+
Ja. Exportiere als YouTube-safe SRT, öffne YouTube Studio → Untertitel → Hinzufügen → Datei hochladen. Unsere Zeilenlängen und Timing passen YouTubes Display-Regeln, also Cues werden nicht auf Mobile überfluten oder mid-word brechen.
05Was ist mit Copyright — ist es legal, fremde Videos zu transkribieren?+
Transkribieren für persönliche Nutzung, Forschung, Journalismus oder Kommentar ist generell Fair Use in den USA. Die vollständige Transkription kommerziell neu-publizieren ist undeutlicher. Wir hosten die Audio oder das Video nicht, wir geben dir den Text — was du damit machst ist deine Sache. Keine Rechtsberatung.
06Könnt ihr lange Videos wie 4-Stunden Podcast-Episoden handhaben?+
Ja. Unser Hard Cap ist 8 Stunden pro Datei. Eine 4-Stunden Lex Fridman Episode transkribiert sich in ungefähr 8–12 Minuten Wall-Clock und landet bei ca. $7,20 auf Pro Pricing. Speaker Diarization hält über die gesamte Länge.
07Handhabet ihr nicht-englische YouTube-Videos?+
Ja — 99 Sprachen auto-detektiert. Spanisch, Hindi, Portugiesisch und Japanisch landen alle innerhalb von 2–3 Punkten von englischer Genauigkeit bei klarem Audio. Code-Switching (Englisch + Spanisch im gleichen Satz) funktioniert aber degradiert um ~5 Punkte.
08Kann ich Kapitel-Zeitstempel wie YouTubes Auto-Chapters bekommen?+
Ja. Die AI-Zusammenfassung beinhaltet Kapitel-artige Zeitstempel zu Topic-Übergängen plus Key-Moment Links. Gib sie in deine Video-Beschreibung als `00:00 Intro / 03:42 Setup / …` ein — YouTube rendert sie automatisch als klickbare Kapitel.

Gib eine YouTube-URL ein. Schau, was herauskommt.

30 kostenlose Minuten jeden Monat. Keine Karte. Sprecherkennzeichnungen, YouTube-safe SRT, AI-Zusammenfassung mit Kapitel-Zeitstempeln — alles inbegriffen.

Kostenlos starten