Transkription für Podcaster.Shownotes und SRT in einem Durchgang.

Laden Sie Ihren Podcast-Episode-Master hoch — MP3, WAV oder einen YouTube-Link. Erhalten Sie ein Transkript mit Sprecherlabeln, KI-gestützte Shownotes mit Schlüsselpunkten und Tags sowie eine SRT für den Videoschnitt.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Eine Datei rein, vier Artefakte raus

Episode-Master rein. Transkript, Shownotes, SRT, Tags raus.

Die meisten Podcasts kommen als Post-Production-Stereo-MP3 mit Host und Gast bereits zusammengemixt an. Wir teilen sie akustisch auf, erkennen die Musik-Intro und starten das Transkript beim ersten gesprochenen Wort.

Episode 142 MasterREC 2 Sprecher · 48:21 · MP3 192 kbps
auto-detected en-US44.1 kHz stereo · post-mix
~90s
Transkript · Streaming95% Genauigkeit
S1

Willkommen zurück zur Show. Heute spreche ich mit Priya Anand über ihr neues Buch zu Supply Chains.

S2

Danke, dass du mich dabei hast, Jordan. Es waren turbulente drei Jahre, seit wir zuletzt gesprochen haben.

S1

Das Buch beginnt also mit der Suez-Blockade — warum dort anfangen?

S2

Weil es der Moment war, in dem Nicht-Logistiker plötzlich anfingen, sich um Container zu kümmern.

95% on stereo post-mixSRT · DOCX · TXT · Show notes MD

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Drei echte Optionen · ehrlicher Vergleich

Descript. Castmagic. Oder wir.

Descript ist zunächst Editor, dann Transkription. Castmagic ist zunächst Shownotes, dann Transkript. Wir konzentrieren uns auf die Datei → Transkript → Shownotes-Pipeline und halten uns aus deinem Editor heraus.

Option 01

Descript

Audio-Editor mit integrierter Transkription. Großartig für Bearbeitungs-per-Text-Workflows, aber umfangreicher als du brauchst, wenn du nur ein Transkript willst.

Primary useDAW + Wort-Bearbeitung
Speaker diarizationAkustisch, EN-stark
Show notesUnderlord KI-Zusatz
ExportSRT · TXT · Projektdatei
Free tier1 Std./Mo. Transkription
Cost$24/Benutzer/Mo. (Creator)
Best forSolo-Podcaster, die Episoden durch Löschen von Wörtern aus einem Transkript bearbeiten und alles in einer App haben möchten.
Option 02

Transcription.Solutions

Laden Sie den Episode-Master hoch. Transkript, Shownotes, Tags, SRT — alle vier in einem Durchgang. Kein Editor, keine Abhängigkeit.

Primary useTranskript + Shownotes
Speaker diarizationAkustisch + Pro-Track-Upload
Show notesKostenlos bei jedem Plan
ExportSRT · VTT · DOCX · MD · JSON
Free tier30 Min./Mo., keine Kartierung erforderlich
Cost · per min$0.03
Best forShows, die bereits einen Editor haben (Logic, Hindenburg, Reaper) und nach dem Mischen nur sauberen Text + Notizen möchten.
Option 03

Castmagic

Show-Notes-as-a-Service. Ziehen Sie die Datei rein, erhalten Sie ein elegantes Content-Paket. Das Transkript ist eher ein Nebenprodukt.

Primary useContent Repurposing
Speaker diarizationJa, EN-optimiert
Show notesViele Templates, nur bezahlt
ExportSRT · TXT · Template MD
Free tierNur Test
Cost~$23+/Mo. (Starter)
Best forMarketing-lastige Shows, die 12 Social Posts, 4 Newsletter-Entwürfe und ein LinkedIn-Karussell pro Episode brauchen.

Preise ungefähr ab 2026 und ändern sich je Anbieter. Kostenlose Stufen und KI-Zusatzfunktionen wechseln häufig.

Spezifisch für Podcasting

Drei Fallstricke bei generischen Transkriptions-Tools.

Teilen Sie beim Upload ein paar Informationen über die Episode mit, und der Output braucht keine Cleanup-Phase mehr.

Was schief geht

  1. 1Musik-Intro wird als Kauderwelsch transkribiert. Der Recognizer versucht, Liedtexte oder Summmuster zu lesen, und fügt Unsinn wie 'la la na' über die ersten 30 Sekunden ein.
  2. 2Gastname phonetisch buchstabiert. 'Priya Anand' kommt als 'Pria Anan' oder 'Prea Ahnand' heraus — und es ist jedes Mal falsch, wenn es auftaucht.
  3. 3Lachen und Redeteilungen werden als Füllwörter dargestellt oder dem falschen Sprecher zugeordnet, besonders bei lebhaften Stellen.

Was du hier umschaltest

  1. 1Aktivieren Sie Musik-Intro/Outro überspringen im Jobformular. Wir erkennen Nicht-Sprach-Segmente und starten das Transkript beim ersten gesprochenen Wort — Zeitstempel-Offsets passen sich automatisch an.
  2. 2Fügen Sie Gastnamen und Markennennungen in Benutzerdefiniertes Vokabular ein. Wir übergeben es als Recognizer-Hinweis, damit die Schreibweise über die gesamte Episode konsistent bleibt.
  3. 3Schalten Sie Shownotes ein, um eine 2–4 Satz-Zusammenfassung, 3–7 Schlüsselpunkte, Aktionspunkte und 3–8 Topic-Tags in Markdown gerendert zu erhalten — fügen Sie direkt in Ihr CMS ein.

Empfohlene Job-Einstellungen für Podcasts

Laden Sie eine Episode hoch und diese Standardeinstellungen werden aktiviert. Sie können sie pro Job im Formular ändern.

Diarization
Stereo-Aufteilung falls 2 Sprecher
Music detection
Intro-/Outro-Segmente überspringen
Filler words
Standardmäßig entfernt
Show notes
Zusammenfassung + Schlüsselpunkte + Tags
Chapters
Aus Schlüsselpunkten generiert
Export
SRT · DOCX · Shownotes MD

Accuracy · real-world numbers

97% bei Studio-Mic-Episoden. Funktioniert auch bei Remote-Guest-Calls.

Die Podcast-Genauigkeit hängt hauptsächlich davon ab, wie der Gast aufgenommen wurde, nicht vom Host. Ein Studio-Host mit einem nur-Zoom-Gast verhält sich wie das schlechteste Glied. Die Zahlen unten stammen von echten Kundenepisoden, nicht von Labor-Audio.

97%
Pro-Track-Upload (Riverside / SquadCast)

Jeder Sprecher auf einer separaten WAV. Wir behandeln jeden Track unabhängig und überspringen die Diarisierung. Der sauberste mögliche Fall.

95%
Stereo Post-Mix, 2 Sprecher

Host links, Gast rechts, nach dem Mastering. Die häufigste Podcast-Form. Die Diarisierung ist im Grunde kostenlos durch die Stereo-Aufteilung.

91%
Mono-Mix, 3–4 Sprecher

Roundtable-Shows oder Panel-Format in Mono gemixt. Ähnliche Stimmen können einmal oder zweimal pro Stunde verschwimmen — ein 2-Min.-Cleanup behebt es.

86%
Remote-Gast am Telefon / schlechtes Mic

Gast auf AirPods über einen Hotel-WiFi-Anruf. Zahlen und Eigennamen leiden am meisten. Benutzerdefiniertes Vokabular behebt das meiste.

Häufig gestellte Fragen

8 Fragen zum Thema Podcast-Transkription.

01Kann ich einfach meinen YouTube- oder SoundCloud-Link einfügen?+
Ja. Fügen Sie eine öffentliche YouTube-URL oder einen gehosteten Episode-Link ein (SoundCloud, Buzzsprout, Transistor, Libsyn Direct MP3) und wir ziehen das Audio auf unserer Seite. Für private Feeds laden Sie die Datei herunter und laden Sie sie hoch.
02Wird die Musik-Intro als 'la la la' Unsinn transkribiert?+
Nicht, wenn Musik-Intro/Outro überspringen aktiviert ist (es ist es standardmäßig). Wir erkennen Nicht-Sprach-Audio und starten das Transkript beim ersten gesprochenen Wort. Zeitstempel in der SRT verschieben sich zum Abgleich, damit YouTube-Untertitel weiterhin synchron sind.
03Was genau ist in der Shownotes-Datei?+
Eine 2–4 Satz Episode-Zusammenfassung, 3–7 Schlüsselpunkte als Aufzählung, Aktionspunkte falls erwähnt, und 3–8 Topic-Tags. Als Markdown gerendert, damit Sie direkt in WordPress, Ghost, Substack oder auf der Episode-Seite Ihres Podcast-Hosts einfügen können.
04Können Sie Kapitel-Markierungen für Apple Podcasts und Spotify generieren?+
Ja — Kapitel werden aus den Schlüsselpunkten mit Zeitstempeln generiert. Exportieren Sie als separate chapters.txt oder betten Sie in WAV/M4A ein. Beachten Sie, dass Spotify Kapitel nur auf Anchor-gehosteten Shows unterstützt, daher ist die txt-Datei Ihr Fallback.
05Ich habe Pro-Track-Dateien von Riverside / SquadCast — sollte ich diese hochladen?+
Ja, bitte. Laden Sie jede Sprecher-WAV separat hoch und taggen Sie sie mit Namen. Wir transkribieren jeden Track unabhängig und mergen nach Zeitstempel. Die Genauigkeit landet bei etwa 97% auf diesem Setup — der sauberste Fall, den wir sehen.
06Kann es Sponsor-Reads oder Ad Breaks kennzeichnen?+
Nicht automatisch — das ist auf der Roadmap. Derzeit legen Sie eine Markierung in Ihrem Edit ab (eine kurze Stille oder ein Klingelton) und wir zeigen sie als Zeitstempel im Transkript. Sie können auch Ad-Segmente taggen, indem Sie den Sponsor-Markennamen danach suchen und taggen.
07Wie lange kann die Episode sein?+
Bis zu 6 Stunden pro Datei in einem Upload. Die meisten Shows laufen 30–90 Minuten, was in 4–8 Minuten verarbeitet wird. Für eine 3-Stunden-Interview-Episode rechnen Sie mit etwa 12–15 Minuten vom Upload bis Sie alle vier Artefakte haben.
08Werden die YouTubes Auto-Untertitel durch die SRT sauber ersetzt?+
Ja. Die SRT ist bei ~42 Zeichen zeilenumbrochen mit korrekter Zeichensetzung und optionalen Sprecher-Präfixen. Laden Sie sie in YouTube Studio → Untertitel → Sprache hinzufügen → SRT hoch. Es überschreibt die automatisch generierten Untertitel vollständig.

Laden Sie Ihre Episode hoch. Erhalten Sie das Transkript, Notizen und SRT.

30 kostenlose Minuten jeden Monat. Keine Kartierung erforderlich. Sprecherlabel, Shownotes, Kapitel und alle Exporte inbegriffen.

Kostenlos starten