Interview-Transkription.Unterschiedliche Aufnahme, gleiches Ergebnis.

Telefon-Memo, Zoom-Anruf, Lavaliermikrofon oder tragbarer Feldrecorder — lade die Interview-Aufnahme hoch und bekommen Text mit Sprecherlabels und Zeitstempeln zum Zitieren.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ So sieht das Ergebnis aus

Zwei Stimmen rein. Zwei Stimmen raus, gelabelt.

Die meisten Interviews sind zwei Personen auf einem Gerät — ein Telefon auf dem Tisch, ein Rekorder zwischen euch. Wir trennen die Interview-Aufnahme in Reporterin und Quelle auf, auch von nur einem Mono-Kanal, und versehen jeden Beitrag mit einem Zeitstempel zum Zitieren.

Field recorder · WAVREC 2 speakers · 38:42
auto-detected en-US48 kHz mono · 1411 kbps
~90s
Transkript · Streaming94% Genauigkeit
S1

Kannst du mir erzählen, was du am Morgen des achtzehnten gesehen hast?

S2

Ich bin gegen sechs angekommen. Die Ladebuchtür war bereits offen, was nicht hätte sein dürfen.

S1

Und du hattest das Türproblem vorher gemeldet — wem?

S2

An Diane Okafor in der Verwaltung, zweimal im März. Ich habe die E-Mails.

94% bei Feldaufnahmen im WAV-FormatDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Drei echte Optionen · ehrlicher Vergleich

Rev von Menschen. Otter oder Trint. Oder wir.

Rev sendet deine Aufnahme an Menschen — langsam und teuer, aber hohe Treue bei schlechtem Audio. Otter und Trint sind wie wir KI-first, optimiert für Journalisten und Forscherinnen. Hier ist, wo jeder passt.

Option 01

Rev Transkription von Menschen

Echte Menschen tippen dein Interview. Am besten bei schlechtem Audio, aber es dauert und kostet.

BearbeitungszeitTypisch 12–24 Stunden
Genauigkeit bei sauberer Aufnahme99% (angegeben)
SprecherlabelsManuell, inbegriffen
SprachenEN von Menschen · 30+ KI
Kosten · pro Minute$1,50 von Menschen · $0,25 KI
DatenschutzAufnahme an Auftragnehmer übermittelt
Best forInterviews mit Gerichtsverwertung oder publikationskritische Interviews bei schlechtem Audio, wo du ein menschliches Ohr brauchst und einen Tag warten kannst.
Option 02

Transcription.Solutions

KI-Transkription, Sprechertrennung, fertig in Minuten. Same Engine für Telefon-Memo, Zoom oder Feldrecorder.

Bearbeitungszeit~3 Min. pro Stunde Audio
Genauigkeit bei sauberer Aufnahme94–96%
SprecherlabelsAutomatisch · im Editor umbenennen
Sprachen99, automatisch erkannt
Kosten · pro Minute$0,03
DatenschutzAufnahme nach 24h gelöscht · kein Training
Best forJournalisten, Forscherinnen und Produzenten, die mehrmals pro Woche Interviews führen und schnelle, zitierbare Texte ohne Upload an einen Auftragnehmer brauchen.
Option 03

Otter / Trint

KI-Transkription mit forschungsorientiertem Editor. Englisch-stark, an Monatspläne gebunden.

BearbeitungszeitEchtzeit bis ~5 Min.
Genauigkeit bei sauberer Aufnahme~90–93%
SprecherlabelsJa · für EN optimiert
SprachenOtter nur EN · Trint 30+
Kosten$17–80/Benutzer/Monat (Abo)
DatenschutzStandardmäßig im Konto gespeichert
Best forTeams, die eine gehostete Bibliothek jedes jemals aufgezeichneten Interviews haben wollen und sich nicht an eine monatliche Gebühr pro Benutzer stören.

Preise und Features aktuell für 2026. Bearbeitungszeit bei Rev variiert je nach Warteschlange und Audiodauer.

Spezifisch für Interviews

Drei Fallstricke bei generischen Transkriptions-Tools.

Interview-Audio ist selten sauber. Mit diesen Einstellungen hält das Transkript unter Zitaten stand.

Was schiefgeht

  1. 1Durcheinanderreden auf einem Kanal. Wenn deine Quelle emotional wird und deine Frage unterbricht, mergt generische Sprechertrennung beide in einen Redeblock.
  2. 2Quellennamen und Orte (Okafor, Tigray, Maranello) kommen phonetisch zurück. Nutzlos zum Fact-Checking gegen ein Transkript.
  3. 3Off-the-Record-Momente landen im gleichen Transkript wie zitierbare Inhalte — keine Möglichkeit, eine Region als redacted zu markieren.

Was du hier einstellen solltest

  1. 1Wenn dein Feldrecorder eine zwei-Kanal-WAV-Datei schreibt (ein Mikrofon pro Spur), lade die Datei direkt hoch. Wir erkennen pro Kanal und überspringen die Sprechertrennung ganz.
  2. 2Füge deine Vorbereitungsnotizen — Quellennamen, Organisationen, Ortsnamen — in Custom Vocabulary im Job-Formular ein. Der Recognizer behandelt sie als bekannte Eigennamen.
  3. 3Nachdem das Transkript angekommen ist, markiere eine Region als off-record im Editor. Sie wird als `[REDACTED 14:22–15:08]` in DOCX und TXT exportiert, mit der Aufnahme nach 24 Stunden gelöscht.

Empfohlene Job-Einstellungen für Interviews

Lade eine Interview-Datei hoch und diese schalten sich standardmäßig ein. Überschreibe pro Job im Formular.

Sprechertrennung
Pro Kanal wenn Stereo · akustisch sonst
Sprechermodell
Interview · 2–4 Sprecher
Sprache
Automatische Erkennung · Code-Wechsel an
Füllwörter
Behalten (wörtlicher Modus)
Zusammenfassung
Wichtige Zitate + Themenindex
Export
DOCX mit Zeitstempeln · einfaches TXT · JSON

Accuracy · real-world numbers

96% bei guten Lavaliermikrofonen. Auch bei Café-Aufnahmen noch lesbar.

Interview-Genauigkeit ist begrenzt durch das, was das Mikrofon tatsächlich gehört hat. Stereo-Nahfeld bei jedem Sprecher ist das Maximum; ein Telefon auf einem lauten Tisch ist das Minimum. Die Zahlen stammen von echten Interview-Dateien, nicht von synthetischen Benchmarks.

96%
Zwei Lavaliermikrofone · Studio-Stille

Ein Mikrofon pro Sprecher, getrennte Kanäle (Zoom H5/H6, Tascam DR-40). Sprechertrennung ist trivial — Fehler sind nur im Text.

94%
Tragbarer Rekorder auf dem Tisch

Ein Kondensator-Mikrofon zwischen zwei Sprechern, stiller Raum. Akustische Sprechertrennung funktioniert zuverlässig unter 4 Fuß.

90%
Telefon-Sprachmemo · nah

iPhone- oder Pixel-Sprachmemo auf dem Tisch. Namen und Zahlen werden gelegentlich übersehen; der Rhythmus reicht zum Zitieren.

84%
Feldaufnahme · Café oder Straße

Espressomaschinen, Verkehr, weitere Stimmen in der Nähe. Schlechtester Fall in unseren Daten — brauchbar zur Navigation, überprüfe Zitate gegen die Aufnahme.

Häufig gestellte Fragen

8 Fragen zu Interview-Transkription.

01Kann ich diese Transkripte in einem veröffentlichten Artikel verwenden, ohne die Aufnahme zu überprüfen?+
Für direkte Zitate — nein, überprüfe immer gegen die Aufnahme. KI-Transkripte mit 94% Genauigkeit lesen durchschnittlich noch ein Wort in 17 falsch, und das falsche Wort in einem Zitat ist eine Korrektur. Das Transkript ist zur Navigation und zum Entwurferstellen; die Aufnahme ist die Quelle der Wahrheit.
02Mein Rekorder hat eine Stereo-WAV mit einem Mikrofon pro Sprecher gespeichert. Was soll ich tun?+
Lade die Datei direkt hoch — konvertiere nicht zuerst zu Mono. Wir erkennen die zwei Kanäle und leiten jeden zu seinem eigenen Sprechertrennung-Track, was der höchste Genauigkeitspfad ist, den wir haben. Erwarte 96%+ in einem ruhigen Raum.
03Was ist mit Interviews, die über einen Telefonanruf aufgezeichnet wurden?+
Telefonaudio ist 8 kHz Schmalband, was die Genauigkeit auf etwa 88% begrenzt, auch bei einer sauberen Leitung. Wir teilen die beiden Parteien immer noch mit Kanaltrennung, wenn deine Recorder-App sie separat aufgezeichnet hat (die meisten tun es). VoIP-Anrufe über WhatsApp oder Signal klingen etwas besser als PSTN.
04Kann ich Off-the-Record-Abschnitte vor dem Teilen des Transkripts redigieren?+
Ja. Im Editor wählst du den Zeitstempelbereich aus und markierst ihn `[REDACTED]`. Der Export ersetzt den Text mit einem Redaktionsmarker, behält aber die Zeitstempel, damit das Dokument die Aufnahme immer noch verfolgt.
05Trainieren Sie Modelle mit meinen Interview-Aufnahmen?+
Nein. Die Quellenaufnahme wird innerhalb von 24 Stunden nach Abschluss aus unserer Infrastruktur gelöscht, und wir verwenden Kundenaufnahmen unter keinem Plan zum Modelltraining. Der Transkripttext bleibt in deinem Konto, bis du ihn löschst.
06Drei oder vier Personen in einem Panel-Interview — funktioniert die Sprechertrennung immer noch?+
Bis etwa sechs unterschiedliche Stimmen, ja, aber die Genauigkeit der Sprecherzuweisung fällt mit jeder hinzugefügten Person und wird schlechter, wenn zwei Sprecher ähnlich klingen. Plane einen 2–3-minütigen Umbenennungspass für die Speaker-Chips, nachdem das Transkript ankommt.
07Könnt ihr Interviews in anderen Sprachen als Englisch transkribieren?+
99 Sprachen, automatisch erkannt. Code-Wechsel (wenn die Quelle mitten im Satz die Sprache wechselt) wird in 12 Sprachenpaaren bearbeitet. Genauigkeit variiert je nach Sprache — europäische Sprachen entsprechen Englisch; Sprachen mit geringen Ressourcen in Afrika und Zentralasien sind 5–10 Punkte niedriger.
08Ich nehme bei Zoom auf — sollte ich stattdessen eure Zoom-Seite verwenden?+
Same Engine, gleiches Ergebnis. Die Zoom-Seite behandelt Cloud-Recording-Spezifiken (Audio pro Teilnehmer, Dial-In-Verschlechterung). Wenn du ein Interview auf einmal über Zoom führst, funktionieren beide Pfade — lade die MP4 hier hoch und die Sprecherlabels kommen gleich heraus.

Lade deine Interview-Aufnahme hoch. Schau dir an, was rauskommt.

30 kostenlose Minuten jeden Monat. Karte nicht erforderlich. Sprecherlabels, 99 Sprachen, alle Exporte inbegriffen.

Kostenlos beginnen