Fokusgruppen-Transkription — Fokusgruppe transkribieren mit Sprecher-Labels für jeden Teilnehmer

Fokusgruppen-Transkription.Jeder Sprecher beschriftet, jedes Wort.

Lade eine Fokusgruppen-Aufnahme mit 6, 8 oder sogar 10 Stimmen hoch. Erhalte ein wörtliches Transkript mit beschrifteten Teilnehmern, markiertem Cross-Talk und einer DOCX, die sich direkt in NVivo öffnen lässt.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

Acht Teilnehmer rein. Beschriftetes Wörtliches raus.

Fokusgruppen sind der schwierigste Diarisierungsfall in unserer Queue — ähnliche Demografie, ähnliche Stimmen, häufige Cross-Talk-Überlappung. Wir markieren die Überlappung inline, statt sie zu verwerfen — danach benennst du Speaker 3 → 'Participant_F2' einmal um, und es wird überall übernommen.

Fokusgruppen-AufnahmeREC Moderator + 7 Teilnehmer · 1:23:14

automatisch erkannt en-US44 kHz Grenzflächenmikrofon · WAV

~90s

Transkript · streaming91 % Genauigkeit · 8 Sprecher

Als Sie die Verpackung zum ersten Mal geöffnet haben — beschreiben Sie bitte, was Ihnen aufgefallen ist.

Ehrlich gesagt? Das Erste war der Geruch. Wie in einem Krankenhaus, irgendwie klinisch —

Ja, ging mir genauso. Ich dachte, das wäre die Lavendel-Variante.

Genau, und auf dem Etikett steht Lavendel, aber es riecht wirklich nicht —

91 % bei Raummikrofon mit 8 SprechernDOCX (QDA-ready) · SRT · TXT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2Exports

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Action items

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Rev mit Menschen. Generische KI. Oder wir.

Forschende wählen meist zwischen einem menschlichen Transkribierer (langsam, genau, teuer) oder einem generischen KI-Tool, das nicht für Räume mit 8 Stimmen gebaut wurde. Wir sitzen dazwischen — KI-Geschwindigkeit, Diarisierung speziell für Forschungsaufnahmen und eine DOCX, die ohne Nacharbeit in NVivo landet.

Option 01

Rev Human Verbatim

Ein Mensch tippt es ab. Hohe Genauigkeit, aber 24 Stunden Bearbeitungszeit und der Preis skaliert linear mit den Stunden.

Genauigkeit~99 % (Mensch)

Bearbeitungszeittypisch 12–24 Stunden

Cross-TalkMarkiert als [crosstalk]

QDA-ExportDOCX, manuelle Nacharbeit

Kosten · pro Min.$1,50 verbatim

90-Min.-Gruppe~$135

Best forDissertationen oder regulierte Forschung, bei der jede Sprechunflüssigkeit menschlich verifiziert werden muss.

Option 02

Transcription.Solutions

Diarisierung optimiert für 6–10 Stimmen, Cross-Talk inline markiert, DOCX-Export passend für NVivo, ATLAS.ti und Dedoose.

Genauigkeit88–94 % bei Gruppenaudio

Bearbeitungszeit~1× Echtzeit

Cross-TalkMarkiert, nicht verworfen

QDA-ExportDOCX mit Sprecherwechseln

Kosten · pro Min.$0,03

90-Min.-Gruppe~$2,70

Best forForschende mit mehreren Gruppen, die ein Erst-Transkript bis morgen früh in NVivo brauchen — nicht erst nächste Woche.

Option 03

Otter / Sonix

Generische KI, gebaut für Meetings. Solide bei 2–3 Sprechern, bricht ab 5 ein — und die Exporte sind nicht auf QDA-Software ausgelegt.

GenauigkeitSinkt ab 5 Sprechern

BearbeitungszeitSchnell

Cross-TalkOft verworfen

QDA-ExportKein natives NVivo-Format

Sprecher-LimitSoft-Limit ~6

Kosten$17–22/Nutzer/Monat

Best forKleine Interviews und 1-zu-1-Gespräche, bei denen die Aufnahme 2–3 Stimmen enthält und im Kalender-Workflow lebt.

Preise gültig zum Stand Mai 2026. Die Genauigkeitsbereiche stammen aus unserer internen Stichprobe echter Fokusgruppen-Dateien von Kunden, nicht aus synthetischen Benchmarks.

94 % mit Lavalier pro Teilnehmer. Hält sich bei 82 % an einem einzelnen Raummikrofon.

Die Genauigkeit bei Fokusgruppen wird durch die Mikrofon-Topologie ausgebremst, nicht durch das Modell. Ein Lavalier an jedem Teilnehmer liefert saubere Einzelkanäle pro Sprecher — Diarisierung wird trivial. Ein einzelnes Grenzflächenmikrofon auf dem Konferenztisch mit 8 Stimmen ist der harte Fall. Die Zahlen unten stammen aus echten Forschungsaufnahmen in unserer Pipeline.

8 Fragen, die Leute zur Fokusgruppen-Transkription stellen.

01Kann ich Speaker 1 in den echten Namen oder die ID eines Teilnehmers umbenennen?+

Ja. Klicke im Editor auf einen Sprecher-Chip, tippe den Namen oder die Screener-ID (z. B. 'P04_F_34') ein, und es wird auf jeden Sprecherwechsel dieser Person im Transkript übertragen. Der DOCX-Export verwendet die umbenannten Labels.

02Wie geht ihr mit Cross-Talk und überlappender Sprache um?+

Wir markieren ihn inline mit `[overlap]`-Markern und behalten die Äußerungen beider Sprecher im Transkript. Generische Tools wählen meist eine Stimme und verwerfen die andere — wir nicht, denn genau in den Überlappungsmomenten passiert oft die eigentliche Fokusgruppen-Dynamik.

03Importiert die DOCX wirklich sauber in NVivo und ATLAS.ti?+

Ja. Wir exportieren Sprecher-Labels als absatzartige Überschriften — NVivo codiert sie beim Import automatisch und ATLAS.ti erkennt sie als Sprecherwechsel. Dedoose akzeptiert dieselbe DOCX über den Transkript-Import-Pfad.

04Wie viele Sprecher könnt ihr in einer Datei diarisieren?+

Soft-Limit bei etwa 12. Darüber hinaus beginnt das akustische Clustering, ähnliche Stimmen zusammenzuführen — das bedeutet auf deiner Seite meist 10–15 Minuten Umbenennen. Setze 'Erwartete Sprecher' im Job-Formular explizit für beste Ergebnisse.

05Verbatim oder bereinigt — kann ich wählen?+

Beides. Der Verbatim-Modus behält jedes 'ähm', jeden Fehlstart und jede Wortwiederholung für die Diskursanalyse. Bereinigt entfernt Disfluenzen für bessere Lesbarkeit. Du wählst pro Job; die Voreinstellung der Research-Vorlage ist verbatim.

06Was ist mit IRB-Anforderungen und Teilnehmer-Vertraulichkeit?+

Die Dateien werden in unserer Infrastruktur verarbeitet, nicht an Drittanbieter-APIs gesendet. Wir bieten pro Job ein Flag für automatisches Löschen nach N Tagen für IRB-Protokolle. Wir sind SOC 2 Type II und GDPR-konform; die DPA findest du auf der Rechtsseite, falls dein IRB sie benötigt.

07Soll ich Video oder nur Audio aufnehmen?+

Reines Audio reicht — wir nutzen kein Video für die Diarisierung. Wenn du Video zur Teilnehmer-Identifikation hast, behalte es lokal für dein eigenes Codieren; nur die Audiospur hochzuladen ist schneller und günstiger.

08Wie verhalten sich die Kosten gegenüber Rev Human Verbatim?+

Eine 90-minütige Fokusgruppe kostet hier rund $2,70 — bei Rev Verbatim etwa $135. Trade-off ist die Genauigkeit: Wir landen je nach Mikrofon-Setup bei 86–94 %, die menschlichen Transkribierer von Rev erreichen ~99 %. Die meisten Forschenden nutzen uns für den ersten Durchgang und eskalieren nur bestimmte Gruppen bei Bedarf an Menschen.