Fokusgruppen-Transkription.Jeder Sprecher beschriftet, jedes Wort.

Lade eine Fokusgruppen-Aufnahme mit 6, 8 oder sogar 10 Stimmen hoch. Erhalte ein wörtliches Transkript mit beschrifteten Teilnehmern, markiertem Cross-Talk und einer DOCX, die sich direkt in NVivo öffnen lässt.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Sieh, was dabei herauskommt

Acht Teilnehmer rein. Beschriftetes Wörtliches raus.

Fokusgruppen sind der schwierigste Diarisierungsfall in unserer Queue — ähnliche Demografie, ähnliche Stimmen, häufige Cross-Talk-Überlappung. Wir markieren die Überlappung inline, statt sie zu verwerfen — danach benennst du Speaker 3 → 'Participant_F2' einmal um, und es wird überall übernommen.

Fokusgruppen-AufnahmeREC Moderator + 7 Teilnehmer · 1:23:14
automatisch erkannt en-US44 kHz Grenzflächenmikrofon · WAV
~90s
Transkript · streaming91 % Genauigkeit · 8 Sprecher
S1

Als Sie die Verpackung zum ersten Mal geöffnet haben — beschreiben Sie bitte, was Ihnen aufgefallen ist.

S2

Ehrlich gesagt? Das Erste war der Geruch. Wie in einem Krankenhaus, irgendwie klinisch —

S3

Ja, ging mir genauso. Ich dachte, das wäre die Lavendel-Variante.

S2

Genau, und auf dem Etikett steht Lavendel, aber es riecht wirklich nicht —

91 % bei Raummikrofon mit 8 SprechernDOCX (QDA-ready) · SRT · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Drei reale Optionen · ehrlicher Vergleich

Rev mit Menschen. Generische KI. Oder wir.

Forschende wählen meist zwischen einem menschlichen Transkribierer (langsam, genau, teuer) oder einem generischen KI-Tool, das nicht für Räume mit 8 Stimmen gebaut wurde. Wir sitzen dazwischen — KI-Geschwindigkeit, Diarisierung speziell für Forschungsaufnahmen und eine DOCX, die ohne Nacharbeit in NVivo landet.

Option 01

Rev Human Verbatim

Ein Mensch tippt es ab. Hohe Genauigkeit, aber 24 Stunden Bearbeitungszeit und der Preis skaliert linear mit den Stunden.

Genauigkeit~99 % (Mensch)
Bearbeitungszeittypisch 12–24 Stunden
Cross-TalkMarkiert als [crosstalk]
QDA-ExportDOCX, manuelle Nacharbeit
Kosten · pro Min.$1,50 verbatim
90-Min.-Gruppe~$135
Best forDissertationen oder regulierte Forschung, bei der jede Sprechunflüssigkeit menschlich verifiziert werden muss.
Option 02

Transcription.Solutions

Diarisierung optimiert für 6–10 Stimmen, Cross-Talk inline markiert, DOCX-Export passend für NVivo, ATLAS.ti und Dedoose.

Genauigkeit88–94 % bei Gruppenaudio
Bearbeitungszeit~1× Echtzeit
Cross-TalkMarkiert, nicht verworfen
QDA-ExportDOCX mit Sprecherwechseln
Kosten · pro Min.$0,03
90-Min.-Gruppe~$2,70
Best forForschende mit mehreren Gruppen, die ein Erst-Transkript bis morgen früh in NVivo brauchen — nicht erst nächste Woche.
Option 03

Otter / Sonix

Generische KI, gebaut für Meetings. Solide bei 2–3 Sprechern, bricht ab 5 ein — und die Exporte sind nicht auf QDA-Software ausgelegt.

GenauigkeitSinkt ab 5 Sprechern
BearbeitungszeitSchnell
Cross-TalkOft verworfen
QDA-ExportKein natives NVivo-Format
Sprecher-LimitSoft-Limit ~6
Kosten$17–22/Nutzer/Monat
Best forKleine Interviews und 1-zu-1-Gespräche, bei denen die Aufnahme 2–3 Stimmen enthält und im Kalender-Workflow lebt.

Preise gültig zum Stand Mai 2026. Die Genauigkeitsbereiche stammen aus unserer internen Stichprobe echter Fokusgruppen-Dateien von Kunden, nicht aus synthetischen Benchmarks.

Spezifisch für Fokusgruppen

Drei Dinge, die Forschern bei zum Verhängnis werden. generischen KI-Tools

Stelle die richtigen Einstellungen direkt zu Beginn um, und das Transkript landet ohne Nacharbeitswochenende in NVivo.

Was schiefgeht

  1. 1Cross-Talk wird verworfen. Die meisten Consumer-Tools wählen bei Überlappung einen Sprecher aus und werfen den Rest weg. Du verlierst genau die Momente, in denen Konsens oder Widerspruch entstehen.
  2. 2Sprecher werden auf 3 reduziert. Tools gehen von meetinggroßen Räumen aus und deckeln Diarisierungs-Cluster niedrig. Deine acht Teilnehmer kommen als 'Speaker 1' / 'Speaker 2' / 'Speaker 3' zurück.
  3. 3Der Export ist eine Textwand. Keine Absatzumbrüche pro Sprecherwechsel, keine DOCX-Struktur, die NVivo beim Import automatisch codieren kann.

Was du hier umstellst

  1. 1Aktiviere Überlappende Sprache markieren im Job-Formular. Cross-Talk erhält Inline-Marker `[overlap]`, und beide Sprecher behalten ihre Äußerungen.
  2. 2Setze Erwartete Sprecher: 8–12 explizit. Wir dimensionieren die Diarisierungs-Cluster passend, statt zu niedrig zu schätzen.
  3. 3Wähle den Export DOCX (QDA-ready). Sprecherwechsel werden zu Absätzen mit vorangestelltem Label — NVivo, ATLAS.ti und Dedoose erkennen dieses Format beim Import automatisch.

Empfohlene Job-Einstellungen für Fokusgruppen

Lade eine Fokusgruppen-Datei mit der 'research'-Vorlage hoch — diese sind standardmäßig aktiv. Pro Job über das Formular überschreibbar.

Diarisierung
Akustisch · erwartet 6–10 Sprecher
Verbatim-Modus
Voll — Disfluenzen behalten
Überlappungs-Handling
Inline markieren [overlap]
Eigenes Vokabular
Produkt-/Markennamen aus dem Screener
Sprecher-Labels
Nach dem Job editierbar, propagiert auf alle
Export
DOCX (QDA-ready) · TXT mit Zeitstempeln

Accuracy · real-world numbers

94 % mit Lavalier pro Teilnehmer. Hält sich bei 82 % an einem einzelnen Raummikrofon.

Die Genauigkeit bei Fokusgruppen wird durch die Mikrofon-Topologie ausgebremst, nicht durch das Modell. Ein Lavalier an jedem Teilnehmer liefert saubere Einzelkanäle pro Sprecher — Diarisierung wird trivial. Ein einzelnes Grenzflächenmikrofon auf dem Konferenztisch mit 8 Stimmen ist der harte Fall. Die Zahlen unten stammen aus echten Forschungsaufnahmen in unserer Pipeline.

94%
Lavalier pro Teilnehmer

Jeder Teilnehmer auf eigener Spur, gemischt zu Multitrack-WAV. Diarisierung entfällt — nur Textfehler. Bester Fall für Dissertationsqualität.

91%
Konferenzmikrofon, 4–6 Teilnehmer

Grenzflächenmikrofon mittig auf dem Tisch, moderate Raumakustik. Stimmen unterscheidbar, gelegentliche Verwechslung zwischen Teilnehmern gleichen Geschlechts und ähnlichen Alters.

86%
Einzelnes Raummikrofon, 7–10 Teilnehmer

Cross-Talk häufig, ähnliche Stimmen verschmelzen bei akustischer Diarisierung. Plane 10 Minuten Umbenennen und Zusammenführen der Sprecher-Chips vor der Analyse ein.

82%
Remote-Gruppe auf Mono-Zoom

Komprimierter Mono-Mix, kein Splitting pro Kanal verfügbar. Wörter sind für thematisches Codieren weiterhin nutzbar, aber wörtliche Aussagen auf Disfluenz-Ebene werden hier schwächer.

Häufige Fragen

8 Fragen, die Leute zur Fokusgruppen-Transkription stellen.

01Kann ich Speaker 1 in den echten Namen oder die ID eines Teilnehmers umbenennen?+
Ja. Klicke im Editor auf einen Sprecher-Chip, tippe den Namen oder die Screener-ID (z. B. 'P04_F_34') ein, und es wird auf jeden Sprecherwechsel dieser Person im Transkript übertragen. Der DOCX-Export verwendet die umbenannten Labels.
02Wie geht ihr mit Cross-Talk und überlappender Sprache um?+
Wir markieren ihn inline mit `[overlap]`-Markern und behalten die Äußerungen beider Sprecher im Transkript. Generische Tools wählen meist eine Stimme und verwerfen die andere — wir nicht, denn genau in den Überlappungsmomenten passiert oft die eigentliche Fokusgruppen-Dynamik.
03Importiert die DOCX wirklich sauber in NVivo und ATLAS.ti?+
Ja. Wir exportieren Sprecher-Labels als absatzartige Überschriften — NVivo codiert sie beim Import automatisch und ATLAS.ti erkennt sie als Sprecherwechsel. Dedoose akzeptiert dieselbe DOCX über den Transkript-Import-Pfad.
04Wie viele Sprecher könnt ihr in einer Datei diarisieren?+
Soft-Limit bei etwa 12. Darüber hinaus beginnt das akustische Clustering, ähnliche Stimmen zusammenzuführen — das bedeutet auf deiner Seite meist 10–15 Minuten Umbenennen. Setze 'Erwartete Sprecher' im Job-Formular explizit für beste Ergebnisse.
05Verbatim oder bereinigt — kann ich wählen?+
Beides. Der Verbatim-Modus behält jedes 'ähm', jeden Fehlstart und jede Wortwiederholung für die Diskursanalyse. Bereinigt entfernt Disfluenzen für bessere Lesbarkeit. Du wählst pro Job; die Voreinstellung der Research-Vorlage ist verbatim.
06Was ist mit IRB-Anforderungen und Teilnehmer-Vertraulichkeit?+
Die Dateien werden in unserer Infrastruktur verarbeitet, nicht an Drittanbieter-APIs gesendet. Wir bieten pro Job ein Flag für automatisches Löschen nach N Tagen für IRB-Protokolle. Wir sind SOC 2 Type II und GDPR-konform; die DPA findest du auf der Rechtsseite, falls dein IRB sie benötigt.
07Soll ich Video oder nur Audio aufnehmen?+
Reines Audio reicht — wir nutzen kein Video für die Diarisierung. Wenn du Video zur Teilnehmer-Identifikation hast, behalte es lokal für dein eigenes Codieren; nur die Audiospur hochzuladen ist schneller und günstiger.
08Wie verhalten sich die Kosten gegenüber Rev Human Verbatim?+
Eine 90-minütige Fokusgruppe kostet hier rund $2,70 — bei Rev Verbatim etwa $135. Trade-off ist die Genauigkeit: Wir landen je nach Mikrofon-Setup bei 86–94 %, die menschlichen Transkribierer von Rev erreichen ~99 %. Die meisten Forschenden nutzen uns für den ersten Durchgang und eskalieren nur bestimmte Gruppen bei Bedarf an Menschen.

Lade eine Fokusgruppen-Aufnahme hoch. Sieh das Transkript bis morgen in NVivo.

30 Freiminuten jeden Monat. Keine Karte. Sprecher-Labels, Cross-Talk-Markierung und QDA-ready DOCX-Export in jedem Plan enthalten.

Kostenlos starten