Transkrypcja grup fokusowych — transkrybuj sesję grupy fokusowej ze wskazaniem każdego uczestnika

Transkrypcja grup fokusowych.Każdy uczestnik oznaczony, każde słowo.

Prześlij nagranie grupy fokusowej z 6, 8, nawet 10 głosami. Otrzymaj transkrypcję słowo w słowo z każdym uczestnikiem oznaczonym, nakładającą się mowę tagowaną, i DOCX, który wczytuje się bezpośrednio do NVivo.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

Ośmiu uczestników wchodzi. Ze wskazaniem słowo w słowo na wyjściu.

Grupy fokusowe to najtrudniejszy przypadek diaryzacji w naszej kolejce — podobne demografie, podobne głosy, częste nakładające się mowy. Tagujemy nakładanie się inline zamiast je pomijać, a następnie zmienisz Speaker 3 → 'Participant_F2' raz i rozpropaguje się na całą transkrypcję.

Nagranie grupy fokusowejREC Moderator + 7 uczestników · 1:23:14

auto-wykryte en-US44 kHz boundary mic · WAV

~90s

Transkrypcja · streaming91% dokładność · 8 uczestników

Kiedy pierwszy raz otworzyłeś opakowanie — opisz co zauważyłeś.

Szczerze? Pierwsze co wyczułem to zapach. Taki szpitalny, wiesz, kliniczny —

Tak, u mnie podobnie. Myślałem że to miała być ta lawenda.

No właśnie, etykieta mówi lawenda ale naprawdę nie —

91% na sali z 8 uczestnikamiDOCX (QDA-gotowy) · SRT · TXT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2Exports

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Action items

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Rev w ludziach. Generyczny AI. Albo my.

Naukowcy zazwyczaj wybierają między płaceniem człowiekowi (powoli, dokładnie, drogo) a uruchomieniem pliku przez generyczny narzędzie AI, które nie było zbudowane dla sali z 8 głosami. My siedzimy pośrodku — szybkość AI, diaryzacja dostrojona do nagrań badawczych, i DOCX, który wchodzi do NVivo bez zabawy chirurgicznej.

Option 01

Rev w ludziach, słowo w słowo

Człowiek to pisze. Wysoka dokładność, ale 24-godzinny czas realizacji i cena skaluje się liniowo z godzinami.

Dokładność~99% (człowiek)

Czas realizacjiZwykle 12–24 godziny

Nakładające się mowyOznaczane [crosstalk]

Eksport QDADOCX, ręczne czyszczenie

Koszt · na minutę$1.50 słowo w słowo

90-minutowa grupa~$135

Best forPrace dyplomowe lub badania regulacyjne, gdzie każda nieregularność musi być zweryfikowana przez człowieka.

Option 02

Transcription.Solutions

Diaryzacja dostrojona do 6-10 głosów, nakładające się mowy tagowane inline, eksport DOCX skalowany do NVivo, ATLAS.ti i Dedoose.

Dokładność88–94% na audio grupowym

Czas realizacji~1× realtime

Nakładające się mowyTagowane, nie pomijane

Eksport QDADOCX ze zwrotami uczestnika

Koszt · na minutę$0.03

90-minutowa grupa~$2.70

Best forBadacze prowadzący wiele grup, którzy potrzebują pierwszej transkrypcji w NVivo jutro rano, nie w przyszłym tygodniu.

Option 03

Otter / Sonix

Generyczny AI zbudowany do spotkań. Przyzwoity na 2-3 głosach, pada po 5 — i eksporty nie przewidują oprogramowania QDA.

DokładnośćSpada po 5 głosach

Czas realizacjiSzybko

Nakładające się mowyZwykle pomijane

Eksport QDABrak natywnego formatu NVivo

Limit uczestnikówMiękki limit ~6

Koszt$17–22/użytkownik/miesiąc

Best forMałe wywiady i rozmowy 1-do-1, gdzie nagranie ma 2-3 głosy i żyje w przepływie kalendarza.

Ceny dokładne na maj 2026. Zakresy dokładności pochodzą z naszej wewnętrznej próbki plików grup fokusowych klientów, nie syntetycznych benchmark'ów.

94% z lavalierem na każdego uczestnika. Utrzymuje się na 82% z jednym mikrofonem pokojowym.

Dokładność grupy fokusowej jest wąskim gardłem topologii mikrofonu, nie modelu. Lavalier na każdym uczestniku daje nam czyste kanały na uczestnika — diaryzacja staje się trywialna. Jeden boundary mic na stole konferencyjnym z 8 głosami to trudny przypadek. Numery poniżej pochodzą z rzeczywistych nagrań badawczych w naszym potoku.

8 rzeczy, które ludzie pytają o transkrypcję grup fokusowych.

01Czy mogę zmienić Speaker 1 na rzeczywisty numer uczestnika lub ID?+

Tak. Kliknij dowolny chip uczestnika w edytorze, wpisz nazwę lub ID ze screener'a (np. 'P04_F_34'), a rozpropaguje się na każdy zwrot od tego uczestnika w transkrypcji. Eksport DOCX używa zmienioną etykiet.

02Jak obsługujesz nakładające się mowy i nakładające się przemówienia?+

Tagujemy je inline za pomocą markerów `[overlap]` i zachowujemy wypowiedzi obydwu mówców w transkrypcji. Narzędzia generyczne zwykle wybierają jeden głos i pomijają drugi — my tego nie robimy, bo momenty nakładania się to często dokładnie tam, gdzie żyją rzeczywiste dynamiki grupy fokusowej.

03Czy DOCX naprawdę wczytuje się czysty do NVivo i ATLAS.ti?+

Tak. Eksportujemy ze wskazaniami uczestnika jako nagłówkami w stylu akapitu, które NVivo automatycznie koduje przy imporcie, a ATLAS.ti rozpoznaje jako zwroty uczestnika. Dedoose akceptuje ten sam DOCX poprzez ścieżkę importu transkrypcji.

04Ilu mówców możesz diaryzować w jednym pliku?+

Miekkki sufit wokół 12. Po tym klastrowanie akustyczne zaczyna łączyć podobne głosy — co zwykle oznacza projekt przejrzenia i scal podobny 10-15 minut z twojej strony. Ustaw 'Expected speakers' jawnie w formularzu zadania dla najlepszych wyników.

05Słowo w słowo lub oczyszczony — czy mogę wybierać?+

Oboje. Tryb słowo w słowo zachowuje każdy 'um', fałsty start i powtórzone słowo dla analizy dyskursu. Oczyszczony usuwa nieregularności dla czytelności. Wybierasz dla każdego zadania; domyślnie dla szablonu badawczego jest słowo w słowo.

06Co z wymogami IRB i poufnością uczestników?+

Pliki są przetwarzane w naszej infrastrukturze, nie wysyłane do stron trzecich. Oferujemy flagę automatycznego usuwania po N dniach dla każdego zadania, dla protokołów IRB. Jesteśmy SOC 2 Type II i GDPR-kompatybilni; DPA jest na stronie prawnej, jeśli twoje IRB go potrzebuje.

07Czy powinienem nagrywać wideo czy tylko dźwięk?+

Samo audio jest w porządku — nie używamy wideo do diaryzacji. Jeśli masz wideo do identyfikacji uczestnika, przechowaj je lokalnie do własnego kodowania; przesyłanie tylko ścieżki dźwiękowej jest szybsze i tańsze.

08Jak koszt porównuje się do Rev słowo w słowo w ludziach?+

90-minutowa grupa fokusowa kosztuje koło $2.70 tutaj versus około $135 na Rev słowo w słowo. Kompromis to dokładność: osiągamy 86-94% w zalezności od ustawienia mikrofonu, transcribenci Rev trafiają około 99%. Większość badaczy używa nas do pierwszego przejścia i eskaluje konkretne grupy do człowieka tylko jeśli potrzeba.