Transcripción de grupos focales — transcriba un grupo focal con etiquetas de participante para cada persona

Transcripción de grupos focales.Cada participante etiquetado, cada palabra.

Cargue una grabación de grupo focal con 6, 8, incluso 10 voces. Obtenga una transcripción verbatim con cada participante etiquetado, superposición de voces etiquetada y un DOCX que se carga directamente en NVivo.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

Ocho participantes entran. Transcripción etiquetada sale.

Los grupos focales son el caso más difícil de diarización en nuestra fila — demografía similar, voces similares, solapamiento de voces frecuente. Etiquetamos el solapamiento en línea en lugar de descartarlo, luego renombra Speaker 3 → 'Participant_F2' una vez y se propaga.

Grabación de grupo focalREC Moderador + 7 participantes · 1:23:14

auto-detected en-US44 kHz micrófono de límite · WAV

~90s

Transcripción · en directoPrecisión de 91 % · 8 participantes

Entonces cuando abrió el empaque por primera vez — cuénteme qué notó.

¿Honestamente? Lo primero fue el olor. Como un hospital, algo clínico —

Sí, lo mismo. Pensé que se suponía que era el de lavanda.

Correcto, y la etiqueta dice lavanda pero realmente no —

91 % en micrófono de sala de 8 participantesDOCX (compatible con QDA) · SRT · TXT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2Exports

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Action items

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Rev humano. IA genérica. O nosotros.

Los investigadores generalmente eligen entre pagar a un transcriptor humano (lento, preciso, caro) o pasar el archivo por una herramienta de IA genérica que no fue construida para salas de 8 voces. Nos ubicamos en el medio — velocidad de IA, diarización ajustada para grabaciones de investigación, y un DOCX que se carga en NVivo sin cirugía.

Option 01

Rev transcripción humana verbatim

Un humano lo escribe. Precisión alta, pero 24 horas de espera y el precio escala linealmente con las horas.

Precisión~99 % (humano)

Tiempo de respuesta12–24 horas típico

Solapamiento de vocesMarcado [crosstalk]

Exportación QDADOCX, limpieza manual

Costo · por minuto$1,50 verbatim

Grupo de 90 min~$135

Best forTrabajo de disertación o investigación regulada donde cada disfluencia debe ser verificada por humano.

Option 02

Transcription.Solutions

Diarización ajustada para 6-10 voces, solapamiento de voces etiquetado en línea, exportación DOCX dimensionada para NVivo, ATLAS.ti y Dedoose.

Precisión88–94 % en audio de grupo

Tiempo de respuesta~1× tiempo real

Manejo de solapamientoEtiquetado, no descartado

Exportación QDADOCX con turnos de participante

Costo · por minuto$0,03

Grupo de 90 min~$2,70

Best forInvestigadores ejecutando múltiples grupos que necesitan una transcripción de primer paso en NVivo mañana por la mañana, no la próxima semana.

Option 03

Otter / Sonix

IA genérica construida para reuniones. Decente en 2-3 oradores, se desmorona más allá de 5 — y las exportaciones no anticipan software QDA.

PrecisiónCae más allá de 5 oradores

Tiempo de respuestaRápido

Solapamiento de vocesA menudo descartado

Exportación QDASin formato NVivo nativo

Límite de oradoresLímite suave ~6

Costo$17–22/usuario/mes

Best forEntrevistas pequeñas y individuales donde la grabación tiene 2-3 voces y vive en un flujo de calendario.

Precios precisos a partir de mayo de 2026. Los rangos de precisión provienen de nuestra muestra interna de archivos de grupos focales de clientes, no benchmarks sintéticos.

94 % con micrófono de solapa por participante. Se mantiene en 82 % con un micrófono de sala único.

La precisión del grupo focal está limitada por topología de micrófono, no por el modelo. Una solapa en cada participante nos da canales limpios por orador — la diarización se vuelve trivial. Un micrófono de límite en una mesa de conferencia con 8 voces es el caso difícil. Los números a continuación provienen de grabaciones de investigación real en nuestro pipeline.

8 cosas que la gente pregunta sobre transcripción de grupos focales.

01¿Puedo renombrar Speaker 1 con el nombre real o ID de un participante?+

Sí. Haga clic en cualquier chip de orador en el editor, escriba el nombre o ID del selector (por ejemplo, 'P04_F_34'), y se propaga a cada turno de ese orador en la transcripción. La exportación DOCX utiliza las etiquetas renombradas.

02¿Cómo manejan el solapamiento de voces y el habla superpuesta?+

Las etiquetamos en línea con marcadores `[overlap]` y conservamos el enunciado de ambos oradores en la transcripción. Las herramientas genéricas generalmente eligen una voz y descartan la otra — nosotros no, porque los momentos de solapamiento son a menudo donde viven las dinámicas reales del grupo focal.

03¿Realmente el DOCX se importa limpiamente en NVivo y ATLAS.ti?+

Sí. Exportamos con etiquetas de orador como encabezados de estilo de párrafo, que NVivo auto-codifica durante la importación y ATLAS.ti reconoce como turnos de orador. Dedoose acepta el mismo DOCX a través de su ruta de importación de transcripción.

04¿Cuántos oradores pueden diarizar en un archivo?+

Límite suave alrededor de 12. Más allá de eso, el clustering acústico comienza a fusionar voces similares — lo que generalmente significa un paso de renombrado de 10-15 minutos de su parte. Configure 'Expected speakers' explícitamente en el formulario de trabajo para obtener mejores resultados.

05Verbatim o limpiado — ¿puedo elegir?+

Ambos. Modo verbatim conserva cada 'um', falso comienzo y palabra repetida para análisis de discurso. Limpiado elimina disfluencias para legibilidad. Usted elige por trabajo; el predeterminado para la plantilla de investigación es verbatim.

06¿Qué pasa con los requisitos del IRB y la confidencialidad del participante?+

Los archivos se procesan en nuestra infraestructura, no se envían a APIs de terceros. Ofrecemos una bandera de auto-eliminar-después-de-N-días por trabajo para protocolos de IRB. Somos SOC 2 Type II y cumplimos con GDPR; el DPA está en la página legal si su IRB lo necesita.

07¿Debería grabar video o solo audio?+

Solo audio está bien — no usamos video para diarización. Si tiene video para identificación de participante, guárdelo localmente para su propia codificación; cargar solo la pista de audio es más rápido y barato.

08¿Cómo se compara el costo con Rev transcripción humana verbatim?+

Un grupo focal de 90 minutos cuesta aproximadamente $2,70 aquí versus aproximadamente $135 en verbatim humano de Rev. El intercambio es precisión: llegamos al 86-94 % dependiendo de la configuración del micrófono, los transcriptores humanos de Rev alcanzan ~99 %. La mayoría de los investigadores nos usan para el primer paso y solo escalan grupos específicos a humano si es necesario.