Transcripció d'entrevista.Diferent enregistrament, mateix resultat.

Nota de veu, trucada Zoom, micròfon de solapa o gravador portàtil — deixa la gravació d'entrevista i obtén text amb etiquetes de locutor, marques de temps i que pots citar.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Mira què en surt

Dues veus dins. Dues veus fora, etiquetades.

La majoria d'entrevistes són dues persones en un dispositiu — un telèfon sobre la taula, un gravador entre vosaltres. Separem l'àudio d'entrevista en locutor i font fins i tot d'un sol canal mono, llavors establim cada torn per a citació.

Gravador de camp · WAVREC 2 locutors · 38:42
detecció automàtica en-US48 kHz mono · 1411 kbps
~90s
Transcripció · streaming94% de precisió
S1

Pots portar-me per lo que vas veure el matí del divuit?

S2

Vaig arribar al voltant de les sis. La porta de càrrega ja estava oberta, quan no hauria de ser-ho.

S1

I havies reportat el problema de la porta abans — a qui?

S2

A Diane Okafor en instal·lacions, dues vegades al març. Tinc els correus.

94% en camp WAVDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tres opcions reals · comparació honesta

Rev human. Otter o Trint. O nosaltres.

Rev envia el teu àudio a transcriptors humans — lent i car però alta fidelitat en àudio difícil. Otter i Trint són AI-first com nosaltres, afinats per a periodistes i investigadors. Aquí és on encaixa cada un.

Option 01

Transcripció humana Rev

Gent real transcrivint la teva entrevista. Millor en àudio difícil, però esperes i pagues.

Temps de resposta12–24 hores típic
Precisió en àudio net99% (reclamat)
Etiquetes de locutorManual, inclòs
IdiomesEN humà · 30+ AI
Cost · per min$1.50 humà · $0.25 AI
PrivacitatÀudio enviat a contractistes
Best forEntrevistes judicials o crítiques per a publicació en àudio dolent on necessites una orella humana i tens un dia per esperar.
Option 02

Transcription.Solutions

Transcript AI, separació de locutor, llest en minuts. Mateix motor per a nota de veu, Zoom o gravador de camp.

Temps de resposta~3 min per hora d'àudio
Precisió en àudio net94–96%
Etiquetes de locutorAutomàtica · renomena a l'editor
Idiomes99, detecció automàtica
Cost · per min$0.03
PrivacitatÀudio suprimit en 24h · sense entrenament
Best forPeriodistes, investigadors i productors fent múltiples entrevistes a la setmana que necessiten text ràpid i citable sense pujar a un contractista.
Option 03

Otter / Trint

Transcripció AI amb editor orientat a la investigació. Fort en anglès, tancat a plans mensuals.

Temps de respostaTemps real a ~5 min
Precisió en àudio net~90–93%
Etiquetes de locutorSí · afinada EN
IdiomesOtter EN-only · Trint 30+
Cost$17–80/usuari/mes (subscripció)
PrivacitatEmmagatzemat al compte per defecte
Best forEquips que volen una biblioteca allotjada de cada entrevista mai enregistrada i no els importa una taxa de lloc mensal per usuari.

Preus i marques de característica exactes a partir de 2026. El temps de resposta de Rev humà varia per profunditat de cua i durada d'àudio.

Específic per a entrevistes

Tres coses que mosseguen la gent en eines de transcripció genèriques.

L'àudio d'entrevista rarament és net. Canvia aquests paràmetres i la transcripció es manté sota citació.

Què va malament

  1. 1Diàleg transversal en un sol canal. Quan la teva font es torna èmfasis i parla sobre la teva pregunta, la diarització genèrica fusiona ambdós en un bloc de locutor.
  2. 2Noms i llocs de font (Okafor, Tigray, Maranello) tornen fonètics. Inútil per verificar fets contra una transcripció.
  3. 3Moments fora del registre acaben en la mateixa transcripció que material citable — no hi ha manera de marcar una regió com redactada.

Què canviar aquí

  1. 1Si el teu gravador de camp escriu un WAV de dos canals (un micròfon per pista), penja aquest fitxer directament. Detectem per canal i s'omet la diarització completament.
  2. 2Enganxa les teves notes de preparació — noms de font, organitzacions, noms de lloc — a Vocabulari personalitzat al formulari de feina. El reconeixedor els tracta com noms propis coneguts.
  3. 3Després que arriba la transcripció, marca una regió com fora del registre a l'editor. S'exporta com `[REDACTED 14:22–15:08]` en DOCX i TXT, amb l'àudio font suprimit en 24 hores independentment.

Configuració de feina recomanada per a entrevistes

Deixa un fitxer d'entrevista i aquests giren per defecte. Anula per feina des del formulari.

Diarització
Per canal si estèreo · acústica si no
Model de locutor
Entrevista · 2–4 locutors
Idioma
Detecció automàtica · commutació de codi activada
Paraules de farciment
Mantingudes (mode verbatim)
Resum
Cites clau + índex de tema
Exportació
DOCX amb marques de temps · TXT pla · JSON

Accuracy · real-world numbers

96% en una bona solapa. Encara llegible en una gravació de cafeteria.

La precisió de l'entrevista està limitada per lo que el micròfon va escoltar realment. Estèreo pròxim a cada locutor és el sostre; un telèfon sobre una taula sorollosa és el sòl. Els números següents provenen de fitxers d'entrevista de producció, no de punts de referència sintètics.

96%
Doble solapa · studio silenciós

Un micròfon per locutor, canals separats (Zoom H5/H6, Tascam DR-40). La diarització és trivial — l'error és només de text.

94%
Gravador portàtil sobre taula

Condensador únic entre dos locutors, sala silenciosa. La diarització acústica separa veus de manera fiable menys de 4 ft.

90%
Nota de veu de telèfon · pròxima

Nota de veu d'iPhone o Pixel sobre la taula. Els noms i números ocasionalment es perden; la cadència és bona per a citar.

84%
Gravació de camp · cafeteria o carrer

Màquines d'espresso, tràfic, terceres veus a prop. Pitjor cas en les nostres dades — utilitzable per navegació, verifica cites contra àudio.

Preguntes comunes

8 coses que la gent pregunta sobre la transcripció d'entrevista.

01Puc utilitzar aquestes transcripcions en un article publicat sense verificar contra l'àudio?+
Per a cites directes — no, sempre verifica contra l'àudio. Les transcripcions d'IA amb precisió del 94% encara llegeixen malament una paraula de cada 17 en mitjana, i la paraula equivocada en una cita és una correcció. La transcripció és per navegació i redacció; l'àudio és la font de veritat.
02El meu gravador va guardar un WAV estèreo amb un micròfon per locutor. Què faig?+
Penja aquest fitxer directament — no el converteixes a mono primer. Detectem els dos canals i encamintem cada un a la seva pista de diarització, que és el camí d'accés de més alta precisió que tenim. Espera 96%+ en una sala silenciosa.
03Què passa amb les entrevistes gravades per una trucada telefònica?+
L'àudio telefònic és de banda estreta de 8 kHz, que limita la precisió al voltant del 88% fins i tot en una línia neta. Encara dividim els dos partits utilitzant separació de canals si la teva aplicació de gravador els va captar separadament (la majoria ho fa). Les trucades VoIP sobre WhatsApp o Signal sonen una mica millor que PSTN.
04Puc redactar seccions fora del registre abans de compartir la transcripció?+
Sí. A l'editor, selecciona l'interval de marca de temps i marca'l `[REDACTED]`. L'exportació reemplaça el text amb un marcador de redacció però manté les marques de temps perquè el document segueixi rastrejant l'àudio.
05Entreneu models en les meves gravacions d'entrevista?+
No. L'àudio font es suprimeix de la nostra infraestructura dins de 24 hores de completació, i no utilitzem gravacions de clients per entrenar models sota cap pla. El text de la transcripció resta al teu compte fins que la suprimeixis.
06Tres o quatre persones en una entrevista de panell — la diarització encara funciona?+
Fins a uns sis vocals distincts, sí, però la precisió de l'assignació de locutor disminueix amb cada persona afegida i empitjora quan dos locutors sonen bé. Planifica un pas de renominació de 2–3 minuts en els xips de locutor després que arribi la transcripció.
07Pots transcriure entrevistes en altres idiomes que no sigui anglès?+
99 idiomes, detecció automàtica. La commutació de codi (font anglesa que es filtra a l'espanyol a mig quadre) es gestiona en 12 parells d'idiomes. La precisió varia segons l'idioma — els idiomes europeus coincideixen amb l'anglès; els idiomes africans i centreàsiaticos de baixos recursos funcionen 5–10 punts menors.
08Gravo en una trucada Zoom — hauria d'utilitzar la vostra pàgina Zoom en comptes?+
Mateix motor, mateix resultat. La pàgina Zoom cobreix especificacions de gravació en núvol (àudio per participant, degradació de marcació). Si estàs realitzant una entrevista a la vegada sobre Zoom, qualsevol camí funciona — deixa el MP4 aquí i les etiquetes de locutor surten igual.

Deixa la teva gravació d'entrevista. Mira què en surt.

30 minuts gratuïts cada mes. Cap targeta. Etiquetes de locutor, 99 idiomes, totes les exportacions incloses.

Comença gratis