Transcription d'interviews.Différente source, même résultat.

Mémo téléphone, appel Zoom, micro cravate, ou enregistreur de terrain — déposez l'enregistrement d'interview et obtenez du texte étiqueté par locuteur, horodaté, que vous pouvez citer.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Regardez ce qui en sort

Deux voix entrent. Deux voix sortent, étiquetées.

La plupart des interviews sont deux personnes sur un seul appareil — un téléphone sur la table, un enregistreur entre vous. Nous séparons l'audio d'interview en journaliste et source même à partir d'un seul canal mono, puis horodatons chaque tour pour la citation.

Enregistreur de terrain · WAVREC 2 locuteurs · 38:42
auto-détecté en-US48 kHz mono · 1411 kbps
~90s
Transcription · en continuPrécision 94 %
S1

Pouvez-vous me décrire ce que vous avez vu le matin du dix-huit ?

S2

Je suis arrivé vers six heures. La baie de chargement était déjà ouverte, ce qu'elle ne devrait pas être.

S1

Et vous aviez déjà signalé ce problème — à qui ?

S2

À Diane Okafor à la maintenance, deux fois en mars. J'ai les e-mails.

94 % sur WAV de terrainDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Trois vraies options · comparaison honnête

Rev humain. Otter ou Trint. Ou nous.

Rev envoie votre audio à des transcripteurs humains — lent et cher mais haute fidélité sur audio difficile. Otter et Trint sont IA-first comme nous, accordés pour les journalistes et chercheurs. Voici où chacun s'inscrit.

Option 01

Transcription humaine Rev

De vraies personnes tapent votre interview. Mieux sur l'audio hostile, mais vous attendez et vous payez.

Délai de retour12–24 heures typiques
Précision sur audio clean99 % (affirmé)
Étiquettes de locuteurManuel, inclus
LanguesEN humain · 30+ IA
Coût · par min$1.50 humain · $0.25 IA
ConfidentialitéAudio envoyé à des prestataires
Best forInterviews critiques pour le tribunal ou la publication sur mauvais audio où vous avez besoin d'une oreille humaine et d'un jour pour attendre.
Option 02

Transcription.Solutions

Transcription IA, séparation de locuteurs, prête en minutes. Même moteur pour memo téléphone, Zoom, ou enregistreur de terrain.

Délai de retour~3 min par heure d'audio
Précision sur audio clean94–96 %
Étiquettes de locuteurAuto · renommer dans l'éditeur
Langues99, auto-détectées
Coût · par min$0.03
ConfidentialitéAudio supprimé en 24h · pas d'entraînement
Best forJournalistes, chercheurs, et producteurs faisant plusieurs interviews par semaine qui ont besoin de texte rapide et consultable sans charger sur un prestataire.
Option 03

Otter / Trint

Transcription IA avec un éditeur orienté recherche. Fort sur l'anglais, bloqué sur des plans mensuels.

Délai de retourTemps réel à ~5 min
Précision sur audio clean~90–93 %
Étiquettes de locuteurOui · accordé EN
LanguesOtter EN uniquement · Trint 30+
Coût$17–80/utilisateur/mois (abonnement)
ConfidentialitéStocké en compte par défaut
Best forÉquipes voulant une bibliothèque hébergée de toutes les interviews jamais enregistrées et ne craignant pas une redevance de siège mensuel par utilisateur.

La tarification et les flags de fonctionnalités sont à jour en 2026. Le délai de Rev humain varie selon la profondeur de la file d'attente et la durée audio.

Spécifique aux interviews

Trois choses qui piègent les gens avec les outils de transcription générique.

L'audio d'interview n'est rarement propre. Invertissez ces paramètres et la transcription tient bon sous la citation.

Ce qui tourne mal

  1. 1Chevauchement sur un seul canal. Quand votre source devient emphase et parle par-dessus votre question, la diarisation générique fusionne les deux en un bloc de locuteur.
  2. 2Noms de source et lieux (Okafor, Tigray, Maranello) reviennent phonétiques. Inutile pour la vérification des faits contre une transcription.
  3. 3Moments hors record se retrouvent dans la même transcription que le matériel citable — aucun moyen de marquer une région comme expurgée.

Ce à inverser ici

  1. 1Si votre enregistreur écrit un WAV deux canaux (un micro par piste), déposez ce fichier directement. Nous détectons par canal et sautons la diarisation entièrement.
  2. 2Collez vos notes de préparation — noms de source, organisations, noms de lieu — dans le vocabulaire personnalisé du formulaire de travail. Le reconnaisseur les traite comme des noms propres connus.
  3. 3Après l'arrivée de la transcription, marquez une région comme hors record dans l'éditeur. Elle exporte comme `[REDACTED 14:22–15:08]` en DOCX et TXT, avec l'audio source supprimé en 24 heures quoi qu'il en soit.

Paramètres de travail recommandés pour les interviews

Déposez un fichier d'interview et ceux-ci s'activent par défaut. Remplacez par travail à partir du formulaire.

Diarisation
Par canal si stéréo · acoustique sinon
Modèle de locuteur
Interview · 2–4 locuteurs
Langue
Auto-détecte · code-switch activé
Mots de remplissage
Conservés (mode verbatim)
Résumé
Citations clés + index de sujets
Export
DOCX avec horodatages · TXT brut · JSON

Accuracy · real-world numbers

96 % sur un bon micro cravate. Toujours lisible sur un enregistrement en café.

La précision d'interview est limitée par ce que le micro a vraiment entendu. Un micro rapproché en stéréo sur chaque locuteur est le plafond ; un téléphone sur une table bruyante est le plancher. Les chiffres ci-dessous proviennent de fichiers d'interview de production, pas de benchmarks synthétiques.

96%
Double micro cravate · silence studio

Un micro par locuteur, canaux séparés (Zoom H5/H6, Tascam DR-40). La diarisation est triviale — l'erreur est texte uniquement.

94%
Enregistreur portatif sur table

Condensateur unique entre deux locuteurs, salle calme. La diarisation acoustique sépare les voix fiablement sous 4 pieds.

90%
Mémo vocal téléphone · rapproché

Mémo vocal iPhone ou Pixel sur la table. Les noms et numéros manquent occasionnellement ; le rythme est bon pour la citation.

84%
Enregistrement de terrain · café ou rue

Machines à espresso, traffic, tierces voix à proximité. Pire cas dans nos données — utilisable pour la navigation, vérifier les citations contre l'audio.

Questions courantes

8 choses que les gens demandent sur la transcription d'interviews.

01Puis-je utiliser ces transcriptions dans un article publié sans vérifier contre l'audio ?+
Pour les citations directes — non, vérifiez toujours contre l'audio. Les transcriptions IA à 94 % de précision manquent quand même un mot sur 17 en moyenne, et le mauvais mot dans une citation est une correction. La transcription est pour la navigation et la rédaction ; l'audio est la source de vérité.
02Mon enregistreur a sauvegardé un WAV stéréo avec un micro par locuteur. Que fais-je ?+
Déposez ce fichier directement — ne convertissez pas en mono d'abord. Nous détectons les deux canaux et acheminons chacun vers sa propre piste de diarisation, ce qui est le chemin de précision le plus haut que nous avons. Attendez-vous à 96 %+ sur une salle calme.
03Et les interviews enregistrées sur un appel téléphonique ?+
L'audio téléphonique est bande étroite 8 kHz, ce qui plafonne la précision autour de 88 % même sur une ligne propre. Nous séparons quand même les deux parties en utilisant la séparation de canaux si votre application d'enregistrement les a capturées séparément (la plupart le font). Les appels VoIP sur WhatsApp ou Signal sonnent un peu mieux que le PSTN.
04Puis-je expurger les sections hors record avant de partager la transcription ?+
Oui. Dans l'éditeur, sélectionnez la plage d'horodatage et marquez-la `[REDACTED]`. L'export remplace le texte par un marqueur de redaction mais garde les horodatages pour que le document suive toujours l'audio.
05Entraînez-vous des modèles sur mes enregistrements d'interview ?+
Non. L'audio source est supprimé de nos infrastructures dans les 24 heures suivant la finition, et nous n'utilisons pas les enregistrements clients pour l'entraînement de modèles quel que soit le plan. Le texte de transcription reste dans votre compte jusqu'à ce que vous le supprimiez.
06Trois ou quatre personnes sur une interview de panel — la diarisation fonctionne-t-elle toujours ?+
Jusqu'à environ six voix distinctes, oui, mais la précision sur l'assignation de locuteur baisse avec chaque personne ajoutée et se détériore quand deux locuteurs sonnent similaires. Planifiez une passe de renommage de 2–3 minutes sur les puces de locuteur après l'arrivée de la transcription.
07Pouvez-vous transcrire des interviews dans d'autres langues que l'anglais ?+
99 langues, auto-détectées. Le code-switching (source anglaise glissant en espagnol en milieu de phrase) est géré dans 12 paires de langues. La précision varie selon la langue — les langues européennes correspondent à l'anglais ; les langues africaines et centrasiates peu dotées en ressources donnent 5–10 points plus bas.
08J'enregistre sur un appel Zoom — devrais-je utiliser votre page Zoom à la place ?+
Même moteur, même résultat. La page Zoom couvre les spécificités d'enregistrement en cloud (audio par participant, dégradation de numérotation). Si vous menez une seule interview à la fois sur Zoom, soit chemin fonctionne — déposez le MP4 ici pour les mêmes étiquettes de locuteur.

Déposez votre enregistrement d'interview. Regardez ce qui en sort.

30 minutes gratuites chaque mois. Pas de carte. Étiquettes de locuteur, 99 langues, tous les exports inclus.

Commencer gratuitement