Transcription d'interviews — transcrivez une interview avec étiquettes de locuteur et horodatages

Transcription d'interviews.Différente source, même résultat.

Mémo téléphone, appel Zoom, micro cravate, ou enregistreur de terrain — déposez l'enregistrement d'interview et obtenez du texte étiqueté par locuteur, horodaté, que vous pouvez citer.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

Deux voix entrent. Deux voix sortent, étiquetées.

La plupart des interviews sont deux personnes sur un seul appareil — un téléphone sur la table, un enregistreur entre vous. Nous séparons l'audio d'interview en journaliste et source même à partir d'un seul canal mono, puis horodatons chaque tour pour la citation.

Enregistreur de terrain · WAVREC 2 locuteurs · 38:42

auto-détecté en-US48 kHz mono · 1411 kbps

~90s

Transcription · en continuPrécision 94 %

Pouvez-vous me décrire ce que vous avez vu le matin du dix-huit ?

Je suis arrivé vers six heures. La baie de chargement était déjà ouverte, ce qu'elle ne devrait pas être.

Et vous aviez déjà signalé ce problème — à qui ?

À Diane Okafor à la maintenance, deux fois en mars. J'ai les e-mails.

94 % sur WAV de terrainDOCX · TXT · SRT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2Exports

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Action items

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Option 01

Transcription humaine Rev

De vraies personnes tapent votre interview. Mieux sur l'audio hostile, mais vous attendez et vous payez.

Délai de retour12–24 heures typiques

Précision sur audio clean99 % (affirmé)

Étiquettes de locuteurManuel, inclus

LanguesEN humain · 30+ IA

Coût · par min$1.50 humain · $0.25 IA

ConfidentialitéAudio envoyé à des prestataires

Best forInterviews critiques pour le tribunal ou la publication sur mauvais audio où vous avez besoin d'une oreille humaine et d'un jour pour attendre.

Option 02

Transcription.Solutions

Transcription IA, séparation de locuteurs, prête en minutes. Même moteur pour memo téléphone, Zoom, ou enregistreur de terrain.

Délai de retour~3 min par heure d'audio

Précision sur audio clean94–96 %

Étiquettes de locuteurAuto · renommer dans l'éditeur

Langues99, auto-détectées

Coût · par min$0.03

ConfidentialitéAudio supprimé en 24h · pas d'entraînement

Best forJournalistes, chercheurs, et producteurs faisant plusieurs interviews par semaine qui ont besoin de texte rapide et consultable sans charger sur un prestataire.

Option 03

Otter / Trint

Transcription IA avec un éditeur orienté recherche. Fort sur l'anglais, bloqué sur des plans mensuels.

Délai de retourTemps réel à ~5 min

Précision sur audio clean~90–93 %

Étiquettes de locuteurOui · accordé EN

LanguesOtter EN uniquement · Trint 30+

Coût$17–80/utilisateur/mois (abonnement)

ConfidentialitéStocké en compte par défaut

Best forÉquipes voulant une bibliothèque hébergée de toutes les interviews jamais enregistrées et ne craignant pas une redevance de siège mensuel par utilisateur.

La tarification et les flags de fonctionnalités sont à jour en 2026. Le délai de Rev humain varie selon la profondeur de la file d'attente et la durée audio.

96 % sur un bon micro cravate. Toujours lisible sur un enregistrement en café.

La précision d'interview est limitée par ce que le micro a vraiment entendu. Un micro rapproché en stéréo sur chaque locuteur est le plafond ; un téléphone sur une table bruyante est le plancher. Les chiffres ci-dessous proviennent de fichiers d'interview de production, pas de benchmarks synthétiques.

8 choses que les gens demandent sur la transcription d'interviews.

01Puis-je utiliser ces transcriptions dans un article publié sans vérifier contre l'audio ?+

Pour les citations directes — non, vérifiez toujours contre l'audio. Les transcriptions IA à 94 % de précision manquent quand même un mot sur 17 en moyenne, et le mauvais mot dans une citation est une correction. La transcription est pour la navigation et la rédaction ; l'audio est la source de vérité.

02Mon enregistreur a sauvegardé un WAV stéréo avec un micro par locuteur. Que fais-je ?+

Déposez ce fichier directement — ne convertissez pas en mono d'abord. Nous détectons les deux canaux et acheminons chacun vers sa propre piste de diarisation, ce qui est le chemin de précision le plus haut que nous avons. Attendez-vous à 96 %+ sur une salle calme.

03Et les interviews enregistrées sur un appel téléphonique ?+

L'audio téléphonique est bande étroite 8 kHz, ce qui plafonne la précision autour de 88 % même sur une ligne propre. Nous séparons quand même les deux parties en utilisant la séparation de canaux si votre application d'enregistrement les a capturées séparément (la plupart le font). Les appels VoIP sur WhatsApp ou Signal sonnent un peu mieux que le PSTN.

04Puis-je expurger les sections hors record avant de partager la transcription ?+

Oui. Dans l'éditeur, sélectionnez la plage d'horodatage et marquez-la `[REDACTED]`. L'export remplace le texte par un marqueur de redaction mais garde les horodatages pour que le document suive toujours l'audio.

05Entraînez-vous des modèles sur mes enregistrements d'interview ?+

Non. L'audio source est supprimé de nos infrastructures dans les 24 heures suivant la finition, et nous n'utilisons pas les enregistrements clients pour l'entraînement de modèles quel que soit le plan. Le texte de transcription reste dans votre compte jusqu'à ce que vous le supprimiez.

06Trois ou quatre personnes sur une interview de panel — la diarisation fonctionne-t-elle toujours ?+

Jusqu'à environ six voix distinctes, oui, mais la précision sur l'assignation de locuteur baisse avec chaque personne ajoutée et se détériore quand deux locuteurs sonnent similaires. Planifiez une passe de renommage de 2–3 minutes sur les puces de locuteur après l'arrivée de la transcription.

07Pouvez-vous transcrire des interviews dans d'autres langues que l'anglais ?+

99 langues, auto-détectées. Le code-switching (source anglaise glissant en espagnol en milieu de phrase) est géré dans 12 paires de langues. La précision varie selon la langue — les langues européennes correspondent à l'anglais ; les langues africaines et centrasiates peu dotées en ressources donnent 5–10 points plus bas.

08J'enregistre sur un appel Zoom — devrais-je utiliser votre page Zoom à la place ?+

Même moteur, même résultat. La page Zoom couvre les spécificités d'enregistrement en cloud (audio par participant, dégradation de numérotation). Si vous menez une seule interview à la fois sur Zoom, soit chemin fonctionne — déposez le MP4 ici pour les mêmes étiquettes de locuteur.

Transcription d'interviews.Différente source, même résultat.

Drop a file, or pick one

Paste a link, we’ll fetch the audio

Record straight from your browser

Deux voix entrent. Deux voix sortent, étiquetées.

This is what loads when the job finishes.

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Rev humain. Otter ou Trint. Ou nous.

Transcription humaine Rev

Transcription.Solutions

Otter / Trint

Trois choses qui piègent les gens avec les outils de transcription générique.

Ce qui tourne mal

Ce à inverser ici

Paramètres de travail recommandés pour les interviews

96 % sur un bon micro cravate. Toujours lisible sur un enregistrement en café.

8 choses que les gens demandent sur la transcription d'interviews.

Déposez votre enregistrement d'interview. Regardez ce qui en sort.