Transcrição de entrevistas.Gravação diferente, mesmo resultado.

Nota de voz, chamada do Zoom, sistema de microfone de lapela ou gravador de campo portátil — solte a gravação de entrevista e obtenha texto com rótulos de palestrantes e marcas de tempo que você pode citar.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Veja o que sai

Duas vozes entram. Duas vozes saem, rotuladas.

A maioria das entrevistas tem duas pessoas em um dispositivo — um telefone na mesa, um gravador entre vocês. Separamos o áudio de entrevista em repórter e fonte, mesmo de um único canal mono, depois marcamos cada turno para citação.

Gravador de campo · WAVREC 2 palestrantes · 38:42
en-US auto-detectado48 kHz mono · 1411 kbps
~90s
Transcrição · streaming94% de precisão
S1

Pode me contar o que viu na manhã do dia dezoito?

S2

Cheguei por volta das seis. A porta do carregamento já estava aberta, o que não deveria estar.

S1

E você já havia relatado o problema da porta antes — para quem?

S2

Para Diane Okafor em facilities, duas vezes em março. Tenho os emails.

94% em WAV de campoDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Três opções reais · comparação honesta

Rev humano. Otter ou Trint. Ou nós.

Rev envia seu áudio para transcritores humanos — lento e caro, mas alta fidelidade em áudio difícil. Otter e Trint são baseados em IA como nós, ajustados para jornalistas e pesquisadores. Veja onde cada um se encaixa.

Option 01

Transcrição humana Rev

Pessoas reais digitando sua entrevista. Melhor em áudio hostil, mas você espera e paga.

Tempo de resposta12–24 horas típico
Precisão em áudio limpo99% (alegado)
Rótulos de palestrantesManual, incluído
IdiomasEN humano · 30+ IA
Custo · por min$1.50 humano · $0.25 IA
PrivacidadeÁudio enviado para contratadores
Best forEntrevistas vinculadas ao tribunal ou críticas para publicação em áudio ruim, quando você precisa de um ouvido humano e tem um dia para esperar.
Option 02

Transcription.Solutions

Transcrição de IA, separação de palestrantes, pronta em minutos. Mesmo mecanismo para nota de voz, Zoom ou gravador de campo.

Tempo de resposta~3 min por hora de áudio
Precisão em áudio limpo94–96%
Rótulos de palestrantesAutomático · renomear no editor
Idiomas99, auto-detectado
Custo · por min$0.03
PrivacidadeÁudio excluído em 24h · sem treinamento
Best forJornalistas, pesquisadores e produtores que fazem múltiplas entrevistas por semana e precisam de texto rápido e citável sem fazer upload para um contratador.
Option 03

Otter / Trint

Transcrição de IA com um editor orientado para pesquisa. Forte em inglês, limitado a planos mensais.

Tempo de respostaTempo real para ~5 min
Precisão em áudio limpo~90–93%
Rótulos de palestrantesSim · ajustado para EN
IdiomasOtter apenas EN · Trint 30+
Custo$17–80/usuário/mês (assinatura)
PrivacidadeArmazenado em conta por padrão
Best forEquipes que desejam uma biblioteca hospedada de cada entrevista já gravada e não se importam com uma taxa de assento mensal por usuário.

Preços e sinalizadores de recursos precisos em 2026. O tempo de resposta do Rev humano varia de acordo com a profundidade da fila e o comprimento do áudio.

Específico para entrevistas

Três coisas que prejudicam as pessoas em ferramentas genéricas de transcrição.

O áudio de entrevista raramente é limpo. Mude essas configurações e a transcrição se mantém sob citação.

O que dá errado

  1. 1Sobreposição em um único canal. Quando sua fonte fica enfática e fala sobre sua pergunta, a diarização genérica mescla ambas em um bloco de palestrante.
  2. 2Nomes de fonte e locais (Okafor, Tigray, Maranello) voltam fonéticos. Inútil para verificação de fatos contra uma transcrição.
  3. 3Momentos fora do ar acabam na mesma transcrição que material citável — nenhuma forma de marcar uma região como redacted.

O que mudar aqui

  1. 1Se seu gravador de campo escreve um WAV de dois canais (um microfone por trilha), envie esse arquivo diretamente. Detectamos por canal e pulamos a diarização inteiramente.
  2. 2Cole suas notas de preparação — nomes de fonte, organizações, nomes de lugares — em Vocabulário personalizado no formulário de trabalho. O reconhecedor os trata como substantivos próprios conhecidos.
  3. 3Depois que a transcrição chega, marque uma região como fora do ar no editor. Exporta como `[REDACTED 14:22–15:08]` em DOCX e TXT, com o áudio de origem excluído em 24 horas de qualquer forma.

Configurações de trabalho recomendadas para entrevistas

Solte um arquivo de entrevista e esses se ativam por padrão. Substitua por trabalho do formulário.

Diarização
Por canal se estéreo · acústica caso contrário
Modelo de palestrante
Entrevista · 2–4 palestrantes
Idioma
Auto-detecção · code-switch ligado
Palavras de preenchimento
Mantidas (modo verbatim)
Resumo
Citações-chave + índice de tópicos
Exportar
DOCX com marcas de tempo · TXT simples · JSON

Accuracy · real-world numbers

96% em um bom microfone de lapela. Ainda legível em uma gravação de café.

A precisão da entrevista é limitada pelo que o microfone realmente capturou. Microfone estéreo próximo em cada palestrante é o teto; um telefone sentado em uma mesa barulhenta é o chão. Os números abaixo vêm de arquivos de entrevista de produção, não benchmarks sintéticos.

96%
Microfone de lapela duplo · estúdio silencioso

Um microfone por palestrante, canais separados (Zoom H5/H6, Tascam DR-40). A diarização é trivial — o erro é apenas no texto.

94%
Gravador portátil na mesa

Condensador único entre dois palestrantes, sala silenciosa. Diarização acústica separa vozes de forma confiável até 4 pés.

90%
Nota de voz por telefone · próxima

Nota de voz do iPhone ou Pixel na mesa. Nomes e números ocasionalmente faltam; cadência é boa para citar.

84%
Gravação de campo · café ou rua

Máquinas de espresso, trânsito, terceiras vozes próximas. Pior caso em nossos dados — utilizável para navegação, verifique citações contra áudio.

Perguntas comuns

8 coisas que as pessoas perguntam sobre transcrição de entrevistas.

01Posso usar essas transcrições em um artigo publicado sem verificar contra o áudio?+
Para citações diretas — não, sempre verifique contra o áudio. Transcrições de IA com 94% de precisão ainda leem mal uma palavra em 17 em média, e a palavra errada em uma citação é uma correção. A transcrição é para navegação e redação; o áudio é a fonte da verdade.
02Meu gravador salvou um WAV estéreo com um microfone por palestrante. O que faço?+
Envie esse arquivo diretamente — não converta para mono primeiro. Detectamos os dois canais e encaminhamos cada um para sua própria trilha de diarização, que é o caminho de maior precisão que temos. Espere 96%+ em uma sala silenciosa.
03E quanto a entrevistas gravadas em uma chamada telefônica?+
Áudio de telefone é 8 kHz banda estreita, que limita precisão para cerca de 88% mesmo em uma linha limpa. Ainda separamos os dois lados usando separação de canal se seu aplicativo gravador os capturou separadamente (a maioria o faz). Chamadas VoIP sobre WhatsApp ou Signal soam um pouco melhor que PSTN.
04Posso redacted seções fora do ar antes de compartilhar a transcrição?+
Sim. No editor, selecione o intervalo de marcas de tempo e marque como `[REDACTED]`. A exportação substitui o texto por um marcador de redação, mas mantém as marcas de tempo para que o documento ainda rastreie o áudio.
05Vocês treinam modelos em minhas gravações de entrevista?+
Não. O áudio de origem é excluído de nossa infraestrutura dentro de 24 horas da conclusão, e não usamos gravações de clientes para treinamento de modelo em nenhum plano. O texto da transcrição fica em sua conta até você deletá-lo.
06Três ou quatro pessoas em uma entrevista em painel — a diarização ainda funciona?+
Até cerca de seis vozes distintas, sim, mas precisão na atribuição de palestrante cai com cada pessoa adicionada e piora quando dois palestrantes soam semelhantes. Planeje uma passagem de renomeação de 2–3 minutos nos chips de palestrante depois que a transcrição chega.
07Você pode transcrever entrevistas em idiomas diferentes do inglês?+
99 idiomas, auto-detectados. Code-switching (origem em inglês deslizando para espanhol no meio da frase) é tratado em 12 pares de idiomas. A precisão varia por idioma — idiomas europeus correspondem ao inglês; os idiomas africanos e da Ásia Central de baixo recurso executam 5–10 pontos mais baixos.
08Eu gravo em uma chamada do Zoom — devo usar sua página do Zoom em vez disso?+
Mesmo mecanismo, mesmo resultado. A página do Zoom cobre especificidades de gravação em nuvem (áudio por participante, degradação de discagem). Se você está conduzindo uma entrevista de cada vez sobre o Zoom, ambos os caminhos funcionam — solte o MP4 aqui e os rótulos de palestrantes saem da mesma forma.

Solte sua gravação de entrevista. Veja o que sai.

30 minutos grátis a cada mês. Sem cartão. Rótulos de palestrantes, 99 idiomas, todas as exportações incluídas.

Iniciar grátis