Transcrição de entrevistas.Métodos diferentes, mesmo resultado.

Anotação de voz, chamada do Zoom, microfone de lapela ou gravador portátil — envie a gravação de entrevista e obtenha texto com identificação de oradores e marcas de tempo para citação.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Veja o resultado

Duas vozes entram. Duas vozes saem, identificadas.

A maioria das entrevistas tem duas pessoas em um dispositivo — um telefone sobre a mesa, um gravador entre vocês. Separamos o áudio da entrevista em repórter e fonte mesmo de um único canal mono, depois marcamos cada turno com tempo para citação.

Gravador portátil · WAVREC 2 oradores · 38:42
auto-detectado en-US48 kHz mono · 1411 kbps
~90s
Transcrição · streaming94% de precisão
S1

Você pode me descrever o que viu na manhã do dezoito?

S2

Cheguei por volta das seis. A porta da doca de carregamento já estava aberta, o que não deveria estar.

S1

E você havia reportado o problema da porta antes — para quem?

S2

Para Diane Okafor em facilities, duas vezes em março. Tenho os e-mails.

94% em WAV portátilDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Três opções reais · comparação honesta

Rev human. Otter ou Trint. Ou Transcription.Solutions.

Rev envia seu áudio para transcritores humanos — lento e caro mas alta fidelidade em áudio difícil. Otter e Trint são AI-first como nós, ajustados para jornalistas e pesquisadores. Aqui está onde cada um se encaixa.

Option 01

Rev human transcription

Pessoas reais digitando sua entrevista. Melhor em áudio difícil, mas você espera e paga.

Tempo de retorno12–24 horas típico
Precisão em áudio limpo99% (conforme afirmado)
Identificação de oradoresManual, incluído
IdiomasEN human · 30+ AI
Custo · por minuto$1.50 human · $0.25 AI
PrivacidadeÁudio enviado para contratados
Best forEntrevistas destinadas a tribunal ou críticas para publicação em áudio ruim onde você precisa de um ouvido humano e tem um dia para esperar.
Option 02

Transcription.Solutions

Transcrição AI, separação de oradores, pronta em minutos. Mesmo engine para anotação de voz, Zoom ou gravador portátil.

Tempo de retorno~3 min por hora de áudio
Precisão em áudio limpo94–96%
Identificação de oradoresAutomática · renomear no editor
Idiomas99, auto-detectados
Custo · por minuto$0.03
PrivacidadeÁudio deletado em 24h · sem treinamento
Best forJornalistas, pesquisadores e produtores fazendo múltiplas entrevistas por semana que precisam de texto rápido e citável sem upload para contratados.
Option 03

Otter / Trint

Transcrição AI com editor orientado para pesquisa. Forte em inglês, preso a planos mensais.

Tempo de retornoTempo real a ~5 min
Precisão em áudio limpo~90–93%
Identificação de oradoresSim · EN-ajustado
IdiomasOtter EN-only · Trint 30+
Custo$17–80/usuário/mês (assinatura)
PrivacidadeArmazenado na conta por padrão
Best forEquipes que querem uma biblioteca hospedada de cada entrevista já gravada e não se importam com taxa de assento mensal por usuário.

Preços e recursos precisos em 2026. Tempo de retorno do Rev human varia com profundidade de fila e duração de áudio.

Específico para entrevistas

Três coisas que pegam as pessoas em ferramentas de transcrição genéricas.

Áudio de entrevista raramente é limpo. Alterne essas configurações e a transcrição se mantém sob citação.

O que dá errado

  1. 1Sobreposição em um único canal. Quando sua fonte fica enfática e fala sobre sua pergunta, diarização genérica mescla ambos em um bloco de orador.
  2. 2Nomes e lugares de origem (Okafor, Tigray, Maranello) voltam fonéticos. Inútil para fact-checking contra uma transcrição.
  3. 3Momentos off-the-record acabam na mesma transcrição que material citável — sem forma de marcar uma região como redacted.

O que alternar aqui

  1. 1Se seu gravador portátil escrever um WAV de dois canais (um microfone por trilha), envie esse arquivo diretamente. Detectamos por canal e pulamos diarização inteiramente.
  2. 2Cole suas notas de preparação — nomes de origem, organizações, nomes de lugares — em Vocabulário customizado no formulário de job. O recognizer os trata como nomes próprios conhecidos.
  3. 3Após a transcrição chegar, marque uma região como off-record no editor. Ela exporta como `[REDACTED 14:22–15:08]` em DOCX e TXT, com o áudio de origem deletado em 24 horas independentemente.

Configurações de job recomendadas para entrevistas

Envie um arquivo de entrevista e essas opções ligam por padrão. Substitua por job no formulário.

Diarização
Por canal se estéreo · acústica senão
Modelo de orador
Entrevista · 2–4 oradores
Idioma
Auto-detect · code-switch ativo
Palavras de preenchimento
Mantidas (modo verbatim)
Resumo
Citações-chave + índice de tópico
Exportação
DOCX com marcas de tempo · TXT simples · JSON

Accuracy · real-world numbers

96% em um bom microfone de lapela. Ainda legível em uma gravação de café.

A precisão de entrevista é limitada pelo que o microfone realmente captou. Microfone close-mic estéreo em cada orador é o teto; um telefone sobre uma mesa barulhenta é o piso. Os números abaixo vêm de arquivos de entrevista em produção, não benchmarks sintéticos.

96%
Lapela dupla · silêncio de estúdio

Um microfone por orador, canais separados (Zoom H5/H6, Tascam DR-40). Diarização é trivial — o erro é apenas em texto.

94%
Gravador portátil sobre a mesa

Microfone condensador único entre dois oradores, sala silenciosa. Diarização acústica separa vozes de forma confiável em menos de 4 pés.

90%
Anotação de voz do telefone · próximo

Anotação de voz do iPhone ou Pixel sobre a mesa. Nomes e números ocasionalmente faltam; cadência é boa para citação.

84%
Gravação de campo · café ou rua

Máquinas de espresso, trânsito, terceiras vozes próximas. Pior caso em nossos dados — utilizável para navegação, verifique citações contra áudio.

Perguntas comuns

8 coisas que as pessoas perguntam sobre transcrição de entrevistas.

01Posso usar essas transcrições em um artigo publicado sem verificar contra o áudio?+
Para citações diretas — não, sempre verifique contra o áudio. Transcrições AI com 94% de precisão ainda interpretam mal uma palavra em 17 em média, e a palavra errada em uma citação é uma correção. A transcrição é para navegação e rascunho; o áudio é a fonte da verdade.
02Meu gravador salvou um WAV estéreo com um microfone por orador. O que faço?+
Envie esse arquivo diretamente — não converta para mono primeiro. Detectamos os dois canais e roteamos cada um para sua própria trilha de diarização, que é o caminho de maior precisão que temos. Espere 96%+ em uma sala silenciosa.
03E entrevistas gravadas em uma chamada telefônica?+
Áudio de telefone é 8 kHz narrowband, o que limita precisão a cerca de 88% mesmo em uma linha limpa. Ainda separamos as duas partes usando separação de canal se seu app de gravador as capturou separadamente (a maioria faz). Chamadas VoIP sobre WhatsApp ou Signal soam um pouco melhor que PSTN.
04Posso redigir seções off-the-record antes de compartilhar a transcrição?+
Sim. No editor, selecione o intervalo de tempo e marque como `[REDACTED]`. A exportação substitui o texto por um marcador de redação mas mantém as marcas de tempo para o documento ainda rastrear o áudio.
05Vocês treinam modelos em minhas gravações de entrevista?+
Não. O áudio de origem é deletado de nossa infraestrutura em 24 horas após conclusão, e não usamos gravações de clientes para treinamento de modelos em nenhum plano. O texto da transcrição permanece em sua conta até você deletá-lo.
06Três ou quatro pessoas em uma entrevista de painel — diarização ainda funciona?+
Até cerca de seis vozes distintas, sim, mas precisão em atribuição de orador cai com cada pessoa adicionada e piora quando dois oradores soam similares. Planeje uma passagem de renomeação de 2–3 minutos nos chips de orador após a transcrição chegar.
07Vocês conseguem transcrever entrevistas em idiomas além do inglês?+
99 idiomas, auto-detectados. Code-switching (fonte em inglês escorregando para espanhol no meio da frase) é manipulado em 12 pares de idiomas. Precisão varia por idioma — idiomas europeus correspondem a inglês; idiomas africanos e centro-asiáticos de baixo recurso rodam 5–10 pontos abaixo.
08Gravo em uma chamada do Zoom — devo usar sua página do Zoom em vez disso?+
Mesmo engine, mesmo resultado. A página do Zoom cobre especificidades de cloud-recording (áudio por participante, degradação de dial-in). Se você está conduzindo uma entrevista por vez sobre Zoom, ambos caminhos funcionam — envie o MP4 aqui e os rótulos de orador saem igual.

Envie sua gravação de entrevista. Veja o resultado.

30 minutos grátis todo mês. Sem cartão. Identificação de oradores, 99 idiomas, todas as exportações incluídas.

Começar grátis