How accurate is the transcription?

On clear audio with one or two speakers, accuracy reaches 95%+ in most major languages. Quality drops with background noise, heavy accents, or overlapping speech.

What languages are supported?

100+ languages with automatic detection. You can also force a specific language if auto-detect picks the wrong one. The user interface is English-only.

How long do you keep my files?

Source media (the audio or video you uploaded) is deleted from our infrastructure within 24 hours after transcription completes. The transcript and summary stay in your account until you delete them, or 30 days after you delete your account.

Do you train models on my recordings?

No. The upstream speech-to-text provider has training opt-out by default for paid endpoints, which is what we use. We add nothing on top: no own models trained on your transcripts, no shadow analytics.

What happens if a job fails?

Your minutes are not deducted. Most failures (private URL, file too long, unsupported codec) come with a clear error message and retry guidance.

Yes — anytime from the Stripe customer portal. You keep your plan through the paid period, then drop to Free at the next renewal date.

What is the refund policy?

Full refund within 7 days if you have used less than 10% of your plan minutes. After that, pro-rated refunds for the unused portion. Email support@transcription.solutions.

Yes — REST API is live with webhooks. API key authentication, per-key rate limits by plan tier. Documentation at /docs/api.

Comece grátis

Transcrever
gravações de voz, áudio e vídeo, vídeos do YouTube, arquivos de áudio, arquivos de vídeo, vídeos MP4, reuniões do Zoom, Microsoft Teams, Google Meet, entrevistas, podcasts, aulas, vídeos do TikTok, áudios do WhatsApp, memos de voz, arquivos MP3, ligações, sermões
em texto. Em segundos

Obtenha uma transcrição limpa com identificação de falantes e resumo com IA, mais rápido que o tempo real.

Solte seu áudio ou vídeo

MP3 · MP4 · WAV · M4A · MOV · até 10 horas por arquivo

Cole o link, a gente baixa o áudio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · +50 outros

Grave diretamente do seu navegador

O cadastro leva 30 segundos — a gravação abre logo após, no painel.

Grátis 30 min/moSem cartão100+ 100+ idiomasIdentificação de falantes (Pro+)Arquivos são excluídos automaticamente em 24h

Plano gratuito: 30 minutos por mês, até 30 min por arquivo. Sem cartão obrigatório.

100+

Idiomas detectados automaticamente

Detecção automática com opção manual.

95%+

Precisão em áudio limpo

Principais idiomas, um ou dois falantes.

10h

Tamanho máximo de arquivo no Business

10 h no Pro · 30 min no Free.

~30×

Mais rápido que o tempo real

Um arquivo de 60 min geralmente fica pronto em 2–3 min.

Este é o painel

Clique por aí. É a coisa real

As abas funcionam. Os itens de ação alternam. É exatamente o que carrega na sua conta após um trabalho terminar — mesma disposição, mesmos controles.

app.transcription.solutions / jobs / entrevista-ari-2026-04-26

Resumo

instantâneo automático · saved

TL;DR

Fundadores precisam de conteúdo pós-chamada, não apenas transcrições. As ferramentas os forçam a juntar 5 aplicativos.

318words2falantes · 58 / 425tópicos

Pontos principais 3

01Existe uma lacuna entre gravações brutas e conteúdo publicável
02Notas de show, clipes para redes sociais, rascunhos de blog — esperados até o final da chamada
03Ferramentas atuais fragmentadas em mais de 5 aplicativos

Itens de ação 2

Investigar abordagem de pipeline único para substituir a costura de 5 aplicativos
Simular como seria um rascunho de nota de show a partir desta transcrição

Tópicosfluxo de trabalho do fundadorconteúdo pós-chamadafragmentação de ferramentasnotas de showpipeline único

Transcrição com diarização

4 linhas · 2 falantes · clipe de 30s

00:12Falante AEntão, o que eu continuo ouvindo dos fundadores é essa lacuna entre gravações brutas e conteúdo que você pode realmente publicar.

00:27Falante BExatamente. Ninguém quer outra transcrição — eles querem uma nota de show, um clipe, um rascunho de blog, até o final da chamada.

00:41Falante ACerto, e as ferramentas agora forçam você a juntar cinco aplicativos para chegar lá.

00:54Falante BUm pipeline, um lugar. Essa é a aposta.

Análise de falantes

Divisão de canal estéreo · diarização em mono

Falante A

58% de tempo de fala

Turns

14s

Tempo de fala

…essa lacuna entre gravações brutas e conteúdo que você pode realmente publicar.

Falante B

42% de tempo de fala

Turns

10s

Tempo de fala

Um pipeline, um lugar. Essa é a aposta.

Formatos de exportação

Todo plano, todo formato · 7 saídas · sem marcas d'água · TXT · SRT · MD · JSON · VTT · DOCX · PDF

TXT

Texto simples

Extrair texto limpo · todos os planos

SRT

Legenda SubRip

Legenda com timestamps · todos os planos

Markdown

Cabeçalhos de falantes + resumo · todos os planos

JSON

JSON estruturado

Esquema público · para fluxos de API · todos os planos

VTT

Legenda WebVTT

Formato de player de vídeo HTML5 · todos os planos

DOCX

Documento Word

Cabeçalhos de falantes + timestamps · todos os planos

PDF

PDF com marca

Pronto para impressão · resumo e falantes · todos os planos

DEMO · MUDO

0:18 / 1:00

Saída de amostra · 30 segundos de um clipe de podcast

Um arquivo. Oito coisas de volta

Passe o mouse ou toque em qualquer saída para ver como ela realmente se parece. Mesmo clipe de podcast de 30 segundos no centro, oito artefatos derivados dele.

Transcrição

Pontuado · com timestamp

00:12 Falante A
Então, o que eu continuo ouvindo dos fundadores é essa lacuna…

Resumo com IA

TL;DR · pontos principais

Fundadores precisam de conteúdo pós-chamada conteúdo, não apenas transcrições. As ferramentas os forçam a juntar 5 aplicativos.

Falantes

Diarização · Pro+

Divisão de canal estéreo para chamadas de duas pessoas. Diarização mono para todo o resto.

100+ idiomas

Detecção automática

ASR de nível de pesquisa. Force um idioma específico se a detecção automática escolher o errado.

entrevista-ari-2026-04-26.mp3

Clipe de 30 segundos · 2 falantes

100+ idiomas · detecção automática · 95%+ de precisão

Transcrição · janela de 30s