How accurate is the transcription?

On clear audio with one or two speakers, accuracy reaches 95%+ in most major languages. Quality drops with background noise, heavy accents, or overlapping speech.

What languages are supported?

100+ languages with automatic detection. You can also force a specific language if auto-detect picks the wrong one. The user interface is English-only.

How long do you keep my files?

Source media (the audio or video you uploaded) is deleted from our infrastructure within 24 hours after transcription completes. The transcript and summary stay in your account until you delete them, or 30 days after you delete your account.

Do you train models on my recordings?

No. The upstream speech-to-text provider has training opt-out by default for paid endpoints, which is what we use. We add nothing on top: no own models trained on your transcripts, no shadow analytics.

What happens if a job fails?

Your minutes are not deducted. Most failures (private URL, file too long, unsupported codec) come with a clear error message and retry guidance.

Yes — anytime from the Stripe customer portal. You keep your plan through the paid period, then drop to Free at the next renewal date.

What is the refund policy?

Full refund within 7 days if you have used less than 10% of your plan minutes. After that, pro-rated refunds for the unused portion. Email support@transcription.solutions.

Yes — REST API is live with webhooks. API key authentication, per-key rate limits by plan tier. Documentation at /docs/api.

Começar grátis

Transcrever
gravações de voz, áudio e vídeo, vídeos do YouTube, arquivos de áudio, arquivos de vídeo, vídeos MP4, reuniões no Zoom, Microsoft Teams, Google Meet, entrevistas, podcasts, aulas, vídeos do TikTok, áudios do WhatsApp, memos de voz, arquivos MP3, ligações, sermões
em texto. Em segundos

Software de transcrição com IA e conversão de fala em texto para áudio e vídeo. Transforme MP3, MP4 ou voz em texto com identificação de falantes e resumo por IA, normalmente mais rápido que em tempo real.

Solte seu áudio ou vídeo

MP3 · MP4 · WAV · M4A · MOV · até 10 horas por arquivo

Cole um link, buscamos o áudio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · mais de 50

Grave direto do navegador

O cadastro leva 30 segundos — a gravação abre logo em seguida, no painel.

Free 30 min/moSem cartão100+ Mais de 100 idiomasIdentificação de falantes (Pro+)Arquivos apagados automaticamente em 24h

Plano gratuito: 30 minutos por mês, até 30 min por arquivo. Sem cartão.

100+

Idiomas detetados automaticamente

Detecção automática com substituição manual.

95%+

Precisão em áudio limpo

A maioria dos idiomas principais, um ou dois falantes.

10h

Duração máxima de ficheiro no Business

10 h no Pro · 30 min no Free.

~30×

Mais rápido que tempo real

Um arquivo de 60 min costuma voltar em 2–3 min.

Esse é o dashboard

Pode explorar. É a coisa real

As abas funcionam. O toggle de tarefas funciona. É exatamente isso que carrega na sua conta quando um trabalho termina — mesmo layout, mesmos controles.

app.transcription.solutions / jobs / interview-ari-2026-04-26

Resumo

snapshot automático · saved

TL;DR

Fundadores precisam de conteúdo pós-call, não só de transcrição. As ferramentas obrigam a juntar 5 apps.

318words2participantes · 58 / 425tópicos

Principais pontos 3

01Existe uma lacuna entre gravação crua e conteúdo pronto pra publicar
02Show notes, cortes pra redes, rascunho de blog — esperados até a call acabar
03Tooling atual espalhado por mais de 5 apps

O que fazer 2

Avaliar pipeline único pra substituir a colcha de retalhos de 5 apps
Simula como ficaria o rascunho das show notes a partir desta transcrição

Tópicosfluxo do fundadorconteúdo pós-callfragmentação das ferramentasshow notespipeline único

Transcrição com falantes

4 linhas · 2 oradores · clipe de 30s

00:12Falante AEntão, o que eu não paro de ouvir dos fundadores é essa lacuna entre a gravação crua e o conteúdo que dá pra publicar.

00:27Participante BExatamente. Ninguém quer mais uma transcrição — querem as show notes, o clip, o rascunho do post, antes da call acabar.

00:41Falante APois é, e as ferramentas hoje te obrigam a costurar cinco apps pra chegar lá.

00:54Participante BUm pipeline, um lugar. É essa a aposta.

Análise por interlocutor

Separação por canal estéreo · diarização em mono

Falante A

58% do tempo de fala

Turns

14s

Tempo de fala

…essa lacuna entre a gravação bruta e algo que dá pra entregar.

Participante B

42% do tempo de fala

Turns

10s

Tempo de fala

Um pipeline, um lugar. É essa a aposta.

Formatos de exportação

Todos os planos, todos os formatos · 7 saídas · sem marca-d'água · TXT · SRT · MD · JSON · VTT · DOCX · PDF

TXT

Texto puro

Texto limpo · todos os planos

SRT

Legenda SubRip

Legenda com timestamps · todos os planos

Markdown

Cabeçalhos por participante + resumo · todos os planos

JSON

JSON estruturado

Schema público · para fluxos via API · todos os planos

VTT

Legenda WebVTT

Formato de player de vídeo HTML5 · em todos os planos

DOCX

Documento Word

Cabeçalhos por orador + timestamps · em todos os planos

PDF

PDF com marca

Pronto para imprimir · resumo e interlocutores · todos os planos

DEMO · SEM SOM

0:18 / 1:00

Saída de exemplo · 30 segundos de um trecho de podcast

Um arquivo. Oito coisas de volta

Passa o rato ou toca em qualquer saída para ver como fica. O mesmo clipe de podcast de 30 segundos ao centro, oito artefactos derivados dele.

Transcrição

Pontuado · com timestamps

00:12 Falante A
O que eu ouço dos founders é sempre esta lacuna…

Resumo com IA

Resumo · tópicos principais

Founders precisam do pós-call conteúdo, não só transcrições. As ferramentas obrigam eles a juntar 5 apps.

Participantes

Identificação de interlocutor · Pro+

Separação por canal estéreo para chamadas a dois. Diarização em mono para o resto.

Mais de 100 idiomas

Detectar automaticamente

ASR de nível profissional. Force um idioma específico se a detecção automática errar.

interview-ari-2026-04-26.mp3

Clipe de 30s · 2 oradores

Mais de 100 idiomas · detecção automática · 95%+ de precisão

Transcrição · janela de 30s