Trascrivi MP3 in testo.Etichette speaker, 100+ lingue.

Carica un file MP3 a qualsiasi bitrate da 64 a 320 kbps. Ottieni una trascrizione con timestamp e etichette speaker in 99 lingue — nessuna conversione di formato, nessuna riencodifica, nessuna attesa in fila.

Trascina qui il tuo audio o video

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Registra direttamente dal tuo browser

La registrazione richiede 30 secondi: la registrazione si apre subito dopo, nella dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFile cancellati automaticamente in 24h

↓ Guarda il risultato

MP3 dentro. Trascrizione diarizzata fuori.

Leggiamo gli header dei frame MP3 direttamente — VBR, CBR, joint-stereo, qualsiasi encoder (LAME, Fraunhofer, FFmpeg). Se il file è stereo vero con speaker su canali separati, lo usiamo per dividere le voci. Il mix-down mono ricade sulla diarizzazione acustica.

interview-tape-04.mp3REC 192 kbps · stereo · 38:42

auto-rilevato en-GB44.1 kHz · LAME 3.100

~90s

Trascrizione · streamingPrecisione al 95%

S1

Allora, quando ti sei accorto per la prima volta che l'archivio era incompleto?

S2

Probabilmente intorno al 2019, quando abbiamo iniziato a digitalizzare i nastri.

S1

E i nastri mancanti — erano catalogati da qualche parte?

S2

C'è un indice cartaceo del '78, ma metà è danneggiato dall'acqua.

95% a 192 kbps stereoSRT · DOCX · TXT · JSON · VTT

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Riepilogo 5Trascrizione 1,420Parlanti 2Esportazioni

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Punti chiave

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Elementi d'azione

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Tre opzioni reali · confronto onesto

Whisper locale gratuito. Otter o Sonix. O noi.

Puoi eseguire Whisper sul tuo laptop gratuitamente se hai competenze tecniche. Otter e Sonix accettano upload di MP3 nei loro dashboard a pagamento. Noi prendiamo il file, restituiamo la trascrizione e non ti facciamo vivere dentro un'interfaccia.

Option 01

Whisper locale / open source

Gratuito se hai una GPU e un pomeriggio. Nessuna diarizzazione speaker pronta all'uso.

ConfigurazionePython + CUDA + modelli da 10 GB

Diarizzazione speakerNon inclusa (add-on pyannote)

Velocità · MP3 da 1 ora5–40 min su GPU consumer

Lingue99, ma il modello minuscolo scende sotto l'80%

EsportazioneTXT / SRT / VTT / JSON

CostoGratuito + tua elettricità

Best forIngegneri che possiedono già una GPU, non hanno bisogno di etichette speaker e vogliono la massima privacy locale.

Option 02

Transcription.Solutions

Carica l'MP3. Ottieni il testo con etichette speaker indietro in tempo quasi reale × 0,025.

ConfigurazioneDrag-and-drop, nessun account necessario per provare

Diarizzazione speakerInclusa (piani Pro e Business)

Velocità · MP3 da 1 ora~90 secondi

Lingue99, rilevate automaticamente

EsportazioneSRT · VTT · DOCX · TXT · JSON

Costo · per minuto$0.03

Best forChiunque abbia un MP3 — registrazione giornalistica, esportazione podcast, memo vocale, copia d'archivio — che vuole semplicemente il testo accurato dall'altra parte.

Option 03

Otter / Sonix

Dashboard raffinato, limite mensile di minuti, ottimizzato per l'inglese. L'upload di file sembra una funzione secondaria.

ConfigurazioneAccount + piano a pagamento

Diarizzazione speakerAcustica, orientata verso EN

Velocità · MP3 da 1 ora5–10 minuti in coda

LingueOtter solo EN; Sonix ~40

EsportazioneBloccate dietro piani a pagamento

Costo$17+/mese o $10+/ora (Sonix)

Best forTeam che vogliono un editor di trascrizioni e un'interfaccia collaborativa più di un flusso API-style file→testo.

Prezzi e disponibilità funzioni accurati a maggio 2026. Le prestazioni di Whisper variano a seconda della dimensione del modello e dell'hardware.

Specifico per MP3

Tre cose che mordono le persone su strumenti di trascrizione generici.

MP3 è un formato, non uno stile di registrazione — il che significa che le modalità di errore provengono dall'encoder, non dal parlato.

Cosa va male

1Gli header VBR vengono analizzati male. Alcuni tool leggono i MP3 a bitrate variabile come a velocità fissa e calcolano male la durata — i timestamp derivano di minuti su un file di un'ora.
2Joint-stereo viene appiattito a mono durante la pre-elaborazione del caricamento. Perdi la separazione del canale per speaker che era effettivamente nel file.
3L'arte dell'album ID3 incorporata blocca alcuni uploader — rifiutano il file come 'non audio puro' o lo spogliano e lo riencodificano, perdendo ulteriormente la qualità.

Cosa facciamo invece

1Utilizziamo l'header Xing/LAME quando presente e il fallback del conteggio dei frame quando non presente. I timestamp VBR rimangono accurati a ±0,1 s nei file di più ore.
2I MP3 joint-stereo e true-stereo sono decodificati a L/R PCM prima della diarizzazione. Se i tuoi speaker erano panned, li manteniamo divisi.
3Tag ID3v1, ID3v2, APE, arte incorporata — tutto passato intatto. Non riencodiamo mai il tuo MP3.

Impostazioni di lavoro consigliate per caricamenti MP3

Impostazioni predefinite che si adattano a circa l'80% dei file MP3. Sovrascrivi per lavoro dal modulo.

Decoder: Accurato a livello di frame, senza riencodifica
Diarizzazione: Divisione del canale se stereo, altrimenti acustica
Modello speaker: Auto · 1-12 speaker
Lingua: Rilevamento automatico dai primi 30 s
Parole di riempimento: Rimosse (attiva per mantenere)
Bundle di esportazione: DOCX + SRT + TXT con timestamp

Accuracy · real-world numbers

95%+ a 192 kbps stereo. Utilizzabile fino a 64 kbps mono.

La precisione MP3 è limitata da quello che l'encoder ha mantenuto, non da noi. La compressione percettiva al di sopra di ~96 kbps preserva molto bene l'intelligibilità del parlato; al di sotto di 64 kbps, le sibilanti e le consonanti iniziano a dissolversi. I numeri sottostanti provengono da veri MP3 dei clienti in produzione.

96^%

320 kbps stereo, fonte studio

Quasi senza perdita per il parlato. Master podcast, esportazioni app di dettatura, configurazioni di interviste professionali. Diarizzazione pulita se i speaker sono su canali separati.

95^%

192 kbps stereo, 2-3 speaker

Bitrate più comune per MP3 di parola parlata. Esportazioni Zoom, download Riverside, impostazione predefinita dei registratori vocali. Artefatti di compressione inudibili al riconoscitore.

91^%

128 kbps mono, conversazionale

Impostazioni predefinite memo vocale su la maggior parte dei telefoni. La diarizzazione acustica gestisce 2-4 speaker. Numeri e nomi propri occasionalmente necessitano un controllo.

84^%

64 kbps mono, archiviazione / dump da telefono

Vecchie registrazioni da segreteria telefonica, archivi di lezioni, fonti a banda stretta. Le consonanti ad alta frequenza (f/s/sh) diventano sfocate. Ancora leggibile — pianifica una correzione.

What affects accuracy

The model isn’t the bottleneck — the audio is.

01

Microphone distance and quality

USB or lavalier mic at 30 cm vs phone in pocket at 3 m: 10-point accuracy swing. The mic captures or it doesn't.

02

Background noise

Café chatter, AC hum, traffic, room reverb. The model filters some but can't recover frequencies the mic masked entirely.

03

Accent and speech rate

Strong regional accents, fast speech, code-switching — all drop accuracy 2–4% vs neutral English. Still usable, but plan a review pass.

04

Codec and bitrate

Lossless WAV at 16 kHz+ beats MP3 by 1–2%. Below 64 kbps MP3, perceptual compression starts eating word accuracy noticeably.

05

Speaker overlap

Two people talking simultaneously is the hardest case. Diarization labels both turns but the words inside the overlap may be wrong.

Domande comuni

8 cose che le persone chiedono sulla trascrizione MP3.

01Quale è il bitrate MP3 minimo che produce comunque una trascrizione utilizzabile?+

64 kbps è il limite pratico. Al di sotto, le sibilanti (s, sh, f) si comprimono in rumore e il tasso di errore di parola sale oltre il 20%. Se stai registrando nuovo, mira a 128 kbps mono o 192 kbps stereo — nulla di superiore è sufficiente per il parlato.

02Devo convertire il mio MP3 in WAV prima?+

No. La riencodifica MP3 → WAV non aumenta la precisione perché i dati che l'encoder ha scartato sono persi per sempre. Carica l'MP3 direttamente. Decodifichiamo i frame in memoria e forniamo PCM al riconoscitore.

03Un MP3 stereo mi darà etichette speaker migliori rispetto al mono?+

Solo se i speaker sono stati effettivamente registrati su canali separati — la maggior parte dei MP3 stereo ha lo stesso audio su entrambi i lati ('dual mono') e non guadagna nulla. La vera divisione del canale (ad es. esportazioni Riverside, configurazioni di campo a due microfoni) ci permette di saltare la diarizzazione acustica ed etichettare i speaker quasi perfettamente.

04Qual è la dimensione massima del file MP3 che accetti?+

5 GB per caricamento, che è circa 60 ore a 192 kbps o 90 ore a 128 kbps. Se il tuo file è più grande, mostreremo un caricamento suddiviso — non è necessario dividerlo tu stesso.

05Quanto tempo impiega un MP3 di 60 minuti per essere trascritto?+

In genere 90 secondi dall'upload-completato alla trascrizione-pronta, indipendentemente dal bitrate. La decodifica dei frame MP3 è veloce; il tempo è nel riconoscitore. La diarizzazione aggiunge 5-10 secondi sui file multi-speaker.

06Il mio MP3 ha musica di sottofondo — la trascrizione sarà rovinata?+

La musica di sottofondo tranquilla sotto il parlato va bene. La musica forte che compete con la voce (stacchi intro, scoring sotto interviste) a volte innesca errori di riconoscimento su sillabe sovrapposte. Attiva soppressione della musica nel modulo di lavoro per pre-filtrare.

07Puoi gestire MP3 estratti dalla segreteria telefonica o dai risponditori?+

Sì, anche se questi sono spesso riencodificati 8 kHz a banda stretta come MP3 — il tetto della qualità audio è impostato dalla cattura PSTN originale, non dal wrapper MP3. Aspettati il 78-85% di precisione su questo tipo di fonte, che è lo stesso che otterremmo sulla chiamata sottostante.

08Conservi il mio MP3 dopo che la trascrizione è completata?+

I file vengono eliminati dopo 30 giorni per impostazione predefinita, o immediatamente su richiesta tramite il dashboard. La trascrizione rimane nel tuo account finché non la elimini. Non usiamo mai l'audio del cliente per addestrare alcun modello.

Carica il tuo MP3. Ottieni il testo indietro in 90 secondi.

30 minuti gratuiti ogni mese. Carta non richiesta. Etichette speaker, 99 lingue, ogni formato di esportazione incluso.