Intervjutranskriktion.Olika inspelning, samma resultat.

Telefonmemo, Zoom-samtal, lavalier-mikrofon eller handhållen fältspelare — lämna intervjuinspelningen och få talarmarkserad, tidsstämplad text som du kan citera.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Se vad som kommer ut

Två röster in. Två röster ut, märkta.

De flesta intervjuer är två personer på en enhet — en telefon på bordet, en inspelare mellan er. Vi separerar intervjuljudet i reporter och källa även från en enda monokanal, sedan tidsstämplar vi varje tur för citering.

Fältspelare · WAVREC 2 talare · 38:42
auto-detekterad sv-SE48 kHz mono · 1411 kbps
~90s
Transkript · streaming94% noggrannhet
S1

Kan du gå igenom vad du såg på morgonen den artonde?

S2

Jag kom dit omkring sex. Lastkajdörren var redan öppen, vilket den inte borde ha varit.

S1

Och du hade rapporterat dörproblemet tidigare — till vem?

S2

Till Diane Okafor i fastighetsdriften, två gånger i mars. Jag har e-postmeddelandena.

94% på fält-WAVDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Tre riktiga alternativ · ärlig jämförelse

Rev mänsklig. Otter eller Trint. Eller vi.

Rev skickar ditt ljud till mänskliga transkribenter — långsamt och dyrt men högt värde på svårt ljud. Otter och Trint är AI-först som vi, anpassade för journalister och forskare. Här är var var passar.

Option 01

Rev mänsklig transkription

Riktiga människor skriver din intervju. Bäst på fientligt ljud, men du väntar och betalar.

Vändtid12–24 timmar typiskt
Noggrannhet på rent ljud99% (påstås)
TalarmarkeringarManuell, ingår
SpråkSV mänsklig · 30+ AI
Kostnad · per minut$1.50 mänsklig · $0.25 AI
IntegritetLjud skickat till uppdragstagare
Best forDomstolsrelaterade eller publicerings-kritiska intervjuer på dåligt ljud där du behöver ett människooöra och har en dag att vänta.
Option 02

Transcription.Solutions

AI-transkript, talarsplittrat, klart på minuter. Samma motor för telefonmemo, Zoom eller fältspelare.

Vändtid~3 min per timme ljud
Noggrannhet på rent ljud94–96%
TalarmarkeringarAuto · byt namn i redigeraren
Språk99, auto-detekterat
Kostnad · per minut$0.03
IntegritetLjud raderat om 24h · ingen träning
Best forJournalister, forskare och producenter som gör flera intervjuer per vecka och behöver snabbt, citebar text utan att ladda upp till en uppdragstagare.
Option 03

Otter / Trint

AI-transkription med forskningsvänd redigerare. Starkt på engelska, låst till månatliga planer.

VändtidRealtid till ~5 min
Noggrannhet på rent ljud~90–93%
TalarmarkeringarJa · EN-anpassat
SpråkOtter EN-endast · Trint 30+
Kostnad$17–80/användare/mån (prenumeration)
IntegritetLagrat på konto som standard
Best forTeam som vill ha ett värdbibliotek med varje intervju någonsin inspelad och inte störs av en månatlig sätesavgift per användare.

Prissättning och funktionsflaggor korrekta från 2026. Rev mänsklig vändtid varierar beroende på ködjup och ljudlängd.

Specifikt för intervjuer

Tre saker som slår till folk med generiska transkriptionsverktyg.

Intervjuljudet är sällan rent. Vänd dessa inställningar och transkriptet håller under citering.

Vad som går fel

  1. 1Korstal på en enskild kanal. När din källa blir emfatisk och talar över din fråga, generisk diarization sammanfogar båda till ett talarblock.
  2. 2Källors namn och platser (Okafor, Tigray, Maranello) kommer tillbaka fonetiska. Värdelös för faktakontroll mot ett transkript.
  3. 3Off-the-record-stunder slutar i samma transkript som citerbara material — ingen möjlighet att markera en region som redigerad.

Vad du vänder här

  1. 1Om din fältspelare skriver en tvåkanalig WAV (en mikrofon per spår), ladda upp den filen direkt. Vi detekterar per-kanal och hoppar över diarization helt.
  2. 2Klistra in dina förberedelseanmärkningar — källnamn, organisationer, platsunamn — i Anpassat ordförråd på jobbformuläret. Erkännare behandlar dem som kända egennamn.
  3. 3Efter att transkriptet landar, markera en region som off-record i redigeraren. Det exporteras som `[REDACTED 14:22–15:08]` i DOCX och TXT, med källljudet borttaget om 24 timmar oavsett.

Rekommenderade jobbinställningar för intervjuer

Lämna en intervjufil och dessa slår på som standard. Åsidosätt per-jobb från formuläret.

Diarization
Per-kanal om stereo · akustisk annars
Talarmodell
Intervju · 2–4 talare
Språk
Auto-detekterat · kodväxling på
Fyllerord
Behållna (verbatim-läge)
Sammanfattning
Nyckelcitat + ämnesiindex
Export
DOCX med tidsstämplar · vanlig TXT · JSON

Accuracy · real-world numbers

96% på en bra lav. Fortfarande läsbar på en caféinspelning.

Intervjunoggrannhet är begränsad av vad mikrofonen faktiskt hörde. Närmikrofon-stereo på varje talare är några takter; en telefon på ett bullrigt bord är golvet. Siffrorna nedan kommer från produktionsintervjufiler, inte syntetiska riktmärken.

96%
Dubbellavalier · studiostilla

En mikrofon per talare, separata kanaler (Zoom H5/H6, Tascam DR-40). Diarization är trivial — fel är endast text.

94%
Handhållen inspelare på bord

Enkel kondensator mellan två talare, stilla rum. Akustisk diarization separerar röster tillförlitligt under 4 fot.

90%
Telefonröstmemo · nära

iPhone eller Pixel röstmemo på bordet. Namn och siffror saknas ibland; tempo är fint för citering.

84%
Fältinspelning · café eller gata

Espressomaskiner, trafik, tredje röster i närheten. Värsta fall i vår data — användbar för navigering, verifiera citat mot ljud.

Vanliga frågor

8 saker folk frågar om intervjutranskriktion.

01Kan jag använda dessa transkript i en publicerad artikel utan att verifiera mot ljudet?+
För direkta citat — nej, verifiera alltid mot ljudet. AI-transkript på 94% noggrannhet mislässer fortfarande ett ord på 17 i genomsnitt, och det felaktiga ordet i ett citat är en rättelse. Transkriptet är för navigering och utkast; ljudet är sanningens källa.
02Min inspelare sparade en stereo-WAV med en mikrofon per talare. Vad gör jag?+
Ladda upp den filen direkt — konvertera inte till mono först. Vi detekterar de två kanalerna och dirigerar varje till sitt eget diarization-spår, vilket är den högsta-noggrannhets vägen vi har. Förvänta 96%+ på ett stilla rum.
03Vad med intervjuer inspelade över ett telefonsamtal?+
Telefonljudet är 8 kHz smalband, vilket begränsar noggrannheten till omkring 88% även på en ren linje. Vi separerar fortfarande de två parterna med kanaluppdelning om din inspelarapp fångade dem separat (de flesta gör det). VoIP-samtal över WhatsApp eller Signal låter lite bättre än PSTN.
04Kan jag redigera off-the-record-sektioner innan jag delar transkriptet?+
Ja. I redigeraren väljer du tidsstämpelintervallet och markerar det `[REDACTED]`. Exporten ersätter texten med en redigeringsmarkering men behåller tidsstämplarna så dokumentet fortfarande spårar ljudet.
05Tränar ni modeller på mina intervjuinspelningar?+
Nej. Källljudet raderas från vår infrastruktur inom 24 timmar från slutförandet, och vi använder inte kundspelningar för modellträning under någon plan. Transkripttexten stannar på ditt konto tills du raderar den.
06Tre eller fyra personer på en panelintervju — fungerar diarization fortfarande?+
Upp till omkring sex distinkta röster, ja, men noggrannheten på talaruppdelning sjunker med varje tillagd person och blir värre när två talare låter lika. Planera en 2–3-minuters omdöpar-pass på talarskipporna efter att transkriptet landar.
07Kan du transkribera intervjuer på andra språk än engelska?+
99 språk, auto-detekterat. Kodväxling (engelsk källa glider in i spanska mitt i meningen) hanteras i 12 språkpar. Noggrannheten varierar beroende på språk — europeiska språk matchar engelska; resurser-låga afrikanska och centralasiatiska språk kör 5–10 poäng lägre.
08Jag spelar in på ett Zoom-samtal — ska jag istället använda din Zoom-sida?+
Samma motor, samma resultat. Zoom-sidan täcker molninspelings-detaljer (per-deltagare ljud, dial-in-försämring). Om du genomför en intervju åt gången över Zoom, fungerar båda vägar — lämna MP4 här och talarmarkeringarna kommer ut likadant.

Lämna din intervjuinspelning. Se vad som kommer ut.

30 fria minuter varje månad. Inget kort. Talarmarkeringar, 99 språk, alla exporter inkluderade.

Börja gratis