Transkrypcja wywiadów.Inne nagranie, ten sam wynik.

Notatka głosowa, rozmowa Zoom, zestaw lavalier lub przenośny rejestrator polowy — oddaj nagranie wywiadu i uzyskaj tekst ze wskazaniem mówcy i czasem, który możesz cytować.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Patrz co wychodzi

Dwa głosy na wejściu. Dwa głosy na wyjściu, oznaczone.

Większość wywiadów to dwie osoby na jednym urządzeniu — telefon na stole, rejestrator między wami. Oddzielamy audio wywiadu na interviewer i źródło nawet z jednego kanału mono, a następnie dodajemy znaczniki czasu dla każdej wypowiedzi w celu cytowania.

Rejestrator polowy · WAVREC 2 mówcy · 38:42
auto-wykryte en-US48 kHz mono · 1411 kbps
~90s
Transkrypcja · streamingDokładność 94%
S1

Czy mógłbyś opowiedzieć co widziałeś rano osiemnastego?

S2

Przyszedłem koło szóstej. Drzwi do zatoki ładunkowej były już otwarte, a tak nie powinny być.

S1

I wcześniej zgłaszałeś problem z drzwiami — komu?

S2

Diane Okafor z obsługi, dwa razy w marcu. Mam emaile.

94% na WAV z polaDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Trzy rzeczywiste opcje · uczciwe porównanie

Rev — ludzie. Otter lub Trint. Albo my.

Rev wysyła Twoje audio do transkryberów — powoli i drogo, ale wysoka wierność na trudnym materiale. Otter i Trint to opcje AI, jak my, dostrojone dla dziennikarzy i badaczy. Oto gdzie każdy się sprawdza.

Option 01

Rev human transcription

Prawdziwi ludzie transkrybują Twój wywiad. Najlepsze dla trudnego audio, ale czekasz i płacisz.

Czas realizacji12–24 godzin typowo
Dokładność na czystym audio99% (według oświadczeń)
Wskazanie mówcyRęcznie, wliczone
JęzykiEN człowiek · 30+ AI
Koszt · na minutę$1.50 człowiek · $0.25 AI
PrywatnośćAudio wysłane do podwykonawców
Best forWywiady sądowe lub publikacyjnie krytyczne na złym audio, gdzie potrzebujesz ludzkiego ucha i masz dzień czasu.
Option 02

Transcription.Solutions

Transkrypcja AI, rozdzielona wśród mówców, gotowa w minuty. Ten sam silnik do notatek głosowych, Zoom lub rejestratora polowego.

Czas realizacji~3 min na godzinę audio
Dokładność na czystym audio94–96%
Wskazanie mówcyAuto · zmień nazwę w edytorze
Języki99, auto-wykrywane
Koszt · na minutę$0.03
PrywatnośćAudio usuwane w 24h · bez trenowania
Best forDziennikarze, badacze i producenci robiący wiele wywiadów na tydzień, którzy potrzebują szybkiego, cytowalnego tekstu bez przesyłania do podwykonawcy.
Option 03

Otter / Trint

Transkrypcja AI z edytorem zorientowanym na badania. Mocna angielszyzna, ograniczona do planów miesięcznych.

Czas realizacjiCzasu rzeczywistego do ~5 min
Dokładność na czystym audio~90–93%
Wskazanie mówcyTak · zoptymalizowane do EN
JęzykiOtter tylko EN · Trint 30+
Koszt$17–80/użytkownik/msc (abonament)
Prywatnoś��Przechowywane na koncie domyślnie
Best forZespoły, które chcą mieć bibliotekę zagranego kiedykolwiek wywiadu i nie mają problemu z miesięczną opłatą za stanowisko na użytkownika.

Ceny i flagi funkcji dokładne na dzień 2026. Czas realizacji ludzkiego Rev zależy od głębokości kolejki i długości audio.

Specyficzne dla wywiadów

Trzy rzeczy, które kąsają ludzi na ogólnych narzędziach transkrypcji.

Audio wywiadu rzadko jest czyste. Zmień te ustawienia, a transkrypcja wytrzyma pod cytowaniem.

Co idzie nie tak

  1. 1Nakładanie się głosów na jednym kanale. Gdy Twoje źródło zaczyna mówić z naciskiem i przerywa Twoje pytanie, ogólna diaryzacja łączy oba w jeden blok mówcy.
  2. 2Nazwiska źródła i miejsca (Okafor, Tigray, Maranello) wracają fonetycznie. Bezużyteczne do sprawdzania faktów względem transkrypcji.
  3. 3Momenty poza nagraniem trafiają do tej samej transkrypcji co materiał do cytowania — brak możliwości oznaczenia regionu jako zredagowanego.

Co zmienić tutaj

  1. 1Jeśli Twój rejestrator polowy zapisuje dwukanałowy WAV (jeden mikrofon na ścieżkę), wgraj ten plik bezpośrednio. Wykrywamy na kanale i całkowicie pomijamy diaryzację.
  2. 2Wklej swoje notatki przygotowawcze — nazwiska źródła, organizacje, nazwy miejsc — do Słownika niestandardowego w formularzu zadania. Rozpoznawacz traktuje je jako znane rzeczowniki własne.
  3. 3Po przybyciu transkrypcji oznacz region jako niezarejestrowany w edytorze. Eksportuje się jako `[REDACTED 14:22–15:08]` w DOCX i TXT, bez względu na to czy źródłowe audio jest usuwane w ciągu 24 godzin.

Zalecane ustawienia zadania dla wywiadów

Oddaj plik wywiadu i te ustawienia włączają się domyślnie. Zmień na podstawie zadania z formularza.

Diaryzacja
Na kanał jeśli stereo · akustyczna inaczej
Model mówcy
Wywiad · 2–4 mówcy
Język
Auto-wykrywanie · przełączanie kodu włączone
Słowa wypełniające
Zachowane (tryb dosłowny)
Podsumowanie
Kluczowe cytaty + indeks tematu
Eksport
DOCX z czasami · zwykły TXT · JSON

Accuracy · real-world numbers

96% na dobrego lava. Wciąż czytelne na nagraniu z kawiarni.

Dokładność wywiadu jest ograniczona tym, co mikrofon faktycznie usłyszał. Stereo blisko mikrofonu dla każdego mówcy to sufit; telefon na hałaśliwym stole to podłoga. Liczby poniżej pochodzą z produkcyjnych plików wywiadów, a nie syntetycznych benchmarków.

96%
Podwójny lavalier · cisza studia

Jeden mikrofon na mówcę, oddzielne kanały (Zoom H5/H6, Tascam DR-40). Diaryzacja jest trywialna — błąd to tylko tekst.

94%
Rejestrator ręczny na stole

Jeden kondenser między dwoma mówcami, cichy pokój. Akustyczna diaryzacja niezawodnie oddziela głosy poniżej 4 ft.

90%
Notatka głosowa telefonu · blisko

Notatka głosowa iPhone'a lub Pixela na stole. Nazwy i numery czasem się gubią; kadencja jest ok do cytowania.

84%
Nagranie polowe · kawiarnia lub ulica

Automaty do espresso, ruch drogowy, inne głosy pobliski. Najgorszy przypadek w naszych danych — użyteczne do nawigacji, zweryfikuj cytaty względem audio.

Często zadawane pytania

8 rzeczy, które ludzie pytają o transkrypcję wywiadów.

01Czy mogę używać tych transkrypcji w opublikowanym artykule bez weryfikacji względem audio?+
Dla cytatów bezpośrednich — nie, zawsze weryfikuj względem audio. Transkrypcje AI dokładne w 94% wciąż czytają źle jedno słowo na 17 średnio, a złe słowo w cytacie to korekta. Transkrypcja to do nawigacji i tworzenia szkicu; audio to źródło prawdy.
02Mój rejestrator zapisał stereo WAV z jednym mikrofonem na mówcę. Co mam zrobić?+
Wgraj ten plik bezpośrednio — nie konwertuj na mono najpierw. Wykrywamy dwa kanały i kierujemy każdy na własną ścieżkę diaryzacji, co jest najdokładniejszą ścieżką jaką mamy. Spodziewaj się 96%+ w cichym pokoju.
03A co z wywiadami nagranymi przez rozmowę telefoniczną?+
Audio telefonu to wąskopasmowy 8 kHz, co ogranicza dokładność do około 88% nawet na czystej linii. Wciąż rozdzielamy obie strony używając separacji kanału jeśli Twoja aplikacja rejestratora je nagrała osobno (większość tak robi). Rozmowy VoIP przez WhatsApp lub Signal brzmią trochę lepiej niż PSTN.
04Czy mogę zredagować sekcje niezarejestrowane zanim podzielę się transkrypcją?+
Tak. W edytorze wybierz zakres czasu i oznacz go `[REDACTED]`. Eksport zastępuje tekst markerem redakcji, ale zachowuje czasy, więc dokument wciąż śledzi audio.
05Czy trenujecie modele na moich nagraniach wywiadów?+
Nie. Źródłowe audio jest usuwane z naszej infrastruktury w ciągu 24 godzin od zakończenia, i nie używamy nagrań klientów do trenowania modeli w żadnym planie. Tekst transkrypcji zostaje na Twoim koncie, aż go usuniesz.
06Trzy lub cztery osoby na panelowym wywiadzie — diaryzacja wciąż działa?+
Do około sześciu odrębnych głosów, tak, ale dokładność przydzielania mówcy spada z każdą dodaną osobą i pogarsza się gdy dwa głosy brzmią podobnie. Zaplanuj przejście zmian nazw na chipach mówcy na 2–3 minuty po przybyciu transkrypcji.
07Czy możecie transkrybować wywiady w innych językach niż angielski?+
99 języków, auto-wykrywane. Przełączanie kodu (źródło angielskie przechodzące do hiszpańskiego w środku zdania) jest obsługiwane w 12 parach języków. Dokładność różni się w zależności od języka — języki europejskie odpowiadają angielskiemu; języki afrykańskie i azjatyckie niskiego zasobów działają o 5–10 punktów niżej.
08Nagrywam na rozmowie Zoom — czy zamiast tego powinienem użyć Twojej strony Zoom?+
Ten sam silnik, ten sam wynik. Strona Zoom obejmuje specyficzne szczegóły nagrywania w chmurze (audio na uczestnika, degradacja połączenia). Jeśli prowadzisz jeden wywiad na raz przez Zoom, każda ścieżka działa — oddaj MP4 tutaj i etykiety mówcy wychodzą takie samo.

Oddaj swoje nagranie wywiadu. Zobacz co wychodzi.

30 darmowych minut każdego miesiąca. Brak karty. Wskazanie mówcy, 99 języków, wszystkie eksporty wliczone.

Zacznij bezpłatnie