สัมภาษณ์ที่แปลงเป็นข้อความบันทึกเสียงแบบไหนก็ได้ ผลลัพธ์เหมือนเดิม

Voice memo จากโทรศัพท์ Zoom call lavalier rig หรือ field recorder — วาง เสียงสัมภาษณ์ แล้วได้ข้อความพร้อมชื่อผู้พูด เวลา และสามารถอ้างอิงได้

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ ดูผลลัพธ์ที่ออกมา

สองเสียงเข้า สองเสียงออกมา มีป้ายชื่อ

สัมภาษณ์ส่วนใหญ่มีสองคนในอุปกรณ์เดียว — โทรศัพท์บนโต๊ะ หรือ recorder วางตรงกลาง เราแยก เสียงสัมภาษณ์ ให้เป็นผู้สัมภาษณ์และแหล่งข้อมูล แม้จากช่องเดี่ยว แล้วมีเวลาในแต่ละขั้นสำหรับอ้างอิง

Field recorder · WAVREC 2 speakers · 38:42
auto-detected en-US48 kHz mono · 1411 kbps
~90s
Transcript · streaming94% accuracy
S1

Can you walk me through what you saw the morning of the eighteenth?

S2

I got there around six. The loading bay door was already open, which it shouldn't have been.

S1

And you'd reported the door issue before — to whom?

S2

To Diane Okafor in facilities, twice in March. I have the emails.

94% on field WAVDOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

สามทางเลือกจริง เปรียบเทียบอย่างเต็มตัน

Rev แบบคน Otter หรือ Trint หรือเรา

Rev ส่งเสียงคุณให้กับคนพิมพ์ — ช้าและแพงแต่ได้คุณภาพสูงกับเสียงยาก Otter และ Trint เป็น AI-first เหมือนเรา ปรับให้เหมาะกับนักข่าวและนักวิจัย นี่คือสิ่งที่เหมาะกับแต่ละแบบ

Option 01

Rev human transcription

มนุษย์พิมพ์สัมภาษณ์ของคุณ ดีที่สุดกับเสียงเย็นแต่คุณต้องรอและต้องจ่าย

Turnaround12–24 hours typical
Accuracy on clean audio99% (claimed)
Speaker labelsManual, included
LanguagesEN human · 30+ AI
Cost · per min$1.50 human · $0.25 AI
PrivacyAudio sent to contractors
Best forสัมภาษณ์ที่เกี่ยวข้องกับศาลหรือสิ่งพิมพ์ สำคัญมากในเสียงเย็นที่ต้องการหูมนุษย์ และมีเวลาหนึ่งวันให้รอ
Option 02

Transcription.Solutions

AI transcript ผู้พูดแยก พร้อมใช้ในเวลาไม่กี่นาที engine เดียวกันสำหรับ voice memo Zoom หรือ field recorder

Turnaround~3 min per hour of audio
Accuracy on clean audio94–96%
Speaker labelsAuto · rename in editor
Languages99, auto-detected
Cost · per min$0.03
PrivacyAudio deleted in 24h · no training
Best forนักข่าว นักวิจัย และผู้สร้างสรรค์ที่ทำสัมภาษณ์หลายครั้งต่อสัปดาห์ต้องการข้อความที่อ้างอิงได้อย่างรวดเร็วโดยไม่อัพโหลดไปยัง contractor
Option 03

Otter / Trint

AI transcription ด้วย editor ที่มุ่งเน้นวิจัย English-strong ล็อกไว้ในแผน monthly

TurnaroundReal-time to ~5 min
Accuracy on clean audio~90–93%
Speaker labelsYes · EN-tuned
LanguagesOtter EN-only · Trint 30+
Cost$17–80/user/mo (subscription)
PrivacyStored in account by default
Best forทีมที่ต้องการห้องเก็บเสียงสัมภาษณ์ทั้งหมดที่บันทึกไว้และไม่รังแค้นต้องจ่าย monthly seat fee ต่อผู้ใช้

Pricing and feature flags accurate as of 2026. Human Rev turnaround varies by queue depth and audio length.

Specific ต่อสัมภาษณ์

สามสิ่งที่ทำให้คนมีปัญหากับ generic transcription tools

เสียงสัมภาษณ์ไม่ค่อยสะอาด flip settings เหล่านี้และ transcript ถืออยู่ได้ภายใต้การอ้างอิง

สิ่งที่ผิด

  1. 1Cross-talk บนช่องเดี่ยว เมื่อแหล่งข้อมูลของคุณต่อโต้และพูดทับคำถามของคุณ generic diarization รวมทั้งสองเป็นบล็อกผู้พูดหนึ่ง
  2. 2ชื่อแหล่งข้อมูลและสถานที่ (Okafor, Tigray, Maranello) กลับมาด้วยการออกเสียง ไร้ประโยชน์สำหรับการตรวจสอบข้อเท็จจริงกับ transcript
  3. 3โมเมนต์ off-the-record ลงเอยในช่วง transcript เดียวกับ quotable material — ไม่มีวิธีทำเครื่องหมายบริเวณว่า redacted

สิ่งที่ต้อง flip ที่นี่

  1. 1หาก field recorder ของคุณเขียน two-channel WAV (mic หนึ่งต่อแทร็ก) อัพโหลดไฟล์นั้นโดยตรง เราตรวจหาต่อแต่ละช่องและ skip diarization ได้ทั้งหมด
  2. 2วาง prep notes ของคุณ — ชื่อแหล่งข้อมูล องค์กร ชื่อสถานที่ — ลงใน Custom vocabulary ในแบบฟอร์มงาน Recognizer ถือว่าเป็น proper nouns ที่รู้จัก
  3. 3หลัง transcript เข้ามา ทำเครื่องหมายบริเวณว่า off-record ใน editor มันส่งออกมาเป็น `[REDACTED 14:22–15:08]` ใน DOCX และ TXT พร้อมลบเสียงต้นฉบับภายใน 24 ชั่วโมงไม่ว่า

ตั้งค่างาน recommended สำหรับสัมภาษณ์

วางไฟล์สัมภาษณ์และสิ่งเหล่านี้เปิด by default override per-job จากแบบฟอร์ม

Diarization
Per-channel ถ้า stereo · acoustic else
Speaker model
Interview · 2–4 speakers
Language
Auto-detect · code-switch on
Filler words
Kept (verbatim mode)
Summary
Key quotes + topic index
Export
DOCX with timestamps · plain TXT · JSON

Accuracy · real-world numbers

96% บน lav ที่ดี อ่านได้บน cafe recording

ความแม่นยำของสัมภาษณ์ถูกจำกัดโดยสิ่งที่ mic จำได้จริ�� close-mic stereo บนแต่ละผู้พูด คือ ceiling; โทรศัพท์บนโต๊ะเสียงดังคือ floor ตัวเลขด้านล่างมาจากไฟล์สัมภาษณ์จริง ไม่ใช่ synthetic benchmark

96%
Dual lavalier · studio quiet

Mic หนึ่งต่อผู้พูด separate channels (Zoom H5/H6, Tascam DR-40) Diarization trivial — error คือ text-only

94%
Handheld recorder on table

Single condenser ระหว่างสองผู้พูด ห้องเงียบ Acoustic diarization แยกเสียงได้อย่างน่าเชื่อถือภายใต้ 4 ft

90%
Phone voice memo · close

iPhone หรือ Pixel voice memo บนโต๊ะ ชื่อและตัวเลขบางครั้งหาย cadence ดีออกมาพอสำหรับการอ้างอิง

84%
Field recording · cafe or street

Espresso machines traffic เวลาที่สามอยู่ใกล้ worst case ในข้อมูลของเรา — ใช้ได้สำหรับการนำทาง ตรวจสอบคำพูดกับเสียง

คำถามทั่วไป

8 สิ่งที่คนถาม เกี่ยวกับ สัมภาษณ์ที่แปลงเป็นข้อความ

01ฉันสามารถใช้ transcript เหล่านี้ในบทความที่ตีพิมพ์โดยไม่ต้องตรวจสอบกับเสียง?+
สำหรับคำพูดโดยตรง — ไม่ เสมอตรวจสอบกับเสียง AI transcript ที่ 94% accuracy ยังคงอ่านผิดคำหนึ่งใน 17 โดยเฉลี่ย และคำที่ผิดในคำพูดคือการแก้ไข transcript คือเพื่อการนำทางและร่าง เสียงคือแหล่งที่มาของความจริง
02Recorder ของฉันบันทึก stereo WAV ด้วย mic หนึ่งต่อผู้พูด ฉันควรทำอะไร?+
อัพโหลดไฟล์นั้นโดยตรง — อย่าแปลงเป็น mono ก่อน เราตรวจหาสองช่องและส่งหนึ่งไปยัง diarization track ของตัวเอง ซึ่งเป็น highest-accuracy path ที่เรามี ต่อให้คาดหวัง 96%+ ในห้องเงียบ
03บทสัมภาษณ์ที่บันทึกผ่านสายเรียนโทรศัพท์ล่ะ?+
เสียงโทรศัพท์เป็น 8 kHz narrow-band ซึ่ง cap accuracy ประมาณ 88% แม้ในสาย clean เรายังคง split สองฝ่ายโดยใช้ channel separation หากแอป recorder ของคุณจับพวกเขา separately (ส่วนใหญ่ทำ) VoIP call ผ่าน WhatsApp หรือ Signal ฟังดูดีนิดหน่อยกว่า PSTN
04ฉันสามารถ redact off-the-record sections ก่อนแชร์ transcript?+
ใช่ ใน editor เลือก timestamp range และทำเครื่องหมาย `[REDACTED]` export ทดแทนข้อความด้วย redaction marker แต่เก็บ timestamps ดังนั้นเอกสารยังติดตาม audio อยู่
05คุณฝึก model บน interview recording ของฉันหรือเปล่า?+
ไม่ เสียงต้นฉบับถูกลบออกจาก infrastructure ของเราภายใน 24 ชั่วโมงหลังเสร็จ และเราไม่ใช้ customer recording สำหรับ model training ภายใต้แผนใด transcript text นอนอยู่ในบัญชีของคุณจนกว่าคุณจะลบ
06สามหรือสี่คนในสัมภาษณ์แนว panel — diarization ยังใช้ได้หรือเปล่า?+
ถึงประมาณหกเสียงที่แตกต่าง ใช่ แต่ accuracy บนการกำหนด speaker ลดลงด้วยแต่ละคนที่เพิ่มเข้าโดยและลดลงเมื่อสองผู้พูดฟังดูคล้าย วางแผน 2–3 นาที rename pass บนช่องผู้พูดหลัง transcript ดินแดน
07คุณสามารถแปลงเสียงสัมภาษณ์เป็นภาษาอื่นนอกจากอังกฤษหรือเปล่า?+
99 ภาษา auto-detected Code-switching (English source ลื่นไถลไปเป็น Spanish mid-sentence) จัดการกับ 12 language pairs Accuracy แตกต่างแบบภาษา — ภาษาของยุโรปตรงกับอังกฤษ; ภาษา low-resource African และ Central Asian ทำงาน 5–10 points ต่ำกว่า
08ฉันบันทึกบน Zoom call — ฉันควร ใช้ Zoom page ของคุณแทนหรือเปล่า?+
Engine เดียวกัน ผลลัพธ์เดียวกัน Zoom page ครอบคลุม cloud-recording specifics (per-participant audio dial-in degradation) หากคุณทำสัมภาษณ์คนต่อคนผ่าน Zoom ทั้งสองเส้นทางใช้��ด้ — วาง MP4 แล้วป้ายชื่อผู้พูด ออกมาเหมือนเดิม

วาง interview recording ของคุณ ดูผลลัพธ์ที่ออกมา

30 free minutes ทุกเดือน ไม่ต้องใส่ card ป้ายชื่อผู้พูด 99 ภาษา export ทั้งหมดรวม

เริ่มฟรี