انٹرویو ٹرانسکرپشن — انٹرویو کو speaker labels اور timestamps کے ساتھ ٹرانسکرائب کریں

انٹرویو ٹرانسکرپشن۔مختلف recording، ایک جیسا نتیجہ۔

Phone memo، Zoom call، lavalier rig، یا handheld field recorder — انٹرویو recording ڈراپ کریں اور speaker-labeled، timestamped ٹیکسٹ حاصل کریں جس کا آپ حوالہ دے سکیں۔

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

دو voices اندر جاتے ہیں۔ دو voices باہر نکلتی ہیں، labeled۔

زیادہ تر انٹرویوز ایک device پر دو لوگ ہوتے ہیں — ایک phone ٹیبل پر، ایک recorder آپ کے درمیان۔ ہم انٹرویو audio کو ایک mono channel سے بھی reporter اور source میں الگ کرتے ہیں، پھر citation کے لیے ہر turn کو timestamp کرتے ہیں۔

Field recorder · WAVREC 2 speakers · 38:42

auto-detected en-US48 kHz mono · 1411 kbps

~90s

Transcript · streaming94% درستگی

کیا آپ مجھے بتا سکتے ہیں کہ اٹھارہویں کی صبح کیا دیکھا؟

میں چھے بجے پہنچا۔ loading bay کا دروازہ پہلے سے کھلا تھا، جو ہونا نہیں چاہیے تھا۔

اور آپ نے دروازے کے مسئلے کی پہلے بھی رپورٹ کی تھی — کس سے؟

Diane Okafor سے facilities میں، مارچ میں دو بار۔ میرے پاس emails ہیں۔

94% field WAV پرDOCX · TXT · SRT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2Exports

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Action items

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Rev human۔ Otter یا Trint۔ یا ہم۔

Rev آپ کی audio کو human transcribers کے پاس بھیجتا ہے — سست اور مہنگا لیکن سخت audio پر high fidelity۔ Otter اور Trint ہماری طرح AI-first ہیں، journalists اور researchers کے لیے تیار۔ یہاں ہر ایک کے لیے kya fit کرتا ہے۔

Option 01

Rev human transcription

اصل لوگ آپ کے انٹرویو کو ٹائپ کرتے ہیں۔ سخت audio پر بہترین، لیکن آپ انتظار کرتے ہیں اور ادا کرتے ہیں۔

Turnaround12–24 گھنٹے عام طور پر

صاف audio پر درستگی99% (دعویٰ)

Speaker labelsManual، شامل

زبانیںEN human · 30+ AI

Cost · فی منٹ$1.50 human · $0.25 AI

رازداریAudio contractors کو بھیجی جاتی ہے

Best forCourt-bound یا publication-critical انٹرویوز سخت audio پر جہاں آپ کو انسانی کان چاہیے اور انتظار کرنے کا وقت ہو۔

Option 02

Transcription.Solutions

AI transcript، speaker-split، منٹوں میں تیار۔ phone memo، Zoom، یا field recorder کے لیے ایک جیسا engine۔

Turnaround~3 منٹ فی گھنٹہ audio

صاف audio پر درستگی94–96%

Speaker labelsAuto · editor میں rename کریں

زبانیں99، auto-detected

Cost · فی منٹ$0.03

رازداریAudio 24h میں حذف · کوئی تربیت نہیں

Best forصحافی، محققین، اور پروڈیوسرز ہفتہ وار متعدد انٹرویو کرتے ہیں جنہیں تیزی سے، قابل حوالہ ٹیکسٹ چاہیے بغیر contractor کو upload کیے۔

Option 03

Otter / Trint

AI transcription research-oriented editor کے ساتھ۔ English-strong، monthly plans پر بند۔

TurnaroundReal-time سے ~5 منٹ

صاف audio پر درستگی~90–93%

Speaker labelsہاں · EN-tuned

زبانیںOtter EN-only · Trint 30+

Cost$17–80/user/ماہ (subscription)

رازداریڈیفالٹ account میں محفوظ

Best forTeams جو ہر انٹرویو کی ہوسٹ شدہ لائبریری چاہتے ہیں اور ہر user کے لیے monthly seat fee سے قطع نظر ہیں۔

Pricing اور feature flags 2026 کے طور پر درست۔ Human Rev turnaround queue depth اور audio length کے لحاظ سے مختلف ہوتا ہے۔

96% ایک اچھے lav پر۔ Cafe recording پر بھی قابل فہم۔

انٹرویو accuracy اس سے محدود ہے جو mic نے حقیقی طور پر سنا۔ ہر speaker پر close-mic stereo سب سے اوپر ہے؛ ایک phone noisy table پر سب سے نیچے۔ نیچے کے نمبرز production انٹرویو فائلوں سے آتے ہیں، synthetic benchmarks سے نہیں۔

8 چیزیں جو لوگ پوچھتے ہیں۔ انٹرویو ٹرانسکرپشن کے بارے میں

01کیا میں شائع شدہ آرٹیکل میں audio کے خلاف تصدیق کیے بغیر یہ transcripts استعمال کر سکتا ہوں؟+

سیدھے quotes کے لیے — نہیں، ہمیشہ audio کے خلاف تصدیق کریں۔ 94% accuracy پر AI transcripts اب بھی اوستاً 17 میں سے ایک لفظ کو غلط پڑھتے ہیں، اور ایک quote میں غلط لفظ ایک correction ہے۔ Transcript navigation اور drafting کے لیے ہے؛ audio سچائی کا ذریعہ ہے۔

02میرا recorder نے ایک stereo WAV save کیا جس میں ایک mic فی speaker ہے۔ مجھے کیا کرنا چاہیے؟+

وہ فائل سیدھے upload کریں — پہلے mono میں تبدیل نہ کریں۔ ہم دونوں channels detect کرتے ہیں اور ہر ایک کو اپنی diarization track میں route کرتے ہیں، جو ہمارے پاس highest-accuracy راستہ ہے۔ Quiet room پر 96%+ کی توقع رکھیں۔

03Phone call کے ذریعے ریکارڈ کیے گئے انٹرویوز کے بارے میں کیا؟+

Phone audio 8 kHz narrow-band ہے، جو clean line پر بھی 88% کے آس پاس accuracy کو محدود کرتا ہے۔ ہم اب بھی دونوں parties کو channel separation استعمال کرتے ہوئے split کرتے ہیں اگر آپ کی recorder app نے انہیں الگ capture کیا (زیادہ تر کرتے ہیں)۔ VoIP calls WhatsApp یا Signal پر PSTN سے تھوڑا بہتر سنائی دیتے ہیں۔

04کیا میں sharing سے پہلے off-the-record sections کو redact کر سکتا ہوں؟+

ہاں۔ Editor میں، timestamp range کو select کریں اور اسے `[REDACTED]` کے طور پر mark کریں۔ Export redaction marker کے ساتھ ٹیکسٹ کو تبدیل کرتا ہے لیکن timestamps رکھتا ہے تاکہ document اب بھی audio کو ٹریک کرے۔

05کیا آپ میرے انٹرویو recordings پر models کو train کرتے ہیں؟+

نہیں۔ Source audio مکمل ہونے کے 24 گھنٹوں میں ہماری infrastructure سے حذف ہوتا ہے، اور ہم کسی بھی plan کے تحت model training کے لیے customer recordings استعمال نہیں کرتے۔ Transcript ٹیکسٹ آپ کے account میں آپ کے حذف کرنے تک رہتا ہے۔

06Panel interview میں تین یا چار لوگ — کیا diarization اب بھی کام کرتا ہے؟+

تقریباً چھے distinct voices تک، ہاں، لیکن ہر شخص کے ساتھ speaker assignment پر accuracy گرتی ہے اور دو speakers جیسے سنائی دینے والے وقت بدتر ہوتی ہے۔ Transcript آنے کے بعد speaker chips پر 2–3 منٹ کا rename pass منصوبہ بنائیں۔

07کیا آپ انگریزی کے علاوہ دوسری زبانوں میں انٹرویوز ٹرانسکرائب کر سکتے ہیں؟+

99 زبانیں، auto-detected۔ Code-switching (انگریزی source درمیان میں ہسپانوی میں پھسل جانا) 12 language pairs میں handled ہے۔ Accuracy زبان کے لحاظ سے مختلف ہوتی ہے — European زبانیں انگریزی سے match کرتی ہیں؛ low-resource African اور Central Asian زبانیں 5–10 نقاط کم ہوتی ہیں۔

08میں Zoom call پر record کرتا ہوں — کیا مجھے بجائے اپنے Zoom page کو استعمال کرنا چاہیے؟+

ایک جیسا engine، ایک جیسا نتیجہ۔ Zoom page cloud-recording specifics (per-participant audio، dial-in degradation) کو cover کرتا ہے۔ اگر آپ ایک وقت میں ایک انٹرویو Zoom کے ذریعے کر رہے ہیں، دونوں paths کام کرتے ہیں — MP4 یہاں ڈراپ کریں اور speaker labels ایک جیسے نکلتے ہیں۔