साक्षात्कार ट्रांसक्रिप्शन।कोई भी रिकॉर्डिंग, एक जैसा नतीजा।

फोन मेमो, Zoom कॉल, लैवलिएर रिग, या हैंडहेल्ड फील्ड रिकॉर्डर — साक्षात्कार रिकॉर्डिंग ड्रॉप करें और वक्ता-लेबल, टाइमस्टैम्प किया हुआ टेक्स्ट पाएं जिसे आप उद्धृत कर सकें।

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ देखें कि क्या आता है

दो आवाजें अंदर। दो आवाजें बाहर, लेबल किई हुई।

अधिकांश साक्षात्कार एक डिवाइस पर दो लोग होते हैं — टेबल पर फोन, आपके बीच रिकॉर्डर। हम एक भी मोनो चैनल से साक्षात्कार ऑडियो को पत्रकार और स्रोत में अलग करते हैं, फिर उद्धरण के लिए हर पारी को टाइमस्टैम्प करते हैं।

फील्ड रिकॉर्डर · WAVREC 2 वक्ता · 38:42
auto-detected en-US48 kHz mono · 1411 kbps
~90s
ट्रांसक्रिप्ट · स्ट्रीमिंग94% सटीकता
S1

क्या आप मुझे बता सकते हैं कि आपने अठारहवीं सुबह क्या देखा?

S2

मैं लगभग छह बजे पहुंचा। लोडिंग बे का दरवाजा पहले से ही खुला था, जो नहीं होना चाहिए था।

S1

और आपने दरवाजे की समस्या पहले रिपोर्ट की थी — किसे?

S2

Diane Okafor को सुविधाओं में, मार्च में दो बार। मेरे पास ईमेल हैं।

field WAV पर 94%DOCX · TXT · SRT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

तीन वास्तविक विकल्प · ईमानदार तुलना

Rev मानव। Otter या Trint। या हम।

Rev आपके ऑडियो को मानव ट्रांसक्राइबर को भेजता है — धीमा और महंगा लेकिन कठिन ऑडियो पर उच्च गुणवत्ता। Otter और Trint हमारी तरह AI-प्रथम हैं, पत्रकारों और शोधकर्ताओं के लिए ट्यून किए गए। यहां प्रत्येक कहां फिट बैठता है।

Option 01

Rev मानव ट्रांसक्रिप्शन

असल लोग आपके साक्षात्कार को टाइप कर रहे हैं। कठिन ऑडियो पर सर्वश्रेष्ठ, लेकिन आप प्रतीक्षा करते हैं और आप भुगतान करते हैं।

पूर्ण होने का समय12–24 घंटे आमतौर पर
स्वच्छ ऑडियो पर सटीकता99% (दावा किया गया)
वक्ता लेबलमैनुअल, शामिल
भाषाएंEN मानव · 30+ AI
लागत · प्रति मिनट$1.50 मानव · $0.25 AI
गोपनीयताऑडियो ठेकेदारों को भेजा गया
Best forकोर्ट-बाउंड या प्रकाशन-महत्वपूर्ण साक्षात्कार कठिन ऑडियो पर जहां आपको एक मानव कान की जरूरत है और प्रतीक्षा करने का समय है।
Option 02

Transcription.Solutions

AI ट्रांसक्रिप्ट, वक्ता-विभाजित, मिनटों में तैयार। फोन मेमो, Zoom, या फील्ड रिकॉर्डर के लिए एक ही इंजन।

पूर्ण होने का समय~3 मिनट प्रति घंटा ऑडियो
स्वच्छ ऑडियो पर सटीकता94–96%
वक्ता लेबलस्वचालित · संपादक में नाम बदलें
भाषाएं99, स्वचालित-पहचाना
लागत · प्रति मिनट$0.03
गोपनीयताऑडियो 24h में हटाया गया · कोई प्रशिक्षण नहीं
Best forपत्रकार, शोधकर्ता, और निर्माता जो प्रति सप्ताह कई साक्षात्कार करते हैं जिन्हें तेजी से, उद्धृत टेक्स्ट चाहिए बिना ठेकेदार को अपलोड किए।
Option 03

Otter / Trint

रिसर्च-केंद्रित संपादक के साथ AI ट्रांसक्रिप्शन। अंग्रेजी-मजबूत, मासिक योजनाओं तक सीमित।

पूर्ण होने का समयवास्तविक समय से ~5 मिनट
स्वच्छ ऑडियो पर सटीकता~90–93%
वक्ता लेबलहां · EN-ट्यून किया गया
भाषाएंOtter EN-केवल · Trint 30+
लागत$17–80/यूजर/माह (सदस्यता)
गोपनीयताडिफ़ॉल्ट रूप से खाते में संग्रहीत
Best forटीमें जो कभी भी रिकॉर्ड किए गए हर साक्षात्कार की एक होस्टेड लाइब्रेरी चाहती हैं और प्रति यूजर मासिक सीट फीस का मन नहीं करती हैं।

मूल्य निर्धारण और फीचर फ्लैग 2026 तक सटीक हैं। Rev मानव टर्नअराउंड कतार गहराई और ऑडियो लंबाई के आधार पर भिन्न होता है।

साक्षात्कार के लिए विशिष्ट

तीन चीजें जो लोगों को जेनेरिक ट्रांसक्रिप्शन टूल्स पर काटती हैं।

साक्षात्कार ऑडियो शायद ही कभी स्वच्छ होता है। इन सेटिंग्स को फ्लिप करें और ट्रांसक्रिप्ट उद्धरण के तहत मजबूत रहता है।

क्या गलत होता है

  1. 1एकल चैनल पर क्रॉस-टॉक। जब आपका स्रोत जोरदार हो जाता है और आपके प्रश्न के ऊपर बोलता है, तो जेनेरिक डायरिजेशन दोनों को एक वक्ता ब्लॉक में मिला देता है।
  2. 2स्रोत नाम और स्थान (Okafor, Tigray, Maranello) फोनेटिक आते हैं। ट्रांसक्रिप्ट के विरुद्ध तथ्य-जांच के लिए बेकार।
  3. 3ऑफ-द-रिकॉर्ड क्षण उद्धृत सामग्री के संबंध में एक ही ट्रांसक्रिप्ट में समाप्त होते हैं — एक क्षेत्र को रिडैक्ट के रूप में चिह्नित करने का कोई तरीका नहीं।

यहां क्या फ्लिप करें

  1. 1यदि आपका फील्ड रिकॉर्डर एक दो-चैनल WAV लिखता है (एक माइक प्रति ट्रैक), उस फाइल को सीधे अपलोड करें। हम प्रति-चैनल का पता लगाते हैं और डायरिजेशन को पूरी तरह से छोड़ देते हैं।
  2. 2अपनी प्रस्तुत नोट्स — स्रोत नाम, संगठन, स्थान नाम — को जॉब फॉर्म पर कस्टम शब्दावली में पेस्ट करें। रिकग्नाइजर उन्हें ज्ञात उचित संज्ञा के रूप में मानता है।
  3. 3ट्रांसक्रिप्ट आने के बाद, संपादक में एक क्षेत्र को ऑफ-रिकॉर्ड के रूप में चिह्नित करें। यह DOCX और TXT में `[REDACTED 14:22–15:08]` के रूप में निर्यात करता है, स्रोत ऑडियो 24 घंटे में हटा दिया जाता है भले ही।

साक्षात्कार के लिए अनुशंसित जॉब सेटिंग्स

एक साक्षात्कार फाइल ड्रॉप करें और ये डिफ़ॉल्ट रूप से फ्लिप हो जाते हैं। फॉर्म से प्रति-जॉब ओवरराइड करें।

डायरिजेशन
स्टीरियो अगर प्रति-चैनल · अन्यथा ध्वनिक
वक्ता मॉडल
साक्षात्कार · 2–4 वक्ता
भाषा
स्वचालित-पहचान · कोड-स्विच चालू
फिलर शब्द
रखा गया (शब्दशः मोड)
सारांश
मुख्य उद्धरण + विषय सूचकांक
निर्यात
टाइमस्टैम्प के साथ DOCX · सादा TXT · JSON

Accuracy · real-world numbers

अच्छे लैव पर 96%। कैफे रिकॉर्डिंग पर भी पठनीय।

साक्षात्कार सटीकता इसके द्वारा सीमित है कि माइक ने वास्तव में क्या सुना। प्रत्येक वक्ता पर क्लोज-माइक स्टीरियो छत है; एक फोन एक शोरगुल वाली टेबल पर बैठा है यह फर्श है। नीचे दी गई संख्याएं सिंथेटिक बेंचमार्क नहीं, उत्पादन साक्षात्कार फाइलों से आती हैं।

96%
दोहरी लैवलिएर · स्टूडियो शांत

प्रत्येक वक्ता के लिए एक माइक, अलग चैनल (Zoom H5/H6, Tascam DR-40)। डायरिजेशन तुच्छ है — त्रुटि केवल टेक्स्ट है।

94%
टेबल पर हैंडहेल्ड रिकॉर्डर

दो वक्ताओं के बीच एकल कंडेनसर, शांत कमरा। ध्वनिक डायरिजेशन 4 फीट के अंदर आवाजों को विश्वसनीय रूप से अलग करता है।

90%
फोन वॉयस मेमो · करीब

iPhone या Pixel वॉयस मेमो टेबल पर। नाम और नंबर कभी-कभी मिस होते हैं; गति उद्धरण के लिए ठीक है।

84%
फील्ड रिकॉर्डिंग · कैफे या सड़क

एस्प्रेसो मशीनें, ट्रैफिक, पास के तीसरे आवाजें। हमारे डेटा में सबसे खराब स्थिति — नेविगेशन के लिए उपयोगी, ऑडियो के विरुद्ध उद्धरण सत्यापित करें।

सामान्य प्रश्न

साक्षात्कार ट्रांसक्रिप्शन के बारे में 8 चीजें जो लोग पूछते हैं।

01क्या मैं इन ट्रांसक्रिप्ट्स को ऑडियो के विरुद्ध सत्यापित किए बिना एक प्रकाशित लेख में उपयोग कर सकता हूं?+
सीधे उद्धरणों के लिए — नहीं, हमेशा ऑडियो के विरुद्ध सत्यापित करें। 94% सटीकता पर AI ट्रांसक्रिप्ट्स औसत पर हर 17 शब्दों में से एक को गलत पढ़ते हैं, और एक उद्धरण में गलत शब्द एक सुधार है। ट्रांसक्रिप्ट नेविगेशन और ड्राफ्टिंग के लिए है; ऑडियो सत्य स्रोत है।
02मेरे रिकॉर्डर ने प्रति वक्ता एक माइक के साथ एक स्टीरियो WAV सहेजा। मैं क्या करूं?+
उस फाइल को सीधे अपलोड करें — पहले मोनो में कनवर्ट न करें। हम दो चैनलों का पता लगाते हैं और प्रत्येक को अपने स्वयं के डायरिजेशन ट्रैक में रूट करते हैं, जो हमारे पास उच्चतम-सटीकता पाथ है। शांत कमरे पर 96%+ की अपेक्षा करें।
03एक फोन कॉल पर रिकॉर्ड किए गए साक्षात्कार के बारे में क्या?+
फोन ऑडियो 8 kHz नैरोबैंड है, जो यहां तक कि एक स्वच्छ लाइन पर भी लगभग 88% सटीकता को सीमित करता है। हम अभी भी चैनल पृथक्करण का उपयोग करके दोनों पक्षों को विभाजित करते हैं यदि आपका रिकॉर्डर ऐप उन्हें अलग से कैप्चर करता है (अधिकांश करते हैं)। WhatsApp या Signal पर VoIP कॉल PSTN से थोड़ा बेहतर लगती है।
04क्या मैं साझा करने से पहले ऑफ-द-रिकॉर्ड अनुभाग को रिडैक्ट कर सकता हूं?+
हां। संपादक में, टाइमस्टैम्प श्रेणी का चयन करें और इसे `[REDACTED]` चिह्नित करें। निर्यात ऑडियो के साथ ट्रैकिंग जारी रखने के लिए टेक्स्ट को एक रिडैक्शन मार्कर से बदलता है लेकिन टाइमस्टैम्प रखता है।
05क्या आप मेरी साक्षात्कार रिकॉर्डिंग पर मॉडल प्रशिक्षित करते हैं?+
नहीं। स्रोत ऑडियो पूरा होने के 24 घंटे के भीतर हमारे इंफ्रास्ट्रक्चर से हटा दिया जाता है, और हम किसी भी योजना के तहत मॉडल प्रशिक्षण के लिए ग्राहक रिकॉर्डिंग का उपयोग नहीं करते हैं। ट्रांसक्रिप्ट टेक्स्ट आपके खाते में तब तक रहता है जब तक आप इसे हटा न दें।
06एक पैनल साक्षात्कार पर तीन या चार लोग — क्या डायरिजेशन अभी भी काम करता है?+
लगभग छह विशिष्ट आवाजों तक, हां, लेकिन प्रत्येक जोड़े गए व्यक्ति के साथ वक्ता असाइनमेंट पर सटीकता ड्रॉप होता है और जब दो वक्ता समान लगते हैं तो बदतर हो जाता है। ट्रांसक्रिप्ट आने के बाद वक्ता चिप्स पर 2–3 मिनट का नाम बदलने का पास योजना बनाएं।
07क्या आप अंग्रेजी के अलावा अन्य भाषाओं में साक्षात्कार ट्रांसक्राइब कर सकते हैं?+
99 भाषाएं, स्वचालित-पहचानी जाती हैं। कोड-स्विचिंग (अंग्रेजी स्रोत मध्य-वाक्य में स्पेनिश में फिसलना) 12 भाषा जोड़े में संभाला जाता है। सटीकता भाषा के आधार पर भिन्न होती है — यूरोपीय भाषाएं अंग्रेजी से मेल खाती हैं; कम-संसाधन अफ्रीकी और मध्य एशियाई भाषाएं 5–10 अंक कम चलती हैं।
08मैं Zoom कॉल पर रिकॉर्ड करता हूं — क्या मुझे इसके बजाय आपका Zoom पेज उपयोग करना चाहिए?+
समान इंजन, समान परिणाम। Zoom पेज क्लाउड-रिकॉर्डिंग विशिष्टताएं कवर करता है (प्रति-प्रतिभागी ऑडियो, डायल-इन गिरावट)। यदि आप Zoom पर एक बार में एक साक्षात्���ार आयोजित कर रहे हैं, तो या तो पाथ काम करता है — MP4 को यहां ड्रॉप करें और वक्ता लेबल उसी तरीके से आते हैं।

अपनी साक्षात्कार रिकॉर्डिंग ड्रॉप करें। देखें कि क्या आता है।

हर महीने 30 मुफ्त मिनट। कोई कार्ड नहीं। वक्ता लेबल, 99 भाषाएं, सभी निर्यात शामिल।

मुफ्त शुरू करें