MP3 به متن — تبدیل MP3 به متن یا رونویسی صدای MP3، سریع

رونویسی MP3 به متن.برچسب‌های سخنران، 100+ زبان.

فایل MP3 را در هر نرخ بیتی از 64 تا 320 kbps رها کنید. نسخه‌خوانی با مهر زمانی و برچسب سخنران در 99 زبان دریافت کنید — بدون تبدیل فرمت، بدون کدگذاری مجدد، بدون انتظار در صف.

صدا یا ویدیویتان را رها کنید

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

مستقیم از مرورگر ضبط کنید

ثبت‌نام ۳۰ ثانیه طول می‌کشد — بلافاصله بعدش، ضبط داخل داشبورد باز می‌شود.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTفایل‌ها در ۲۴ ساعت خودکار حذف می‌شوند

MP3 ورودی. نسخه‌خوانی جدایی‌شده خروجی.

ما هدرهای فریم MP3 ر�� می‌خوانیم — VBR، CBR، joint-stereo، هر کدکننده‌ای (LAME، Fraunhofer، FFmpeg). اگر فایل استریوی واقعی باشد و سخنرانان در کانال‌های جداگانه‌ای باشند، از آن برای تفکیک صدا استفاده می‌کنیم. مونو mix-down بر دیاریزاسیون آکوستیک بازمی‌گردد.

interview-tape-04.mp3REC 192 kbps · استریو · 38:42

تشخیص خودکار en-GB44.1 kHz · LAME 3.100

~90s

رونویسی · پخش مستقیمدقت 95%

پس چه وقت متوجه شدید که آرشیو ناقص است؟

احتمالاً حوالی 2019، وقتی‌ شروع کردیم به دیجیتالی‌سازی نوار‌های صوتی.

و نوار‌های گمشده — آیا جایی فهرست‌بندی شده بودند؟

یک فهرست کاغذی از سال 78 وجود دارد، اما نیمی‌اش آب‌خورده است.

95% روی 192 kbps استریوSRT · DOCX · TXT · JSON · VTT

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

خلاصه 5متن پیاده‌شده 1,420گوینده‌ها 2خروجی‌ها

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

نکات کلیدی

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

چه کارهایی باید انجام شود

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Whisper رایگان محلی. Otter یا Sonix. یا ما.

شما می‌توانید Whisper را بر روی لپ‌تاپ خود رایگان اجرا کنید اگر تکنیکی باشید. Otter و Sonix آپلود MP3 را درون داشبوردهای subscription قبول می‌کنند. ما فایل را می‌گیریم، نسخه‌خوانی را برمی‌گردانیم، و شما را مجبور نمی‌کنیم درون یک UI زندگی کنید.

Option 01

Whisper محلی / منبع باز

رایگان اگر GPU داشته باشید و یک بعدازظهر وقت داشته باشید. دیاریزاسیون سخنران در جعبه‌ی اصلی گنجانیده نشده است.

راه‌اندازیPython + CUDA + مدل‌های 10 GB

دیاریزاسیون سخنرانگنجانیده نشده (افزونه pyannote)

سرعت · 1 ساعت MP35–40 دقیقه روی GPU مصرف‌کننده

زبان‌ها99، اما مدل کوچک زیر 80% می‌افتد

صادراتTXT / SRT / VTT / JSON

هزینهرایگان + برق شما

Best forمهندسانی که از قبل GPU دارند، برچسب سخنران نمی‌خواهند، و می‌خواهند حریم‌خصوصی کامل محلی.

Option 02

Transcription.Solutions

فایل را رها کنید. متن برچسب‌شده به دست بیاورید در حدود زمان واقعی × 0.025.

راه‌اندازیکشش و رها کردن، حساب نیازی نیست برای امتحان

دیاریزاسیون سخنرانداخلی (پلن‌های Pro و Business)

سرعت · 1 ساعت MP3~90 ثانیه

زبان‌ها99، تشخیص خودکار

صادراتSRT · VTT · DOCX · TXT · JSON

هزینه · فی دقیقه$0.03

Best forهر کسی با MP3 — نوار خبرنگاری، صادرات پادکست، یادداشت صوتی، دوبله آرشیو — که می‌خواهد متن دقیق در خروجی.

Option 03

Otter / Sonix

داشبورد لطیف‌منظر، سقف دقیقه‌های ماهانه، تنظیم‌شده برای انگلیسی. آپلود فایل احساس می‌کند یک ویژگی جانبی.

راه‌اندازیحساب + پلن پولی

دیاریزاسیون سخنرانآکوستیک، EN-oriented

سرعت · 1 ساعت MP35–10 دقیقه در صف

زبان‌هاOtter تنها انگلیسی؛ Sonix ~40

صادراتدرپشت لایه‌های پولی

هزینه$17+/ماه یا $10+/ساعت (Sonix)

Best forتیم‌هایی که می‌خواهند ویرایشگر رونویسی و UI همکاری بیش‌تر از جریان پاک file→text.

قیمت‌گذاری و دسترسی ویژگی‌ها تا می 2026 دقیق هستند. عملکرد Whisper بسته به اندازه مدل و سخت‌افزار متغیر است.

95%+ روی 192 kbps استریو. قابل استفاده تا 64 kbps مونو.

دقت MP3 توسط آن چیزی که کدکننده نگهداشت محدود است، نه توسط ما. فشرسازی ادراکی بالای ~96 kbps خوانایی گفتار را بسیار خوب حفظ می‌کند؛ در زیر 64 kbps، sibilant‌ها و همخوان‌ها شروع به حل شدن می‌کنند. اعداد زیر از MP3 واقعی مشتری در تولید هستند.

8 سؤالی که مردم پرسند. درباره رونویسی MP3

01حداقل نرخ بیتی MP3 که هنوز رونویسی قابل استفاده است؟+

64 kbps کف عملی است. در زیر آن، sibilant‌ها (s، sh، f) به نویز فشرسازی می‌شوند و خطای کلمه به بالای 20% می‌رود. اگر record جدید می‌کنید، 128 kbps مونو یا 192 kbps استریو را هدف قرار دهید — هر چیز بالاتر برای گفتار بیش‌تر از حد کافی است.

02آیا باید MP3 خود را به WAV تبدیل کنم؟+

نه. کدگذاری مجدد MP3 → WAV دقت صفر می‌افزاید زیرا داده‌ای که کدکننده دور ریخت برای همیشه رفته است. MP3 را مستقیماً آپلود کنید. ما فریم‌ها را درحافظه رمزگشایی می‌کنیم و PCM را به تشخیص‌کننده تغذیه می‌کنیم.

03آیا استریوی MP3 برچسب‌های سخنران بهتر از مونو دریافت می‌دارند؟+

تنها اگر سخنرانان واقعاً روی کانال‌های ج��اگانه‌ای ضبط شوند — بیشتر MP3‌های استریو صدایی یکسان در هر دو طرف دارند ('dual mono') و چیز بهتری کسب نمی‌کنند. تقسیم کانال واقعی (به عنوان مثال صادرات Riverside، ریگ‌های دو میکروفن) ما را اجازه می‌دهد دیاریزاسیون آکوستیک را رد کنیم و سخنرانان را تقریباً کامل برچسب‌دار کنیم.

04حداکثر اندازه فایل MP3 که قبول می‌کنید؟+

5 GB در هر آپلود، که تقریباً 60 ساعت در 192 kbps یا 90 ساعت در 128 kbps است. اگر فایل بزرگ‌تر باشد آپلود به‌صورت چند‌بخشی را نشان می‌دهیم — نیازی نیست خود را تقسیم کنید.

05یک MP3 60 دقیقه‌ای چقدر طول می‌کشد تا رونویسی شود؟+

معمولاً 90 ثانیه از آپلود-تکمیل تا رونویسی-آماده، صرف‌نظر از نرخ بیتی. رمزگشایی فریم‌های MP3 سریع است؛ زمان در تشخیص‌کننده است. دیاریزاسیون 5-10 ثانیه در فایل‌های چند سخنران می‌افزاید.

06MP3 من موسیقی پس‌زمینه دارد — آیا رونویسی خراب خواهد شد؟+

موسیقی خاموش تحت گفتار خوب است. موسیقی بلند که با صدا رقابت می‌کند (آهنگ‌های intro، scoring زیر مصاحبه) گاه‌گاه خطأهای تشخیص‌دهی را روی حروف م‌تداخل‌کننده مشعل می‌زند. تغییر سرکوبی موسیقی را روی فرم شغل toggle کنید برای پیش‌فیلتر کردن.

07آیا می‌توانید MP3‌های ریپ‌شده از صدای تلفن یا دستگاه پاسخ‌دهنده را مدیریت کنید؟+

بله، اگرچه این اغلب 8 کیلوهرتز باند‌محدود و کدگذاری مجدد به عنوان MP3 هستند — سقف کیفیت صدا توسط ضبط PSTN اصلی تنظیم می‌شود، نه پوسته MP3. دقت 78-85% را در این نوع منبع انتظار داشته باشید، که همان است که در تماس زیرِ درونی کسب می‌کنیم.

08آیا MP3 من را بعد از انجام رونویسی نگاه می‌دارید؟+

فایل‌ها به صورت پیش‌فرض پس از 30 روز حذف می‌شوند، یا بلافاصله با درخواست از طریق داشبورد. رونویسی تا زمان حذف آن در حساب شما باقی می‌ماند. ما از صدای مشتری برای آموزش هیچ مدلی استفاده نمی‌کنیم — هرگز.