Phiên âm tệp âm thanh dài tới 10 giờ — chuyển đổi giọng nói thành văn bản, không có hết thời gian chờ

Phiên âm tệp âm thanh dài.Tới 10 giờ. Không có hết thời gian chờ.

Thả một tệp âm thanh dài — lên tới 10 giờ, 5 GB trên Business. Chúng tôi cắt nhỏ song song, giữ ID người nói nhất quán từ đầu cuối, và trả lại một bản phiên âm thay vì một thư mục được đánh số.

Thả audio hoặc video của bạn vào

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Ghi âm thẳng từ trình duyệt

Đăng ký mất 30 giây — ghi âm mở ra ngay sau đó, trong dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFile tự xoá sau 24h

Hàng giờ. Một tệp sạch đẹp ra ngoài.

Hầu hết các công cụ hết thời gian chờ quanh mốc 90 phút hoặc chia bản ghi dài của bạn thành các phần không hoàn chỉnh được đánh số mà bạn phải ghép lại. Chúng tôi cắt nhỏ thành các cửa sổ chồng lấp 12 phút, xử lý song song, và tái lắp ráp bằng một lần chuyển người nói toàn cầu.

Phiên họp chiến lược hội đồngREC 3 người nói · 5:14:22 · 3.1 GB

tự động phát hiện en-GB44.1 kHz stereo · 192 kbps

~90s

Bản phiên âm · tệp duy nhấtĐộ chính xác 92% · t=3:14:08

Chúng tôi đã ba giờ rồi — hãy quay lại điểm chuỗi cung ứng từ phiên sáng.

Đúng, việc chuyển hướng sản xuất ở Việt Nam. Tôi nghĩ chúng ta đã bỏ qua rủi ro thời gian dẫn.

Thời gian dẫn đã tăng từ 14 lên 31 ngày sau thay đổi thuế.

Và đó là trước khi chúng ta tính đến tình trạng tắc cảng ở Long Beach.

92% trên toàn bộ tệp 5hDOCX · SRT · TXT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Tóm tắt 5Bản phiên âm 1,420Người nói 2Xuất file

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Ý chính

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Việc cần làm

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Otter Pro. DIY Whisper chunking. Hoặc chúng tôi.

Các công cụ tiêu dùng giới hạn độ dài tệp và cắt ngắn âm thầm. Whisper API có giới hạn 25 MB cho mỗi yêu cầu, vì vậy bạn phải xây dựng bộ cắt nhỏ của riêng mình. Chúng tôi chấp nhận toàn bộ tệp 10 giờ và trả lại một bản phiên âm.

Option 01

Otter Pro

Giới hạn tệp dài tối đa 4 giờ cho mỗi bản ghi. Nhãn người nói drifts sau m��c 2 giờ.

Độ dài tệp tối đa4 giờ (Pro tier)

Kích thước tệp tối đa~1.5 GB tải lên

ID người nói từ đầu cuốiDrifts sau 2 giờ

Đầu ra tệp dàiTài liệu duy nhất, cắt ngắn tại giới hạn

Chi phí$16.99/người dùng/tháng

Tải lên có thể tiếp tụcKhông

Best forCác cuộc họp ngắn dưới 2 giờ. Sụp đổ trên các bản ghi cả ngày.

Option 02

Transcription.Solutions

10 giờ cho mỗi tệp. Chunking song song, lần chuyển người nói toàn cầu, một DOCX ra ngoài.

Độ dài tệp tối đa10 giờ (Pro & Business)

Kích thước tệp tối đa2 GB Pro · 5 GB Business

ID người nói từ đầu cuốiLần chuyển nhúng toàn cầu

Đầu ra tệp dàiTệp duy nhất · DOCX/SRT/TXT

Chi phí · mỗi phút$0.03 cố định bất kể độ dài

Tải lên có thể tiếp tụcMultipart, tồn tại qua các lần drop

Best forCác hội thảo cả ngày, lịch sử miệng, cuộc họp hội đồng — bất kỳ thứ gì vượt quá vách 90 phút.

Option 03

Whisper API + DIY chunking

Giá rẻ nhất mỗi phút. Bạn xây dựng bộ cắt nhỏ, ghép người nói, và logic thử lại.

Độ dài tệp tối đa25 MB mỗi yêu cầu (~25 phút)

Kích thước tệp tối đaGiới hạn cứng 25 MB

ID người nói từ đầu cuốiKhông — không diarization

Đầu ra tệp dàiCác phần được đánh số, bạn ghép

Chi phí · mỗi phút$0.006 (OpenAI Whisper)

Thời gian kỹ thuậtHàng giờ đến ngày cho mỗi đường ống

Best forKỹ sư muốn văn bản thô cho mỗi khối và không cần người nói, tóm tắt hoặc một đầu ra duy nhất.

Giá cả và giới hạn chính xác tính đến tháng 5 năm 2026. Giới hạn độ dài Otter Pro được xác minh lần cuối trên trang giá công khai của họ.

92% duy trì trên toàn bộ tệp 5 giờ. Chất lượng không đổi từ giờ này sang giờ khác.

Phần khó với âm thanh dài không phải là mô hình — đó là giữ độ chính xác không đổi từ phút 1 đến phút 600. Sai lệch người nói và lỗi biên giới khối là những gì làm hỏng hầu hết các đường ống. Các số dưới đây được đo trên toàn bộ tệp khách hàng, không phải 10 phút đầu tiên.

8 điều mọi người hỏi về phiên âm âm thanh dài.

01Giới hạn độ dài tệp và kích thước thực tế là bao nhiêu?+

10 giờ cho mỗi tệp trên cả Pro và Business. Pro giới hạn kích thước tệp tối đa 2 GB, Business tối đa 5 GB. Nếu bạn có thứ gì đó dài hơn 10 giờ, chia nó một lần ở một nơi tự nhiên — chúng tôi sẽ giữ ID người nói nhất quán nếu bạn tải chúng lên liên tiếp trên cùng một dự án.

02Tôi nhận được một bản phiên âm hoặc một thư mục chứa các phần được đánh số?+

Một tệp. Luôn luôn. DOCX, SRT, TXT hoặc JSON — tùy chọn của bạn. Dấu thời gian chạy liên tục từ 00:00:00 đến cuối bản ghi, không reset tại mỗi biên giới khối.

03Một tệp 6 giờ mất bao lâu để trở lại?+

Khoảng 18-25 phút trên hàng đợi Pro, 8-12 ưu tiên Business. Chúng tôi xử lý các khối 12 phút song song, vì vậy thời gian treo tường được mở rộng đó không tuyến tính với độ dài tệp, không phải phút trên phút.

04ID người nói có giữ nguyên nhất quán từ đầu cuối không?+

Có. Sau diarization mỗi khối, một lần chuyển nhúng toàn cầu nhóm các giọng nói trên toàn bộ tệp. Người nói 3 ở phút 12 cũng là Người nói 3 ở phút 487. Đây là điều chính mà các đường ống Whisper DIY làm sai.

05Điều gì xảy ra nếu tải lên của tôi drop ở giờ 3 của tệp 4 GB?+

Tải lên multipart có thể tiếp tục tiếp tục từ phần đã hoàn thành cuối cùng. Bạn không tải lại 3 GB đầu tiên. Hoạt động trên Wi-Fi khách sạn kém ổn định và tethering di động — chúng tôi đã kiểm tra cả hai.

06Tại sao Whisper API chết on die trên các tệp dài?+

Điểm cuối OpenAI Whisper có một giới hạn cứng 25 MB cho mỗi yêu cầu — khoảng 25 phút âm thanh được nén. Bất kỳ thứ gì dài hơn đều cần bạn cắt nhỏ, phiên âm song song, sau đó ghép bản phiên âm và căn chỉnh người nói chính bạn. Chúng tôi làm tất cả điều đó phía máy chủ.

07Giá mỗi phút có giống nhau trên tệp 10 giờ như tệp 10 phút không?+

Có. $0.03 mỗi phút cố định, bất kể độ dài. Một tệp 10 giờ có giá $18. Chúng tôi không tính phí bổ sung cho tệp dài như Rev làm ($1.50/phút con người × 10 giờ = $900).

08Tôi có thể nhận đánh dấu chương hoặc dấu thời gian cứ sau mỗi giờ không?+

Bật 'Hour markers' trên biểu mẫu công việc và DOCX xuất với hộp tiêu đề mỗi 60 phút. SRT giữ mã thời gian liên tục. JSON có cả hai — mảng chương cộng với dấu thời gian cấp từ.