How accurate is the transcription?

On clear audio with one or two speakers, accuracy reaches 95%+ in most major languages. Quality drops with background noise, heavy accents, or overlapping speech.

What languages are supported?

100+ languages with automatic detection. You can also force a specific language if auto-detect picks the wrong one. The user interface is English-only.

How long do you keep my files?

Source media (the audio or video you uploaded) is deleted from our infrastructure within 24 hours after transcription completes. The transcript and summary stay in your account until you delete them, or 30 days after you delete your account.

Do you train models on my recordings?

No. The upstream speech-to-text provider has training opt-out by default for paid endpoints, which is what we use. We add nothing on top: no own models trained on your transcripts, no shadow analytics.

What happens if a job fails?

Your minutes are not deducted. Most failures (private URL, file too long, unsupported codec) come with a clear error message and retry guidance.

Yes — anytime from the Stripe customer portal. You keep your plan through the paid period, then drop to Free at the next renewal date.

What is the refund policy?

Full refund within 7 days if you have used less than 10% of your plan minutes. After that, pro-rated refunds for the unused portion. Email support@transcription.solutions.

Yes — REST API is live with webhooks. API key authentication, per-key rate limits by plan tier. Documentation at /docs/api.

Dùng miễn phí

Phiên âm
ghi âm giọng nói, audio và video, video YouTube, tệp audio, tệp video, video MP4, cuộc họp Zoom, Microsoft Teams, Google Meet, phỏng vấn, podcast, bài giảng, video TikTok, tin nhắn thoại WhatsApp, ghi âm nhanh, tệp MP3, cuộc gọi điện thoại, bài giảng đạo
thành văn bản. Trong vài giây

Phần mềm chuyển giọng nói thành văn bản & phiên âm bằng AI cho audio và video. Chuyển MP3, MP4 hoặc giọng nói sang văn bản kèm nhãn người nói và tóm tắt AI, thường nhanh hơn thời gian thực.

Thả audio hoặc video của bạn vào

MP3 · MP4 · WAV · M4A · MOV · tối đa 10 giờ mỗi file

Dán link, bọn mình lo phần lấy audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · và 50+ nền tảng khác

Ghi âm thẳng từ trình duyệt

Đăng ký mất 30 giây — ghi âm mở ra ngay sau đó, trong dashboard.

Free 30 min/moKhông cần thẻ100+ Hơn 100 ngôn ngữNhãn người nói (Pro+)File tự xoá sau 24h

Gói miễn phí: 30 phút mỗi tháng, tối đa 30 phút mỗi file. Không cần thẻ.

100+

Tự nhận ngôn ngữ

Tự nhận diện, có thể chỉnh tay.

95%+

Độ chính xác với audio sạch

Hầu hết các ngôn ngữ phổ biến, một hoặc hai người nói.

10h

Độ dài file tối đa trên gói Business

10 giờ với Pro · 30 phút với Free.

~30×

Nhanh hơn thời gian thực

File 60 phút thường trả về sau 2–3 phút.

Đây là dashboard

Bấm thử xem. Hàng thật, không phải hàng demo

Tab chạy được. Toggle việc cần làm bật được. Đây đúng là thứ hiện ra trong tài khoản bạn sau khi job xong — cùng layout, cùng controls.

app.transcription.solutions / jobs / interview-ari-2026-04-26

Tóm tắt

tự lưu nhanh · saved

TL;DR

Founder cần nội dung hậu cuộc gọi, không chỉ bản phiên âm. Mà công cụ thì bắt họ chắp vá 5 app lại.

318words2người nói · 58 / 425chủ đề

Ý chính 3

01Có khoảng cách giữa bản ghi thô và nội dung có thể xuất bản
02Show notes, clip social, bản nháp blog — phải xong ngay khi cuộc gọi kết thúc
03Bộ công cụ hiện tại bị xé lẻ ra hơn 5 ứng dụng

Việc cần làm 2

Tìm hiểu hướng pipeline gộp một để thay cho việc ghép 5 app
Thử xem bản nháp show notes từ bản phiên âm này sẽ trông thế nào

Chủ đềquy trình của foundernội dung hậu cuộc gọicông cụ rời rạcshow notesmột pipeline duy nhất

Phiên âm đã tách người nói

4 dòng · 2 người nói · đoạn 30 giây

00:12Người nói ACái mình nghe đi nghe lại từ các founder là khoảng cách giữa bản ghi thô và nội dung có thể xuất bản ngay.

00:27Người nói BChính xác. Không ai muốn thêm một bản phiên âm nữa — họ muốn show notes, một clip, một bản nháp blog, ngay khi cuộc gọi vừa kết thúc.

00:41Người nói AĐúng vậy, và công cụ hiện tại bắt bạn phải ghép năm app lại với nhau mới ra được kết quả.

00:54Người nói BMột pipeline, một chỗ. Đó là canh bạc bọn mình đặt.

Phân tích người nói

Tách kênh stereo · diarization trên mono

Người nói A

58% thời lượng

Turns

14s

Thời lượng nói

…cái khoảng trống giữa bản ghi thô và nội dung thật sự dùng được.

Người nói B

42% thời lượng nói

Turns

10s

Thời lượng nói

Một pipeline, một chỗ. Đó là canh bạc bọn mình đặt.

Định dạng xuất

Mọi gói, mọi định dạng · 7 đầu ra · không watermark · TXT · SRT · MD · JSON · VTT · DOCX · PDF

TXT

Văn bản thuần

Text thô sạch · mọi gói

SRT

Phụ đề SubRip

Phụ đề có dấu thời gian · mọi plan

Markdown

Tên người nói + tóm tắt · mọi gói

JSON

JSON có cấu trúc

Schema công khai · cho luồng API · mọi gói

VTT

Phụ đề WebVTT

Định dạng player HTML5 · mọi gói

DOCX

Tài liệu Word

Tên người nói + dấu thời gian · mọi gói

PDF

PDF có thương hiệu

Sẵn sàng in · tóm tắt & người nói · mọi gói

DEMO · ĐÃ TẮT TIẾNG

0:18 / 1:00

Bản mẫu · 30 giây trích từ một podcast

Một file. Tám thứ trả về

Rê chuột hoặc chạm vào bất kỳ output nào để xem nó trông thực sự ra sao. Cùng một đoạn podcast 30 giây ở giữa, tám sản phẩm được dẫn ra từ đó.

Bản phiên âm

Có dấu câu · có dấu thời gian

00:12 Người nói A
Cái khoảng trống mà tôi cứ nghe đi nghe lại từ các nhà sáng lập là đây…

Tóm tắt AI

Tóm gọn · các tiêu điểm chính

Nhà sáng lập cần hậu xử lý sau cuộc gọi nội dung, chứ không chỉ bản phiên âm. Công cụ buộc họ phải ghép 5 app lại với nhau.

Người nói

Phân tách người nói · Pro+

Tách kênh stereo cho cuộc gọi hai người. Diarization trên mono cho mọi trường hợp khác.

Hơn 100 ngôn ngữ

Tự nhận diện

ASR cấp nghiên cứu. Ép một ngôn ngữ cụ thể nếu tự động nhận diện chọn sai.

interview-ari-2026-04-26.mp3

Đoạn 30 giây · 2 người nói

100+ ngôn ngữ · tự nhận diện · chính xác 95%+

Bản phiên âm · cửa sổ 30s