Tập → show notes → đã xuất bản
Một cuộc phỏng vấn dài thành tóm tắt 5 dòng, bốn chapter, bản phiên âm có nhãn người nói, và SRT cho clip ngắn — một job, mọi đầu ra bạn thực sự cần dùng.
VTT · DOCX · PDF
Phần mềm chuyển giọng nói thành văn bản & phiên âm bằng AI cho audio và video. Chuyển MP3, MP4 hoặc giọng nói sang văn bản kèm nhãn người nói và tóm tắt AI, thường nhanh hơn thời gian thực.
Gói miễn phí: 30 phút mỗi tháng, tối đa 30 phút mỗi file. Không cần thẻ.
Tab chạy được. Toggle việc cần làm bật được. Đây đúng là thứ hiện ra trong tài khoản bạn sau khi job xong — cùng layout, cùng controls.
Founder cần nội dung hậu cuộc gọi, không chỉ bản phiên âm. Mà công cụ thì bắt họ chắp vá 5 app lại.
Text thô sạch · mọi gói
Phụ đề có dấu thời gian · mọi plan
Tên người nói + tóm tắt · mọi gói
Schema công khai · cho luồng API · mọi gói
Định dạng player HTML5 · mọi gói
Tên người nói + dấu thời gian · mọi gói
Sẵn sàng in · tóm tắt & người nói · mọi gói
Rê chuột hoặc chạm vào bất kỳ output nào để xem nó trông thực sự ra sao. Cùng một đoạn podcast 30 giây ở giữa, tám sản phẩm được dẫn ra từ đó.
en-GB Tiếng Anh (UK)0.6%en-AU Tiếng Anh (Úc)0.2%Ba kịch bản chúng tôi thấy mỗi tuần. Quy trình không đổi — thứ bạn xuất ra sau đó mới khác.
Một cuộc phỏng vấn dài thành tóm tắt 5 dòng, bốn chapter, bản phiên âm có nhãn người nói, và SRT cho clip ngắn — một job, mọi đầu ra bạn thực sự cần dùng.
Bản ghi Zoom ba tiếng với hai giọng, xử lý đầu cuối. Phân biệt người nói trên gói Pro. Trích dẫn theo dấu thời gian thẳng từ bản DOCX. Hết cảnh tua đi tua lại kiểu "họ nói câu đó ở đâu nhỉ…".
Không tự join, không cần quyền lịch, không có "agent ngồi trong cuộc họp". Thả bản ghi vào, chia sẻ transcript. Việc cần làm được tách ra, gán tên, sẵn sàng phân loại.
Sáu lối vào, đang chạy thật. Mỗi pill là một đường nạp đang chạy trên production ngay lúc này.
Mọi plan đều có ASR chất lượng tách giọng. Plan cao hơn mở khóa file lớn hơn, ưu tiên hàng đợi và tóm tắt AI.
Để dùng thử, làm vài cái lẻ, clip ngắn.
Dành cho những ai làm phỏng vấn, podcast, hoặc công việc dài hơi lặp lại.
Cho team, agency, và đội vận hành chạy theo khối lượng.
Trả theo năm tiết kiệm 50% · Chính sách hoàn tiền · Không cần thẻ cho plan Free
Cùng audio, cùng model. Khác biệt nằm ở mọi thứ chúng tôi làm sau khi phiên âm xong.
Cái mình nghe đi nghe lại từ các founder là khoảng cách giữa bản ghi thô và nội dung họ thực sự có thể xuất bản. Đúng rồi, chẳng ai cần thêm một bản phiên âm nữa, họ cần show note, một clip, một bản nháp blog ngay khi cuộc gọi vừa kết thúc. Chuẩn, mà công cụ hiện tại bắt bạn ghép năm app lại với nhau mới ra được. Một pipeline, một chỗ. Đó là canh bạc bọn mình đặt. Tụi mình thấy pattern này mấy tháng nay rồi — audio vào sạch, nhưng workflow phía sau toàn dán bằng screenshot và copy-paste giữa Notion với Otter với Zapier và bất cứ thứ gì đang mở dở ở tab khác khi cuộc gọi kết thúc và deadline còn đúng hai mươi phút…
Sau đó: dán đâu đó, tự sắp xếp lại, tự viết tóm tắt, tự lọc việc cần làm bằng tay.
Nhà sáng lập không cần bản phiên âm — họ cần khâu hậu xử lý. Một pipeline ăn đứt chuyện chắp vá năm ứng dụng.
Sau đó: copy TL;DR vào Slack, đính DOCX vào mail, gửi clip. Xong xuôi trước khi cuộc gọi kịp nguội.
— Cùng audio · Cùng mô hình · Khác biệt nằm ở khâu hậu xử lý —
Đánh giá tự nguyện từ người dùng đã đăng nhập. Chúng tôi không chạy chiến dịch tặng thưởng đổi đánh giá. Di chuột để tạm dừng.
Podcaster mở 5 tab để xuất một tập. Một lần upload — show notes, bản phiên âm, SRT sẵn sàng cắt clip. Hết.
14 cuộc phỏng vấn dài, tách giọng từng người. DER 0.95 với audio sạch là có thật. Export DOCX nhét thẳng vào bản nháp paper.
26 ghi âm. 3 link TikTok. Bản nháp newsletter trong 11 phút. Thử dùng Otter xem có làm nổi không — mình chờ đấy.
Podcaster mở 5 tab để xuất một tập. Một lần upload — show notes, bản phiên âm, SRT sẵn sàng cắt clip. Hết.
14 cuộc phỏng vấn dài, tách giọng từng người. DER 0.95 với audio sạch là có thật. Export DOCX nhét thẳng vào bản nháp paper.
26 ghi âm. 3 link TikTok. Bản nháp newsletter trong 11 phút. Thử dùng Otter xem có làm nổi không — mình chờ đấy.
Webhook cộng với trích action items đã khai tử cái doc tổng kết tuần của tụi mình. Cả vòng lặp 2 phút ngay bây giờ.
Bản ghi lời khai → phiên âm có tách người nói → PDF có trích dẫn. Trước thuê ngoài nước ngoài làm. Giờ thì một lần tải lên.
Cuộc gọi bán hàng tiếng Ý → tóm tắt tiếng Anh. Team của mình cuối cùng cũng đọc chúng. Chi tiết nhỏ, tác động lớn.
Webhook cộng với trích action items đã khai tử cái doc tổng kết tuần của tụi mình. Cả vòng lặp 2 phút ngay bây giờ.
Bản ghi lời khai → phiên âm có tách người nói → PDF có trích dẫn. Trước thuê ngoài nước ngoài làm. Giờ thì một lần tải lên.
Cuộc gọi bán hàng tiếng Ý → tóm tắt tiếng Anh. Team của mình cuối cùng cũng đọc chúng. Chi tiết nhỏ, tác động lớn.
Tự nhận diện tiếng Nhật vận hành mượt. Còn kiểu serif in nghiêng trên trang này thì lại là một tội ác thiết kế chẳng liên quan, nhưng tôi vẫn nể.
REST API + giới hạn tốc độ theo key = đường ống ghi âm nội bộ của chúng tôi. Mất 30 phút để cấu hình. $19/tháng cho cả team.
Tự xóa sau 24h là tính năng mà tôi không biết là mình cần cho đến khi tôi xem trang privacy của từng đối thủ.
Tự nhận diện tiếng Nhật vận hành mượt. Còn kiểu serif in nghiêng trên trang này thì lại là một tội ác thiết kế chẳng liên quan, nhưng tôi vẫn nể.
REST API + giới hạn tốc độ theo key = đường ống ghi âm nội bộ của chúng tôi. Mất 30 phút để cấu hình. $19/tháng cho cả team.
Tự xóa sau 24h là tính năng mà tôi không biết là mình cần cho đến khi tôi xem trang privacy của từng đối thủ.
Với audio rõ và một hai người nói, độ chính xác đạt 95%+ ở hầu hết ngôn ngữ phổ biến. Chất lượng giảm khi có tạp âm nền, giọng vùng miền nặng, hoặc nói chồng tiếng.
Hơn 100 ngôn ngữ với tự nhận diện. Bạn cũng có thể chọn cố định một ngôn ngữ nếu hệ thống nhận diện sai. Giao diện hiện chỉ có tiếng Anh — đa ngôn ngữ đang trong kế hoạch.
Media nguồn (audio/video bạn tải lên) sẽ bị xóa khỏi hạ tầng của chúng tôi trong vòng 24 giờ sau khi phiên âm xong. Bản phiên âm và tóm tắt vẫn ở trong tài khoản của bạn cho tới khi bạn xóa — hoặc 30 ngày sau khi bạn xóa tài khoản. Nhà cung cấp speech-to-text (AssemblyAI là chính, OpenAI dự phòng) xử lý audio theo chính sách lưu trữ riêng của họ — xem /privacy để xem danh sách subprocessor đầy đủ.
Không. Nhà cung cấp ASR đầu vào của chúng tôi mặc định tắt huấn luyện trên endpoint trả phí — đó là endpoint chúng tôi dùng. Chúng tôi không thêm gì lên trên: không có mô hình riêng huấn luyện trên bản phiên âm của bạn, không có analytics ngầm.
Bạn không bị trừ phút. Hầu hết lỗi (URL riêng tư, file quá dài, codec không hỗ trợ) đều kèm thông báo rõ ràng và hướng dẫn thử lại.
Có — bất kỳ lúc nào trong cổng khách hàng Stripe. Bạn vẫn giữ gói đến hết kỳ đã trả, rồi chuyển về Free vào ngày gia hạn kế tiếp.
Hoàn tiền đầy đủ trong 7 ngày nếu bạn đã dùng dưới 10% số phút của gói. Sau đó, hoàn tiền theo tỷ lệ phần chưa dùng. Gửi mail tới support@transcription.solutions.
Có — REST API đã chạy, webhook cũng vậy. Xác thực bằng API key sắp tới sẽ ra. Rate limit theo từng gói. Tài liệu ở /docs/api sau khi bạn có tài khoản.
Không dán nhãn SOC 2. Chưa làm thì chưa gắn badge.
Audio và video bạn tải lên sẽ biến mất trong vòng 24 giờ sau khi job hoàn tất. Cam kết cứng, không phải tùy chọn.
Nhà cung cấp ASR upstream mặc định không dùng dữ liệu để huấn luyện — chúng tôi dùng đúng các endpoint đó. Không thêm gì khác.
Mã hóa khi lưu và khi truyền, từ ngày đầu. Bật HSTS.
Tôn trọng quyền truy cập / xóa / chuyển dữ liệu theo chuẩn EU. DPA có sẵn theo yêu cầu.
Cài đặt → Xoá tài khoản. Toàn bộ dữ liệu sẽ bị xoá trong vòng 30 ngày. Không cần mở ticket support.
Danh sách đầy đủ nhà cung cấp kèm mục đích tại /privacy. Không có nhà cung cấp bất ngờ.
30 phút miễn phí mỗi tháng, tối đa 30 phút mỗi file. Không cần thẻ tín dụng, không bắt nhập thẻ sau dùng thử, không dấu sao điều kiện. Huỷ gói bất cứ lúc nào chỉ trong một cú click.