Ghi âm giọng nói thành văn bản.iPhone, Android, mọi ứng dụng.

Ứng dụng ghi âm trên điện thoại của bạn lưu ghi chú dưới dạng M4A, MP3 hoặc WAV tùy thuộc vào thiết bị. Chia sẻ tệp lên tab trình duyệt, thả vào đó và nhận bản phiên âm có dấu thời gian trong khoảng 90 giây.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Watch what happens

Audio in. Transcript out.

Drop a file, paste a URL, or record live — text appears back with speaker labels and timestamps. Same pipeline whether the source is a file, a URL, or your microphone.

Microphone · liveREC 00:07.41
en-US auto-detected16 kHz mono
~90s
Transcript · streaming2 speakers · 47:08
S1

Thanks for making the time. I want to start with framing — what was the original hypothesis behind the project?

S2

Honestly, maybe forty percent. The shape held — the mechanics underneath had to be rebuilt almost entirely.

S1

What flipped it for you? Was there one customer call, one piece of data

~95% accuracy on clean audioSRT · DOCX · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Three real options · honest comparison

Built-in dictation, AI speech-to-text, or a human transcriber.

Three legitimate ways to get text from spoken audio in 2026. Each is best for different work. Honest numbers below — no claim that AI matches a professional human transcriber on hard audio.

Option 01

Built-in dictation

Live, free, on-device. Handy for short bursts while you talk.

Accuracy · clear English~85%
Speaker separationNo
TimestampsNo
Languages~30
60-min fileLive only
CostFree
Best forShort voice notes while you walk. Hands-free messaging. Dictating an email at a stoplight.
Option 02

AI speech-to-text

~30× faster than realtime. 100+ languages. Speaker labels. The sweet spot for most work.

Accuracy · clear English95%+
Speaker separationYes (Pro+)
TimestampsPer sentence
Languages100+ auto
60-min file~90 s
Cost · per min$0.03
Best forInterview recordings · meeting notes · podcast transcripts · YouTube subtitles · batch jobs · API automation · field journalism.
Option 03

Human transcriber

Gold-standard accuracy when the audio is hard or the stakes are legal.

Accuracy · clear English98–99%
Speaker separationManual
TimestampsPer turn
LanguagesPer transcriber
60-min file4–8 hours
Cost · per min$1–3
Best forLegal depositions · medical dictation · archival oral history · anything where 95%+ accuracy is non-negotiable.

Built-in dictation figures from public iOS / Android speech API benchmarks. Human transcriber rates from US/UK industry surveys 2024–2025.

Accuracy · real-world numbers

95%+ on clear English. It holds up on real-world recordings too.

Modern transcription reaches 95%+ word accuracy on clear English at 128 kbps and above, comparable to a human transcriber on the same recording. The audio coming in sets the ceiling — cleaner source, cleaner transcript. The breakdown below covers the recordings we actually see in production.

97%+
Clean studio audio

USB or studio microphone in a treated room. Single speaker at conversational distance. The headline number.

95%+
Clear English at 128 kbps+

Podcast masters, interview recordings, well-mic'd meetings. The sweet spot for most professional work.

93%
Real-world podcast

Field-recorded interviews, podcast episodes at 64–128 kbps, multi-speaker recordings. Usable for editorial without a review pass.

91%
Meeting room recording

Ceiling mic, omnidirectional capture, mild reverb, multiple speakers at distance. Plan a rename pass on the speaker chips.

Common questions

7 things people ask about this.

01Ứng dụng ghi âm trên điện thoại của tôi lưu ở định dạng tệp nào?+
iPhone Voice Memos: M4A (AAC). Android (Google Pixel, Samsung): thường là M4A hoặc AAC, đôi khi là MP3. Windows Voice Recorder / Sound Recorder: M4A. Mac Voice Memos: M4A. Tất cả đều tải trực tiếp lên mà không cần chuyển đổi.
02Làm cách nào để đưa ghi âm giọng nói từ điện thoại lên trình duyệt?+
iPhone: mở Voice Memos, nhấn vào bản ghi, nhấn Chia sẻ, và AirDrop đến Mac hoặc lưu vào iCloud Files. Android: nhấn Chia sẻ hoặc Xuất trong ứng dụng ghi âm và gửi qua email hoặc lưu trữ đám mây. Mac/Windows: tệp nằm trong một thư mục đã biết — kéo từ đó.
03Thời lượng tối đa của ghi âm giọng nói là bao nhiêu?+
30 phút trên gói Free. Lên đến 10 giờ mỗi tệp trên gói Pro và Business. Hầu hết các bản ghi âm giọng nói trên điện thoại đều dưới 30 phút, vì vậy gói Free đáp ứng phần lớn các nhu cầu sử dụng cá nhân. Các cuộc phỏng vấn nghiên cứu và bài giảng dài vượt quá 30 phút cần gói trả phí.
04Nhãn người nói có khả dụng cho các bản ghi âm giọng nói hai người không?+
Có, trên gói Pro và Business. Đặt điện thoại cách đều giữa hai người nói để tách giọng tốt nhất. Hệ thống xác định và gắn nhãn từng giọng nói — nhấp vào bất kỳ nhãn nào để đổi tên từ 'Người nói 1' thành tên thật của người đó.
05Nó có thể phiên âm ghi âm giọng nói bằng ngôn ngữ khác ngoài tiếng Anh không?+
Có — hơn 100 ngôn ngữ, tự động phát hiện. Tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Nhật, tiếng Bồ Đào Nha, tiếng Nga và hơn 95 ngôn ngữ khác hoạt động. Đối với các bản ghi rất ngắn mà việc phát hiện không chắc chắn, bạn có thể buộc chọn ngôn ngữ trong cài đặt nâng cao.
06Tôi có thể phiên âm ghi âm giọng nói từ các ứng dụng của bên thứ ba như Otter hay Rev không?+
Nếu ứng dụng cho phép bạn xuất âm thanh gốc dưới dạng M4A, MP3 hoặc WAV, thì có — tải tệp đó lên. Chúng tôi không kết nối trực tiếp với các ứng dụng ghi âm của bên thứ ba. Hãy xuất âm thanh từ ứng dụng trước, sau đó tải lên.
07Còn các bản ghi âm giọng nói có nhạc nền hoặc âm thanh xung quanh thì sao?+
Âm thanh nền nhẹ (không gian quán cà phê, giao thông yên tĩnh) làm giảm độ chính xác xuống khoảng 85–88% nhưng vẫn có thể phiên âm được. Nhạc lớn ở âm lượng bằng với giọng nói là trường hợp khó — độ chính xác giảm đáng kể trên các phần đó.

Drop something in. See what comes out.

30 phút miễn phí mỗi tháng, không cần thẻ. Chia sẻ bản ghi từ điện thoại của bạn, thả vào — bản phiên âm trong khoảng 90 giây.

Bắt đầu phiên âm miễn phí