Chuyển Văn bản thành Giọng nói Open

Bảng xếp hạng

Mô hình AI chuyển Văn bản thành Giọng nói

Bảng xếp hạng các API chuyển văn bản thành giọng nói được so sánh bên dưới bằng cách sử dụng dữ liệu của bên thứ ba từ bảng xếp hạng Artificial Analysis leaderboard (tính đến tháng 4 năm 2026), các chỉ số độ tin cậy trong sản xuất và tính linh hoạt trong triển khai, bao gồm các tiêu chuẩn về độ trễ, phạm vi ngôn ngữ và các tùy chọn tích hợp.

Inworld AI TTS-1.5 Max xếp hạng #1 với điểm ELO là 1.208 dựa trên hàng nghìn so sánh sở thích của người dùng ẩn danh, với độ trễ P90 dưới 250ms.

Hạng Công ty Model ELO Giá API
#1 Fish Audio Fish Audio S2 Pro 1,124 $15 /1M chars
#2 StepFun Step Audio EditX 1,098 N/A
#3 NVIDIA Magpie-Multilingual 357M 1,063 N/A
#4 Kokoro Kokoro 82M v1.0 1,055 $0.7 /1M chars
#5 Mistral Voxtral TTS 1,053 $16 /1M chars
#6 Maya Research Maya1 1,049 N/A
#7 Fish Audio Fish Audio 1.5 1,012 $15 /1M chars
#8 Resemble AI Chatterbox 1,006 $25 /1M chars
#9 Zyphra Zonos-v0.1 1,000 $20 /1M chars
#10 Microsoft VibeVoice 7B 957 N/A
#11 OpenVoice OpenVoice v2 948 $8.3 /1M chars
#12 Alibaba Qwen3 TTS 932 N/A
#13 Coqui XTTS v2 885 $40.4 /1M chars
#14 StyleTTS StyleTTS 2 877 $2.8 /1M chars
#15 MetaVoice MetaVoice v1 764 N/A

Độ trễ dưới 200ms hiện nay đã có thể đạt được nhờ các kiến ​​trúc mạng thần kinh hiện đại, và việc sao chép giọng nói không cần huấn luyện từ đoạn âm thanh dài 3-15 giây đã trở thành tính năng tiêu chuẩn chứ không còn là tính năng cao cấp nữa.

Top 27 mô hình AI TTS theo xếp hạng theo ELO

Top 45 mô hình AI TTS trên GitHub

Model Parameters Languages Voice Cloning Streaming Pronounce Emotion ASR Other License
Audio Flamingo 7B - Website Multi-lingual N/A Context Up to 30 minutes Apache
Chatterbox 350M-500M 23+ MIT
Dia 1.6B English Apache
FireRedTTS-2 Hugging Face - arXiv 7 (En, Zh, Jp, Ko, Fr, De, Ru) ✅ (140ms) 4 speakers; 3 minutes Apache
Fish Audio S2 Pro 5B 80+ (Tier 1: En, Zh, Jp) ~10 GB (BF16) License
Fish Speech 4B 8 (En, Jp, Ko, Zh, Fr, De, Ar, Es) RTF ~1:7 Apache
Fun-CosyVoice 3.0 0.5B - arXiv 9 + 18+ Chinese dialects Apache
GLM-TTS Hugging Face - arXiv Chinese, English Apache
IndexTTS2 _ Chinese, English 1–4 speakers Apache
Irodori-TTS-500M-v2 500M Japanese 48kHz waveform MIT
Kimi-Audio 7B Multiple N/A MIT & Apache
KittenTTS 15M int8 15M 40M 80M English, Multiple <25MB, no GPU Apache
Kokoro-82M 82M 8 langs, 54 voices <$0.06/hr audio Apache
KokoClone Base: Kokoro-ONNX 7 (En, Hi, Fr, Ja, Zh, It, Pt, Es) Apache
KugelAudio 7B 23 EU langs Website MIT
LEMAS-TTS 0.3B Website 10 (Zh, En, Es, Ru, Fr, De, It, Pt, Id, Vi) Word-level editing (LEMAS-Edit) Apache
LFM2-Audio-1.5B 1.5B English N/A Website LFM Open
LongCat-AudioDiT 1B / 3.5B Chinese, English Rate 24000 Hz MIT
LuxTTS _ RTF 150×, 1GB VRAM Apache
Maya1 3B En (multi-accent) Website Apache
MegaTTS3 0.45B Chinese, English arXiv Apache
MiMo-Audio 7B Multi-lingual N/A Few-shot learner Apache
MioTTS-2.6B 2.6B English, Japanese RTF 0.135–0.145 LFM Open
MOSS-TTS 8B Delay, 1.7B Local 20 langs Max 1 hour Apache
MOSS-TTS-Nano 0.1B 20 langs 48 kHz Stereo Apache
NeuTTS 360M Air / 120M Nano En/Es/De/Fr GGUF on-device Apache / NeuTTS
OmniVoice _ 600+ langs 581k hours Apache
Orpheus-TTS 3B Multilingual Llama-3b backbone Apache
Qwen3-TTS 0.6B–1.7B 10 (Zh, En, Ja, Ko, De, Fr, Ru, Pt, Es, It) arXiv Apache
SoproTTS 135M English RTF 0.05 CPU M3 Apache
SoulX-Podcast Hugging Face, arXiv Mandarin, English, Cantonese, Sichuanese, Henanese Max 90+ min Apache
SoulX-Singer Hugging Face, arXiv Mandarin, English, Cantonese Singing synthesis Apache
Spark-TTS 0.5B Chinese, English Qwen2.5 backbone Apache
Step-Audio 130B Chat / 3B TTS Zh, En, Jp arXiv Apache
Step-Audio-EditX 3B (4B BF16) Mandarin, English, Sichuanese, Cantonese, Japanese, Korean Audio editing Apache
Supertonic 3 66M 31 (Ar, Bg, Hr, Cs, Da, Nl, En, Et, Fi, Fr, De, El, Hi, Hu, Id, It, Ja, Ko, Lv, Lt, Pl, Pt, Ro, Ru, Sk, Sl, Es, Sv, Tr, Uk, Vi) RTF 0.001, ONNX OpenRAIL-M
T5Gemma-TTS 2B-2B English, Chinese, Japanese 7.6-10.6 GB VRAM MIT
TinyTTS 1.6M English ~3.4 MB (ONNX FP16) Apache
VibeVoice-Realtime 0.5B 50+ langs Max ~10 min MIT
VieNeu-TTS 0.3B–0.6B Vietnamese, English Apache
VoxCPM 640M - 800M - 2B 30 (Ar, My, Zh, Da, Nl, En, Fi, Fr, De, El, He, Hi, Id, It, Ja, Km, Ko, Lo, Ms, No, Pl, Pt, Ru, Es, Sw, Sv, Tl, Th, Tr, Vi, 四川话, 粤语, 吴语, 东北话, 河南话, 陕西话, 山东话, 天津话, 闽南话) Tokenizer-free Apache
Voxtral-4B-TTS 4B 9 (En, Fr, Es, De, It, Pt, Nl, Ar, Hi) 24 kHz CC BY-NC 4.0
ZipVoice 123M Chinese, English Dialogue support Apache