Chuyển Văn bản thành Giọng nói Open
Bảng xếp hạng
Mô hình AI chuyển Văn bản thành Giọng nói
Bảng xếp hạng các API chuyển văn bản thành giọng nói được so sánh bên dưới bằng cách sử dụng dữ liệu của bên thứ ba từ bảng xếp hạng Artificial Analysis leaderboard (tính đến tháng 4 năm 2026), các chỉ số độ tin cậy trong sản xuất và tính linh hoạt trong triển khai, bao gồm các tiêu chuẩn về độ trễ, phạm vi ngôn ngữ và các tùy chọn tích hợp.
Inworld AI TTS-1.5 Max xếp hạng #1 với điểm ELO là 1.208 dựa trên hàng nghìn so sánh sở thích của người dùng ẩn danh, với độ trễ P90 dưới 250ms.
| Hạng | Công ty | Model | ELO | Giá API |
|---|---|---|---|---|
| #1 | Fish Audio | Fish Audio S2 Pro | 1,124 | $15 /1M chars |
| #2 | StepFun | Step Audio EditX | 1,098 | N/A |
| #3 | NVIDIA | Magpie-Multilingual 357M | 1,063 | N/A |
| #4 | Kokoro | Kokoro 82M v1.0 | 1,055 | $0.7 /1M chars |
| #5 | Mistral | Voxtral TTS | 1,053 | $16 /1M chars |
| #6 | Maya Research | Maya1 | 1,049 | N/A |
| #7 | Fish Audio | Fish Audio 1.5 | 1,012 | $15 /1M chars |
| #8 | Resemble AI | Chatterbox | 1,006 | $25 /1M chars |
| #9 | Zyphra | Zonos-v0.1 | 1,000 | $20 /1M chars |
| #10 | Microsoft | VibeVoice 7B | 957 | N/A |
| #11 | OpenVoice | OpenVoice v2 | 948 | $8.3 /1M chars |
| #12 | Coqui | XTTS v2 | 885 | $40.4 /1M chars |
| #13 | StyleTTS | StyleTTS 2 | 877 | $2.8 /1M chars |
| #14 | MetaVoice | MetaVoice v1 | 764 | N/A |
Độ trễ dưới 200ms hiện nay đã có thể đạt được nhờ các kiến trúc mạng thần kinh hiện đại, và việc sao chép giọng nói không cần huấn luyện từ đoạn âm thanh dài 3-15 giây đã trở thành tính năng tiêu chuẩn chứ không còn là tính năng cao cấp nữa.
Top 27 mô hình AI TTS theo xếp hạng theo ELO
4. Kokoro 82M
Phù hợp cho: Các nhóm có ngân sách hạn chế nhưng thoải mái với việc tự lưu trữ, muốn có chất lượng tốt với chi phí tối thiểu, hoặc các nhà phát triển cần toàn quyền kiểm soát mô hình để tinh chỉnh tùy chỉnh và triển khai tại biên.
Ưu điểm:
- Mã nguồn mở theo giấy phép Apache 2.0
- Khoảng 0,70 USD/1 triệu ký tự (chi phí tính toán tự lưu trữ), là lựa chọn rẻ nhất hiện nay
- 82 triệu tham số chạy trên CPU tầm trung mà không cần GPU
- Vượt trội hơn OpenAI TTS-1 HD về phân tích giọng nói nhân tạo mặc dù rẻ hơn hơn 100 lần
Nhược điểm:
-
Chỉ hỗ trợ tự lưu trữ, không có API được quản lý hoặc hỗ trợ doanh nghiệp
-
Hiện tại hỗ trợ 6 ngôn ngữ (tiếng Anh, tiếng Pháp, tiếng Hàn, tiếng Nhật, tiếng Quan thoại, tiếng Anh Anh)
-
Chất lượng tổng thể thấp hơn so với các tùy chọn thương mại trong top 10
Giá cả: Khoảng 0,70 USD/1 triệu ký tự dựa trên chi phí tính toán tự lưu trữ. Không có phí đăng ký hoặc phí API.