Chuyển Văn bản thành Giọng nói Open

Bảng xếp hạng

Mô hình AI chuyển Văn bản thành Giọng nói

Bảng xếp hạng các API chuyển văn bản thành giọng nói được so sánh bên dưới bằng cách sử dụng dữ liệu của bên thứ ba từ bảng xếp hạng Artificial Analysis leaderboard (tính đến tháng 4 năm 2026), các chỉ số độ tin cậy trong sản xuất và tính linh hoạt trong triển khai, bao gồm các tiêu chuẩn về độ trễ, phạm vi ngôn ngữ và các tùy chọn tích hợp.

Inworld AI TTS-1.5 Max xếp hạng #1 với điểm ELO là 1.208 dựa trên hàng nghìn so sánh sở thích của người dùng ẩn danh, với độ trễ P90 dưới 250ms.

Hạng Công ty Model ELO Giá API
#1 Fish Audio Fish Audio S2 Pro 1,124 $15 /1M chars
#2 StepFun Step Audio EditX 1,098 N/A
#3 NVIDIA Magpie-Multilingual 357M 1,063 N/A
#4 Kokoro Kokoro 82M v1.0 1,055 $0.7 /1M chars
#5 Mistral Voxtral TTS 1,053 $16 /1M chars
#6 Maya Research Maya1 1,049 N/A
#7 Fish Audio Fish Audio 1.5 1,012 $15 /1M chars
#8 Resemble AI Chatterbox 1,006 $25 /1M chars
#9 Zyphra Zonos-v0.1 1,000 $20 /1M chars
#10 Microsoft VibeVoice 7B 957 N/A
#11 OpenVoice OpenVoice v2 948 $8.3 /1M chars
#12 Coqui XTTS v2 885 $40.4 /1M chars
#13 StyleTTS StyleTTS 2 877 $2.8 /1M chars
#14 MetaVoice MetaVoice v1 764 N/A

Độ trễ dưới 200ms hiện nay đã có thể đạt được nhờ các kiến ​​trúc mạng thần kinh hiện đại, và việc sao chép giọng nói không cần huấn luyện từ đoạn âm thanh dài 3-15 giây đã trở thành tính năng tiêu chuẩn chứ không còn là tính năng cao cấp nữa.

Top 27 mô hình AI TTS theo xếp hạng theo ELO

4. Kokoro 82M

Phù hợp cho: Các nhóm có ngân sách hạn chế nhưng thoải mái với việc tự lưu trữ, muốn có chất lượng tốt với chi phí tối thiểu, hoặc các nhà phát triển cần toàn quyền kiểm soát mô hình để tinh chỉnh tùy chỉnh và triển khai tại biên.

Ưu điểm:

  • Mã nguồn mở theo giấy phép Apache 2.0
  • Khoảng 0,70 USD/1 triệu ký tự (chi phí tính toán tự lưu trữ), là lựa chọn rẻ nhất hiện nay
  • 82 triệu tham số chạy trên CPU tầm trung mà không cần GPU
  • Vượt trội hơn OpenAI TTS-1 HD về phân tích giọng nói nhân tạo mặc dù rẻ hơn hơn 100 lần

Nhược điểm:

  • Chỉ hỗ trợ tự lưu trữ, không có API được quản lý hoặc hỗ trợ doanh nghiệp

  • Hiện tại hỗ trợ 6 ngôn ngữ (tiếng Anh, tiếng Pháp, tiếng Hàn, tiếng Nhật, tiếng Quan thoại, tiếng Anh Anh)

  • Chất lượng tổng thể thấp hơn so với các tùy chọn thương mại trong top 10

Giá cả: Khoảng 0,70 USD/1 triệu ký tự dựa trên chi phí tính toán tự lưu trữ. Không có phí đăng ký hoặc phí API.