Cài đặt Kokoro 82M TTS trên Windows bằng Conda
Giới thiệu
Kokoro là một mô hình TTS (Text-to-Speech) mã nguồn mở với 82 triệu tham số. Mặc dù có kiến trúc nhẹ, nó mang lại chất lượng tương đương với các mô hình lớn hơn trong khi nhanh hơn và tiết kiệm chi phí hơn đáng kể. Với các tham số được cấp phép theo giấy phép Apache, Kokoro có thể được triển khai ở bất cứ đâu, từ môi trường sản xuất đến các dự án cá nhân.
GitHub: https://github.com/hexgrad/kokoro
Hugging Face: https://hf.co/hexgrad/Kokoro-82M
Demo: https://hf.co/spaces/hexgrad/Kokoro-TTS
Video hướng dẫn
Bước 1. Cài đặt Miniconda
Tải xuống Miniconda: https://www.anaconda.com/download/success?reg=skipped
Liên kết trực tiếp: https://anaconda.com/api/installers/Miniconda3-latest-Windows-x86_64.exe
Bước 2. Cài đặt eSpeak NG
Thư viện espeak-ng (Bắt buộc đối với Windows) cần để chuyển đổi văn bản thành âm vị. Trên Windows:
- Truy cập espeak-ng releases
- Nhấp vào Bản phát hành mới nhất
- Tải xuống tệp .msi phù hợp (ví dụ: espeak-ng.msi)
- Chạy trình cài đặt đã tải xuống
- Làm theo hướng dẫn của trình hướng dẫn cài đặt
Để biết cấu hình chi tiết cho Windows, hãy xem hướng dẫn chính thức của espeak-ng dành cho Windows
Bước 3. Tạo môi trường Conda
Tạo tệp environment.yml:
name: kokoro
channels:
- defaults
dependencies:
- python==3.10
- pip:
- kokoro>=0.9.4
- soundfile
- misaki[en]Kích hoạt môi trường conda:
conda env create -f environment.yml
conda activate kokoroBước 4. Tạo một tệp Python
Tạo một tệp có tên kokoro_test.py:
from kokoro import KPipeline
import soundfile as sf
# Initialize pipeline (American English)
pipeline = KPipeline(lang_code='a')
# Your text
text = "Hello, this is Kokoro text to speech on Windows!"
# Generate audio
generator = pipeline(text, voice='af_heart')
# Save audio files
for i, (gs, ps, audio) in enumerate(generator):
print(f"Part {i}: {gs}")
sf.write(f'output_{i}.wav', audio, 24000)Chạy thử:
python kokoro_test.pyKết quả sẽ là tệp âm thanh output_0.wav