Cài đặt Kokoro 82M TTS trên Windows bằng Conda

Giới thiệu

Kokoro là một mô hình TTS (Text-to-Speech) mã nguồn mở với 82 triệu tham số. Mặc dù có kiến ​​trúc nhẹ, nó mang lại chất lượng tương đương với các mô hình lớn hơn trong khi nhanh hơn và tiết kiệm chi phí hơn đáng kể. Với các tham số được cấp phép theo giấy phép Apache, Kokoro có thể được triển khai ở bất cứ đâu, từ môi trường sản xuất đến các dự án cá nhân.

GitHub: https://github.com/hexgrad/kokoro
Hugging Face: https://hf.co/hexgrad/Kokoro-82M
Demo: https://hf.co/spaces/hexgrad/Kokoro-TTS

Video hướng dẫn

Bước 1. Cài đặt Miniconda

Tải xuống Miniconda: https://www.anaconda.com/download/success?reg=skipped

Liên kết trực tiếp: https://anaconda.com/api/installers/Miniconda3-latest-Windows-x86_64.exe

Bước 2. Cài đặt eSpeak NG

Thư viện espeak-ng (Bắt buộc đối với Windows) cần để chuyển đổi văn bản thành âm vị. Trên Windows:

  1. Truy cập espeak-ng releases
  2. Nhấp vào Bản phát hành mới nhất
  3. Tải xuống tệp .msi phù hợp (ví dụ: espeak-ng.msi)
  4. Chạy trình cài đặt đã tải xuống
  5. Làm theo hướng dẫn của trình hướng dẫn cài đặt

Để biết cấu hình chi tiết cho Windows, hãy xem hướng dẫn chính thức của espeak-ng dành cho Windows

Bước 3. Tạo môi trường Conda

Tạo tệp environment.yml:

name: kokoro
channels:
  - defaults
dependencies:
  - python==3.10
  - pip:
    - kokoro>=0.9.4
    - soundfile
    - misaki[en]

Kích hoạt môi trường conda:

conda env create -f environment.yml
conda activate kokoro

Bước 4. Tạo một tệp Python

Tạo một tệp có tên kokoro_test.py:

from kokoro import KPipeline
import soundfile as sf

# Initialize pipeline (American English)
pipeline = KPipeline(lang_code='a')

# Your text
text = "Hello, this is Kokoro text to speech on Windows!"

# Generate audio
generator = pipeline(text, voice='af_heart')

# Save audio files
for i, (gs, ps, audio) in enumerate(generator):
    print(f"Part {i}: {gs}")
    sf.write(f'output_{i}.wav', audio, 24000)

Chạy thử:

python kokoro_test.py

Kết quả sẽ là tệp âm thanh output_0.wav