Show HN: Ba mẫu Kitten TTS mới – nhỏ nhất dưới 25MB

Kitten TTS (https://github.com/KittenML/KittenTTS) là một mã nguồn mở gồm các chuỗi mô hình chuyển văn bản sang giọng nói nhỏ và đầy biểu cảm dành cho các ứng dụng trên thiết bị. Năm ngoái chúng tôi đã có một chủ đề tại đây: https://news.ycombinator.com/item?id=44807868.

Hôm nay, chúng tôi sẽ phát hành ba mẫu mới với thông số 80M, 40M và 14M.

Mẫu lớn nhất (80M) có chất lượng cao nhất. Biến thể 14M đạt đến SOTA mới về tính biểu cảm trong số các mẫu có kích thước tương tự, mặc dù có kích thước <25MB. Bản phát hành này là bản nâng cấp lớn so với phiên bản trước và hỗ trợ các ứng dụng chuyển văn bản sang giọng nói tiếng Anh với 8 giọng nói: 4 nam và 4 nữ.

Dưới đây là bản demo ngắn: https://www.youtube.com/watch?v=ge3u5qblqZA.

Hầu hết các mô hình đều được lượng tử hóa thành int8 + fp16 và chúng sử dụng ONNX cho thời gian chạy. Các mô hình của chúng tôi được thiết kế để chạy ở mọi nơi, vd. Raspberry Pi, điện thoại thông minh cấp thấp, thiết bị đeo, trình duyệt, v.v. Không cần GPU! Bản phát hành này nhằm mục đích thu hẹp khoảng cách giữa các mô hình trên thiết bị và đám mây cho các ứng dụng tts. Sắp phát hành mô hình đa ngôn ngữ.

AI trên thiết bị bị cản trở bởi một điều: thiếu các mô hình nhỏ thực sự hoạt động. Mục tiêu của chúng tôi là tạo ra nhiều mô hình nguồn mở hơn để chạy các ứng dụng và tác nhân thoại sẵn sàng sản xuất hoàn toàn trên thiết bị.

Chúng tôi rất mong nhận được phản hồi của bạn!