AI/ML·Hacker News·1 lượt xem

Show HN: Ba mẫu Kitten TTS mới – nhỏ nhất dưới 25MB

Show HN: Three new Kitten TTS models – smallest less than 25MB

AI Summary

Kitten TTS vừa ra mắt ba phiên bản TTS mới, dung lượng nhỏ hơn đáng kể. Bản nhỏ nhất chỉ dưới 25MB mà vẫn đạt chất lượng biểu cảm "state-of-the-art" (SOTA) trong tầm kích thước đó. Các model này được lượng tử hóa (quantized) bằng kỹ thuật int8 + fp16, tận dụng ONNX để chạy hiệu quả trên thiết bị (on-device execution), tương thích với nhiều loại phần cứng. Điểm đáng chú ý là chúng không cần GPU, thu hẹp khoảng cách về chất lượng so với các dịch vụ TTS trên cloud. Đây là một bước tiến quan trọng mà các developer Việt Nam nên để ý. Nó cho phép triển khai các ứng dụng giọng nói chất lượng cao, sẵn sàng cho sản xuất, chạy hoàn toàn cục bộ (locally). Điều này mở ra nhiều cơ hội cho các ứng dụng hoạt động offline hoặc trong môi trường bị giới hạn tài nguyên.

Kitten TTS (https://github.com/KittenML/KittenTTS) là một mã nguồn mở gồm các chuỗi mô hình chuyển văn bản sang giọng nói nhỏ và đầy biểu cảm dành cho các ứng dụng trên thiết bị. Năm ngoái chúng tôi đã có một chủ đề tại đây: https://news.ycombinator.com/item?id=44807868.

Hôm nay, chúng tôi sẽ phát hành ba mẫu mới với thông số 80M, 40M và 14M.

Mẫu lớn nhất (80M) có chất lượng cao nhất. Biến thể 14M đạt đến SOTA mới về tính biểu cảm trong số các mẫu có kích thước tương tự, mặc dù có kích thước <25MB. Bản phát hành này là bản nâng cấp lớn so với phiên bản trước và hỗ trợ các ứng dụng chuyển văn bản sang giọng nói tiếng Anh với 8 giọng nói: 4 nam và 4 nữ.

Dưới đây là bản demo ngắn: https://www.youtube.com/watch?v=ge3u5qblqZA.

Hầu hết các mô hình đều được lượng tử hóa thành int8 + fp16 và chúng sử dụng ONNX cho thời gian chạy. Các mô hình của chúng tôi được thiết kế để chạy ở mọi nơi, vd. Raspberry Pi, điện thoại thông minh cấp thấp, thiết bị đeo, trình duyệt, v.v. Không cần GPU! Bản phát hành này nhằm mục đích thu hẹp khoảng cách giữa các mô hình trên thiết bị và đám mây cho các ứng dụng tts. Sắp phát hành mô hình đa ngôn ngữ.

AI trên thiết bị bị cản trở bởi một điều: thiếu các mô hình nhỏ thực sự hoạt động. Mục tiêu của chúng tôi là tạo ra nhiều mô hình nguồn mở hơn để chạy các ứng dụng và tác nhân thoại sẵn sàng sản xuất hoàn toàn trên thiết bị.

Chúng tôi rất mong nhận được phản hồi của bạn!

Tác giả: rohan_joshi

#discussion