
Cohere Transcribe: Nhận dạng giọng nói
Cohere Transcribe: Speech Recognition
Cohere vừa ra mắt Transcribe, một mô hình nhận dạng giọng nói tự động (ASR) mã nguồn mở cực kỳ hiện đại. Hiện tại, Transcribe đang dẫn đầu HuggingFace Open ASR Leaderboard về độ chính xác. Mô hình này được xây dựng trên kiến trúc conformer, tối ưu cho các ứng dụng thực tế. Điểm nổi bật của Transcribe: * **Hiệu năng cao:** Đạt độ chính xác hàng đầu trên bảng xếp hạng. * **Kiến trúc Conformer:** Mạnh mẽ và hiệu quả. * **Sẵn sàng cho Production:** Có footprint inference hợp lý, dễ dàng tích hợp vào hệ thống. * **Hỗ trợ 14 ngôn ngữ:** Linh hoạt cho nhiều dự án. * **Triển khai đa dạng:** Có thể chạy local hoặc thông qua Cohere's managed Model Vault. Các dev Việt có thể ứng dụng Cohere Transcribe cho các tác vụ AI cần chuyển đổi giọng nói thành văn bản chính xác, như xây dựng chatbot, phân tích cuộc gọi, hoặc tạo phụ đề tự động.
Cohere đang công bố Phiên âm, một mô hình nhận dạng giọng nói tự động (ASR) tiên tiến, có mã nguồn mở và hiện có sẵn để tải xuống. Giọng nói đang nhanh chóng trở thành một phương thức cốt lõi cho...
Cohere đang công bố Transcribe, một mô hình nhận dạng giọng nói tự động (ASR) tiên tiến, có nguồn mở và hiện có sẵn để tải xuống.
Giọng nói đang nhanh chóng trở thành phương thức cốt lõi cho khối lượng công việc và hoạt động tự động hóa có sự hỗ trợ của AI — từ phiên âm cuộc họp và phân tích giọng nói đến nhân viên hỗ trợ khách hàng theo thời gian thực.
Mục tiêu của chúng tôi rất đơn giản: nâng cao độ chính xác của mô hình ASR chuyên dụng trong điều kiện thực tế. Mô hình này đã được đào tạo từ đầu với sự tập trung có chủ ý vào việc giảm thiểu tỷ lệ lỗi từ (WER), đồng thời luôn đặt ưu tiên hàng đầu lên tính sẵn sàng sản xuất. Nói cách khác, đây không chỉ là một sản phẩm nghiên cứu mà còn là một hệ thống được thiết kế để sử dụng hàng ngày.
Cohere Transcribe phản ánh ý định đó. Nó có sẵn để sử dụng nguồn mở với khả năng kiểm soát cơ sở hạ tầng đầy đủ, duy trì dấu chân suy luận có thể quản lý phù hợp với GPU thực tế và việc sử dụng cục bộ, mang lại hiệu quả phân phối tốt nhất và cũng có sẵn qua Model Vault — Nền tảng suy luận mô hình được quản lý hoàn toàn, an toàn của Cohere.
Cohere Transcribe hiện đứng số 1 về độ chính xác trên Mở bảng xếp hạng ASR của HuggingFace, thiết lập chuẩn mực mới cho hiệu suất chép lời trong thế giới thực.
Điều này đánh dấu sự thống nhất của chúng tôi trong việc đưa khả năng nhận dạng giọng nói hiệu suất cao vào quy trình làm việc AI của doanh nghiệp. Hãy đọc tiếp để tìm hiểu thêm.
Tổng quan về mô hình
| Tên | cohere-transcribe-03-2026 |
|---|---|
| Kiến trúc | bộ mã hóa-giải mã dựa trên bộ tuân thủ |
| Đầu vào | dạng sóng âm thanh → biểu đồ phổ log-Mel |
| Đầu ra | văn bản được phiên âm |
| Kích thước mô hình | 2B |
| Mô hình | bộ mã hóa Conformer lớn trích xuất các biểu diễn âm thanh, theo sau là bộ giải mã Transformer nhẹ để tạo mã thông báo |
| Mục tiêu đào tạo | entropy chéo được giám sát tiêu chuẩn trên mã thông báo đầu ra; được đào tạo từ đầu |
| Ngôn ngữ |
được đào tạo trên 14 ngôn ngữ:
|
| Giấy phép | Apache 2.0 |
Hình ảnh 1: Cohere Transcribe là mô hình Conformer ASR có trọng lượng mở chuyển đổi âm thanh lời nói thành văn bản trên 14 ngôn ngữ được hỗ trợ.
Hiệu suất của mô hình
Độ chính xác
Cohere Transcribe là tiêu chuẩn mới nhất về độ chính xác trong nhận dạng giọng nói tiếng Anh. Nó dẫn đầu Bảng xếp hạng ASR mở HuggingFace với tỷ lệ lỗi từ trung bình chỉ 5,42%, vượt trội so với tất cả các lựa chọn thay thế ASR dành riêng cho nguồn mở và nguồn đóng, bao gồm Whisper Large v3, ElevenLabs Scribe v2 và Qwen3-ASR-1.7B. Điều này thể hiện khả năng linh hoạt của mô hình trong các tác vụ giọng nói trong thế giới thực, chẳng hạn như khả năng hoạt động ổn định trong môi trường nhiều loa, âm thanh kiểu phòng họp (ví dụ: tập dữ liệu AMI) và các giọng đa dạng (ví dụ: Tập dữ liệu Voxpopuli).
| Mô hình | WER trung bình | AMI | Thu nhập 22 | Gigaspeech | LS sạch | LS khác | SPGISpeech | Tedlium | Voxpopuli |
|---|---|---|---|---|---|---|---|---|---|
| Phiên âm mạch lạc | 5,42 | 8,13 | 10,86 | 9,34 | 1,25 | 2,37 | 3.08 | 2,49 | 5,87 |
| Zoom Scribe v1 | 5,47 | 10.03 | 9,53 | 9,61 | 1,63 | 2,81 | 1,59 | 3,22 | 5,37 |
| Bài phát biểu của IBM Granite 4.0 1B | 5,52 | 8,44 | 8,48 | 10.14 | 1,42 | 2,85 | 3,89 | 3.10 | 5,84 |
| NVIDIA Canary Qwen 2.5B | 5,63 | 19/10 | 10,45 | 9,43 | 1,61 | 3.10 | 1,90 | 2,71 | 5,66 |
| Qwen3-ASR-1.7B | 5,76 | 10,56 | 10,25 | 8,74 | 1,63 | 3,40 | 2,84 | 2,28 | 6,35 |
| ElevenLabs Scribe v2 | 5,83 | 11,86 | 9,43 | 9.11 | 1,54 | 2,83 | 2,68 | 2,37 | 6,80 |
| Kyutai STT 2.6B | 6 giờ 40 | 17/12 | 10,99 | 9,81 | 1,70 | 4.32 | 2.03 | 3,35 | 6,79 |
| OpenAI Whisper Large v3 | 7,44 | 15,95 | 29/11 | 10.02 | 2,01 | 3,91 | 2,94 | 3,86 | 9,54 |
| Voxtral Mini 4B Thời gian thực 2602 | 7,68 | 17.07 | 11.84 | 10:38 | 2,08 | 5,52 | 2,42 | 3,79 | 8,34 |
Hình ảnh 2: Bảng xếp hạng ASR ôm mặt mở tính đến ngày 26/03/2026. Đây là điểm chuẩn được tiêu chuẩn hóa, sử dụng rộng rãi để đánh giá các hệ thống nhận dạng giọng nói tự động trên các bộ dữ liệu được quản lý sử dụng tỷ lệ lỗi từ (WER) làm thước đo chính, được tính toán dựa trên sự sắp xếp giả thuyết tham chiếu được chuẩn hóa, trong đó WER thấp hơn biểu thị độ trung thực của phiên âm cao hơn. Xem bảng xếp hạng trực tiếp tại đây.
Điều quan trọng là những lợi ích này không chỉ giới hạn ở các tập dữ liệu điểm chuẩn. Chúng tôi thấy hiệu suất tiên tiến tương tự được áp dụng vào các đánh giá của con người, trong đó những người đánh giá được đào tạo sẽ đánh giá chất lượng phiên âm trên âm thanh trong thế giới thực về độ chính xác, mạch lạc và khả năng sử dụng. Tính nhất quán của cả hai phương pháp đánh giá củng cố rằng hiệu suất của Cohere Transcribe chuyển đổi một cách đáng tin cậy từ các bài kiểm tra được kiểm soát sang cài đặt thực tế của doanh nghiệp.


Thông lượng
Trong cài đặt sản xuất, hệ thống ASR phải hoạt động trong điều kiện hạn chế nghiêm ngặt về độ trễ và thông lượng; ngay cả khi quá trình sao chép chính xác, chậm hoặc tốn nhiều tài nguyên có thể ảnh hưởng trực tiếp đến trải nghiệm người dùng, hiệu quả hoạt động và chi phí.
Transcribe mở rộng biên giới Pareto, mang lại độ chính xác tiên tiến (WER thấp) trong khi vẫn duy trì thông lượng tốt nhất trong phân khúc (RTFx cao) trong nhóm mô hình tham số 1B+.

“Chúng tôi thực sự ấn tượng với những gì Cohere đã xây dựng với Transcribe. Tốc độ vượt trội — biến những phút âm thanh thành bản chép lời có thể sử dụng được trong vài giây — và ngay lập tức mở ra những khả năng mới cho quy trình làm việc và sản phẩm theo thời gian thực.
Trong thử nghiệm của chúng tôi, mô hình này xử lý rất tốt lời nói hàng ngày và mang lại chất lượng chép lời mạnh mẽ, đáng tin cậy. Trải nghiệm tổng thể rất mượt mà và dễ làm việc. Chúng tôi rất vui mừng được hợp tác với Cohere và tiếp tục khám phá những gì chúng tôi có thể xây dựng bằng công nghệ này.”
Paige Dickie Phó Chủ tịch Radical Ventures
Không đến một và còn hơn thế nữa.
Chúng tôi đang nỗ lực hướng tới sự tích hợp sâu hơn của Cohere Transcribe với Miền Bắc , Nền tảng điều phối tác nhân AI của Cohere. Với các bản cập nhật theo kế hoạch, Cohere Transcribe sẽ phát triển từ mô hình chép lời có độ chính xác cao thành một nền tảng rộng hơn cho thông tin lời nói của doanh nghiệp.
Bắt đầu.
Cohere Transcribe hiện có sẵn để tải xuống trên Ôm mặt. Hãy làm theo hướng dẫn thiết lập để chạy mô hình cục bộ hoặc thậm chí trong môi trường biên.
Bạn cũng có thể truy cập Cohere Transcribe thông qua API của chúng tôi để dùng thử nghiệm miễn phí, thiết lập thấp với giới hạn tốc độ. Xem tài liệu để biết thông tin chi tiết về cách sử dụng và hướng dẫn tích hợp.
Để triển khai sản xuất mà không có giới hạn tốc độ, hãy cung cấp Model Vault chuyên dụng. Điều này cho phép suy luận đám mây riêng, có độ trễ thấp mà không cần phải quản lý cơ sở hạ tầng. Giá được tính theo phiên bản theo giờ, với các gói chiết khấu dành cho cam kết dài hạn. Liên hệ với nhóm của chúng tôi để thảo luận về yêu cầu của bạn.
Những người đóng góp chính: Julian Mack (Thành viên Nhân viên Kỹ thuật), Ekagra Ranjan (Thành viên Nhân viên Kỹ thuật), Cassie Cao (Giám đốc Sản phẩm), Bharat Venkitesh (Giám đốc Nhân viên Kỹ thuật), Pierre Harvey Richemond (Giám đốc Nhân viên Kỹ thuật).
Tác giả: gmays