Cohere Transcribe: Nhận dạng giọng nói

Cohere đang công bố Transcribe, một mô hình nhận dạng giọng nói tự động (ASR) tiên tiến, có nguồn mở và hiện có sẵn để tải xuống.

Giọng nói đang nhanh chóng trở thành phương thức cốt lõi cho khối lượng công việc và hoạt động tự động hóa có sự hỗ trợ của AI — từ phiên âm cuộc họp và phân tích giọng nói đến nhân viên hỗ trợ khách hàng theo thời gian thực.

Mục tiêu của chúng tôi rất đơn giản: nâng cao độ chính xác của mô hình ASR chuyên dụng trong điều kiện thực tế. Mô hình này đã được đào tạo từ đầu với sự tập trung có chủ ý vào việc giảm thiểu tỷ lệ lỗi từ (WER), đồng thời luôn đặt ưu tiên hàng đầu lên tính sẵn sàng sản xuất. Nói cách khác, đây không chỉ là một sản phẩm nghiên cứu mà còn là một hệ thống được thiết kế để sử dụng hàng ngày.

Cohere Transcribe phản ánh ý định đó. Nó có sẵn để sử dụng nguồn mở với khả năng kiểm soát cơ sở hạ tầng đầy đủ, duy trì dấu chân suy luận có thể quản lý phù hợp với GPU thực tế và việc sử dụng cục bộ, mang lại hiệu quả phân phối tốt nhất và cũng có sẵn qua Model Vault — Nền tảng suy luận mô hình được quản lý hoàn toàn, an toàn của Cohere.

Cohere Transcribe hiện đứng số 1 về độ chính xác trên Mở bảng xếp hạng ASR của HuggingFace, thiết lập chuẩn mực mới cho hiệu suất chép lời trong thế giới thực.

Điều này đánh dấu sự thống nhất của chúng tôi trong việc đưa khả năng nhận dạng giọng nói hiệu suất cao vào quy trình làm việc AI của doanh nghiệp. Hãy đọc tiếp để tìm hiểu thêm.

Tổng quan về mô hình

Tên	cohere-transcribe-03-2026
Kiến trúc	bộ mã hóa-giải mã dựa trên bộ tuân thủ
Đầu vào	dạng sóng âm thanh → biểu đồ phổ log-Mel
Đầu ra	văn bản được phiên âm
Kích thước mô hình	2B
Mô hình	bộ mã hóa Conformer lớn trích xuất các biểu diễn âm thanh, theo sau là bộ giải mã Transformer nhẹ để tạo mã thông báo
Mục tiêu đào tạo	entropy chéo được giám sát tiêu chuẩn trên mã thông báo đầu ra; được đào tạo từ đầu
Ngôn ngữ	được đào tạo trên 14 ngôn ngữ: Châu Âu: tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Hy Lạp, Tiếng Hà Lan, tiếng Ba Lan AIPAC: Tiếng Trung (Quan Thoại), Tiếng Nhật, Tiếng Hàn, Tiếng Việt MENA: tiếng Ả Rập
Giấy phép	Apache 2.0

Hình ảnh 1: Cohere Transcribe là mô hình Conformer ASR có trọng lượng mở chuyển đổi âm thanh lời nói thành văn bản trên 14 ngôn ngữ được hỗ trợ.

Hiệu suất của mô hình

Độ chính xác

Cohere Transcribe là tiêu chuẩn mới nhất về độ chính xác trong nhận dạng giọng nói tiếng Anh. Nó dẫn đầu Bảng xếp hạng ASR mở HuggingFace với tỷ lệ lỗi từ trung bình chỉ 5,42%, vượt trội so với tất cả các lựa chọn thay thế ASR dành riêng cho nguồn mở và nguồn đóng, bao gồm Whisper Large v3, ElevenLabs Scribe v2 và Qwen3-ASR-1.7B. Điều này thể hiện khả năng linh hoạt của mô hình trong các tác vụ giọng nói trong thế giới thực, chẳng hạn như khả năng hoạt động ổn định trong môi trường nhiều loa, âm thanh kiểu phòng họp (ví dụ: tập dữ liệu AMI) và các giọng đa dạng (ví dụ: Tập dữ liệu Voxpopuli).

Mô hình	WER trung bình	AMI	Thu nhập 22	Gigaspeech	LS sạch	LS khác	SPGISpeech	Tedlium	Voxpopuli
Phiên âm mạch lạc	5,42	8,13	10,86	9,34	1,25	2,37	3.08	2,49	5,87
Zoom Scribe v1	5,47	10.03	9,53	9,61	1,63	2,81	1,59	3,22	5,37
Bài phát biểu của IBM Granite 4.0 1B	5,52	8,44	8,48	10.14	1,42	2,85	3,89	3.10	5,84
NVIDIA Canary Qwen 2.5B	5,63	19/10	10,45	9,43	1,61	3.10	1,90	2,71	5,66
Qwen3-ASR-1.7B	5,76	10,56	10,25	8,74	1,63	3,40	2,84	2,28	6,35
ElevenLabs Scribe v2	5,83	11,86	9,43	9.11	1,54	2,83	2,68	2,37	6,80
Kyutai STT 2.6B	6 giờ 40	17/12	10,99	9,81	1,70	4.32	2.03	3,35	6,79
OpenAI Whisper Large v3	7,44	15,95	29/11	10.02	2,01	3,91	2,94	3,86	9,54
Voxtral Mini 4B Thời gian thực 2602	7,68	17.07	11.84	10:38	2,08	5,52	2,42	3,79	8,34

Hình ảnh 2: Bảng xếp hạng ASR ôm mặt mở tính đến ngày 26/03/2026. Đây là điểm chuẩn được tiêu chuẩn hóa, sử dụng rộng rãi để đánh giá các hệ thống nhận dạng giọng nói tự động trên các bộ dữ liệu được quản lý sử dụng tỷ lệ lỗi từ (WER) làm thước đo chính, được tính toán dựa trên sự sắp xếp giả thuyết tham chiếu được chuẩn hóa, trong đó WER thấp hơn biểu thị độ trung thực của phiên âm cao hơn. Xem bảng xếp hạng trực tiếp tại đây.

Điều quan trọng là những lợi ích này không chỉ giới hạn ở các tập dữ liệu điểm chuẩn. Chúng tôi thấy hiệu suất tiên tiến tương tự được áp dụng vào các đánh giá của con người, trong đó những người đánh giá được đào tạo sẽ đánh giá chất lượng phiên âm trên âm thanh trong thế giới thực về độ chính xác, mạch lạc và khả năng sử dụng. Tính nhất quán của cả hai phương pháp đánh giá củng cố rằng hiệu suất của Cohere Transcribe chuyển đổi một cách đáng tin cậy từ các bài kiểm tra được kiểm soát sang cài đặt thực tế của doanh nghiệp.

Biểu đồ thanh hiển thị tỷ lệ phiên âm thành công (%) theo mô hình: ElevenLabs Scribe v2 (51%), Qwen3-ASR-1.7B (55%), Voxtral Mini 3B Realtime 2507 (55%), Zoom Scribe v1 (56%), OpenAI Whisper Large v3 (64%), NVIDIA Canary Qwen 2.5B (67%), IBM Granite 4.0 1B Speech (78%), với mức trung bình là 61%. — Hình ảnh 3: đánh giá sở thích của con người đối với bảng điểm mẫu bằng tiếng Anh. Trong một so sánh theo cặp, người chú thích được yêu cầu thể hiện sở thích của các thế hệ vốn chủ yếu bảo tồn ý nghĩa - nhưng cũng tránh ảo giác, xác định chính xác các thực thể được đặt tên và cung cấp bản ghi nguyên văn với định dạng phù hợp. Điểm từ 50% trở lên cho thấy Cohere Transcribe trung bình được ưu tiên hơn trong so sánh trực tiếp.

Biểu đồ thanh hiển thị tỷ lệ phiên âm thành công (%) cho ba mô hình ASR—Qwen3-ASR-1.7B, OpenAI Whisper Large v3 và Voxtral Mini 4B Realtime—trên sáu ngôn ngữ: tiếng Ý (60%, 55%, 58%), tiếng Pháp (51%, 51%, 54%), tiếng Đức (44%, 52%, 49%), tiếng Tây Ban Nha (48%, 52%, 43%), tiếng Bồ Đào Nha (48%, 41%, 40%) và tiếng Nhật (70%, 66%, 64%). — Hình ảnh 4: đánh giá của con người về độ chính xác ASR đối với việc lựa chọn các ngôn ngữ được hỗ trợ. Điểm từ 50% trở lên cho thấy Cohere Transcribe trung bình được ưu tiên hơn trong so sánh trực tiếp.

Thông lượng

Trong cài đặt sản xuất, hệ thống ASR phải hoạt động trong điều kiện hạn chế nghiêm ngặt về độ trễ và thông lượng; ngay cả khi quá trình sao chép chính xác, chậm hoặc tốn nhiều tài nguyên có thể ảnh hưởng trực tiếp đến trải nghiệm người dùng, hiệu quả hoạt động và chi phí.

Transcribe mở rộng biên giới Pareto, mang lại độ chính xác tiên tiến (WER thấp) trong khi vẫn duy trì thông lượng tốt nhất trong phân khúc (RTFx cao) trong nhóm mô hình tham số 1B+.

Biểu đồ phân tán so sánh bảy mô hình ASR theo tỷ lệ lỗi từ (độ chính xác, càng thấp càng tốt) so với thông lượng. Cohere Transcribe, NVIDIA Canary Qwen 2.5B và IBM Granite cho thấy thông lượng cao hơn với tỷ lệ lỗi thấp hơn, trong khi Whisper Large v3 và Voxtral Realtime có tỷ lệ lỗi cao hơn với thông lượng thấp hơn. — Hình 5: biểu đồ thông lượng (RTFx) so với độ chính xác (WER) dành cho các mô hình hàng đầu có kích thước lớn hơn 1B. RTFx (hệ số nhân thời gian thực) đo lường tốc độ mô hình âm thanh xử lý dữ liệu đầu vào so với thời gian thực.

“Chúng tôi thực sự ấn tượng với những gì Cohere đã xây dựng với Transcribe. Tốc độ vượt trội — biến những phút âm thanh thành bản chép lời có thể sử dụng được trong vài giây — và ngay lập tức mở ra những khả năng mới cho quy trình làm việc và sản phẩm theo thời gian thực.
Trong thử nghiệm của chúng tôi, mô hình này xử lý rất tốt lời nói hàng ngày và mang lại chất lượng chép lời mạnh mẽ, đáng tin cậy. Trải nghiệm tổng thể rất mượt mà và dễ làm việc. Chúng tôi rất vui mừng được hợp tác với Cohere và tiếp tục khám phá những gì chúng tôi có thể xây dựng bằng công nghệ này.”
Paige Dickie Phó Chủ tịch Radical Ventures

Không đến một và còn hơn thế nữa.

Chúng tôi đang nỗ lực hướng tới sự tích hợp sâu hơn của Cohere Transcribe với Miền Bắc , Nền tảng điều phối tác nhân AI của Cohere. Với các bản cập nhật theo kế hoạch, Cohere Transcribe sẽ phát triển từ mô hình chép lời có độ chính xác cao thành một nền tảng rộng hơn cho thông tin lời nói của doanh nghiệp.

Bắt đầu.

Cohere Transcribe hiện có sẵn để tải xuống trên Ôm mặt. Hãy làm theo hướng dẫn thiết lập để chạy mô hình cục bộ hoặc thậm chí trong môi trường biên.

Bạn cũng có thể truy cập Cohere Transcribe thông qua API của chúng tôi để dùng thử nghiệm miễn phí, thiết lập thấp với giới hạn tốc độ. Xem tài liệu để biết thông tin chi tiết về cách sử dụng và hướng dẫn tích hợp.

Để triển khai sản xuất mà không có giới hạn tốc độ, hãy cung cấp Model Vault chuyên dụng. Điều này cho phép suy luận đám mây riêng, có độ trễ thấp mà không cần phải quản lý cơ sở hạ tầng. Giá được tính theo phiên bản theo giờ, với các gói chiết khấu dành cho cam kết dài hạn. Liên hệ với nhóm của chúng tôi để thảo luận về yêu cầu của bạn.

Những người đóng góp chính: Julian Mack (Thành viên Nhân viên Kỹ thuật), Ekagra Ranjan (Thành viên Nhân viên Kỹ thuật), Cassie Cao (Giám đốc Sản phẩm), Bharat Venkitesh (Giám đốc Nhân viên Kỹ thuật), Pierre Harvey Richemond (Giám đốc Nhân viên Kỹ thuật).