Ollama hiện được cung cấp bởi MLX trên Apple Silicon ở dạ...

Hôm nay, chúng tôi sẽ xem trước cách nhanh nhất để chạy Ollama trên Apple silicon, được hỗ trợ bởi MLX, khung máy học của Apple.

Trợ lý cá nhân như OpenClaw
Các tác nhân mã hóa như Claude Code, OpenCode hoặc Codex
Tăng tốc các tác nhân mã hóa như Pi hoặc Claude Code

OpenClaw hiện phản hồi nhanh hơn nhiều

Hiệu suất nhanh nhất trên silicon của Apple, được hỗ trợ bởi MLX

Ollama trên Apple silicon hiện được xây dựng dựa trên khung máy học của Apple, MLX, để tận dụng kiến trúc bộ nhớ hợp nhất của Apple.

Điều này giúp Ollama tăng tốc đáng kể trên tất cả các thiết bị Apple Silicon. Trên các chip M5, M5 Pro và M5 Max của Apple, Ollama tận dụng Bộ tăng tốc thần kinh GPU mới để tăng tốc cả thời gian tạo ra mã thông báo đầu tiên (TTFT) và tốc độ tạo (mã thông báo mỗi giây).

Hiệu suất điền trước

Giải mã hiệu suất

Thử nghiệm được tiến hành vào ngày 29 tháng 3 năm 2026, sử dụng mô hình Qwen3.5-35B-A3B của Alibaba được lượng tử hóa thành `NVFP4` và hoạt động triển khai trước đó của Ollama được lượng tử hóa thành `Q4_K_M` bằng cách sử dụng Ollama 0.18. Ollama 0.19 sẽ có hiệu suất cao hơn nữa (1851 mã thông báo/giây điền trước và 134 mã thông báo/giây giải mã khi chạy với `int4`).

Hỗ trợ NVFP4: phản hồi chất lượng cao hơn và tính tương đương sản xuất

Ollama hiện tận dụng NVFP4 của NVIDIA định dạng để duy trì độ chính xác của mô hình đồng thời giảm yêu cầu về bộ nhớ và băng thông bộ nhớ cho khối lượng công việc suy luận.

Khi ngày càng có nhiều nhà cung cấp suy luận mở rộng quy mô suy luận bằng định dạng NVFP4, điều này cho phép người dùng Ollama chia sẻ kết quả giống như trong môi trường sản xuất.

Nó còn mở ra cho Ollama khả năng chạy các mô hình được tối ưu hóa bởi của NVIDIA trình tối ưu hóa mô hình. Các độ chính xác khác sẽ được cung cấp dựa trên thiết kế và mục đích sử dụng từ các đối tác nghiên cứu và phần cứng của Ollama.

Cải thiện bộ nhớ đệm để có khả năng phản hồi nhanh hơn

Bộ nhớ đệm của Ollama đã được nâng cấp để thực hiện các tác vụ mã hóa và tác nhân hiệu quả hơn.

Mức sử dụng bộ nhớ thấp hơn: Ollama giờ đây sẽ sử dụng lại bộ nhớ đệm trong các cuộc hội thoại, nghĩa là sử dụng ít bộ nhớ hơn và có nhiều lượt truy cập bộ nhớ đệm hơn khi phân nhánh khi sử dụng lời nhắc hệ thống dùng chung với các công cụ như Claude Code.
Các điểm kiểm tra thông minh: Ollama hiện sẽ lưu trữ ảnh chụp nhanh của bộ nhớ đệm tại các vị trí thông minh trong lời nhắc, dẫn đến việc xử lý ít nhanh hơn và phản hồi nhanh hơn.
Trục xuất thông minh hơn: tiền tố dùng chung tồn tại lâu hơn ngay cả khi các nhánh cũ bị loại bỏ.

Bắt đầu

Tải xuống Ollama 0.19

Bản phát hành xem trước này của Ollama giúp tăng tốc mô hình Qwen3.5-35B-A3B mới, với các tham số lấy mẫu được điều chỉnh cho các tác vụ mã hóa.

Hãy đảm bảo rằng bạn có máy Mac có bộ nhớ hợp nhất lớn hơn 32GB.

Mã Claude:

ollama ra mắt claude --model qwen3.5:35b-a3b-coding-nvfp4

OpenClaw:

ollama ra mắt openclaw --model qwen3.5:35b-a3b-coding-nvfp4

Trò chuyện với người mẫu:

ollama chạy qwen3.5:35b-a3b-coding-nvfp4

Những mô hình tương lai

Chúng tôi đang tích cực làm việc để hỗ trợ các mô hình trong tương lai. Đối với người dùng có mô hình tùy chỉnh được tinh chỉnh trên các kiến trúc được hỗ trợ, chúng tôi sẽ giới thiệu một cách dễ dàng hơn để nhập mô hình vào Ollama. Trong thời gian chờ đợi, chúng tôi sẽ mở rộng danh sách các kiến trúc được hỗ trợ.

Lời cảm ơn

Xin cảm ơn:

Nhóm cộng tác viên MLX đã xây dựng một khuôn khổ tăng tốc đáng kinh ngạc
Những người đóng góp của NVIDIA vào lượng tử hóa NVFP4, trình tối ưu hóa mô hình NVFP4, hỗ trợ MLX CUDA, tối ưu hóa và thử nghiệm Ollama
Nhóm GGML & llama.cpp đã xây dựng một cộng đồng và khuôn khổ địa phương thịnh vượng
Nhóm Alibaba Qwen chuyên cung cấp nguồn mở cho các mô hình xuất sắc và sự cộng tác của họ

Ollama hiện được cung cấp bởi MLX trên Apple Silicon ở dạng xem trước