
Ollama hiện được cung cấp bởi MLX trên Apple Silicon ở dạng xem trước
Ollama is now powered by MLX on Apple Silicon in preview
Phiên bản preview mới nhất của Ollama đã tích hợp framework MLX của Apple, mang lại bước nhảy vọt về hiệu năng trên các thiết bị Apple Silicon. Điều này nhờ vào việc tận dụng unified memory và GPU Neural Accelerators, giúp tăng tốc độ inference cho các ứng dụng AI như coding assistants hay personal agents. Các nhà phát triển nên chú ý đến những cải thiện về hiệu năng này, khả năng hỗ trợ NVFP4 quantization để đạt hiệu quả tương đương môi trường production, cùng với cơ chế caching được tối ưu giúp các tác vụ agentic phản hồi nhanh hơn. Khuyến khích anh em developer thử nghiệm bản preview này trên các máy Mac có dung lượng RAM lớn.
Hôm nay, chúng tôi sẽ xem trước cách nhanh nhất để chạy Ollama trên Apple silicon, được hỗ trợ bởi MLX, khung máy học của Apple. Điều này mở ra hiệu suất mới để tăng tốc công việc đòi hỏi khắt khe nhất của bạn trên...

Hôm nay, chúng tôi sẽ xem trước cách nhanh nhất để chạy Ollama trên Apple silicon, được hỗ trợ bởi MLX, khung máy học của Apple.
- Trợ lý cá nhân như OpenClaw
- Các tác nhân mã hóa như Claude Code, OpenCode hoặc Codex
Tăng tốc các tác nhân mã hóa như Pi hoặc Claude Code
OpenClaw hiện phản hồi nhanh hơn nhiều
Hiệu suất nhanh nhất trên silicon của Apple, được hỗ trợ bởi MLX
Ollama trên Apple silicon hiện được xây dựng dựa trên khung máy học của Apple, MLX, để tận dụng kiến trúc bộ nhớ hợp nhất của Apple.
Điều này giúp Ollama tăng tốc đáng kể trên tất cả các thiết bị Apple Silicon. Trên các chip M5, M5 Pro và M5 Max của Apple, Ollama tận dụng Bộ tăng tốc thần kinh GPU mới để tăng tốc cả thời gian tạo ra mã thông báo đầu tiên (TTFT) và tốc độ tạo (mã thông báo mỗi giây).
Hiệu suất điền trước
Giải mã hiệu suất
Thử nghiệm được tiến hành vào ngày 29 tháng 3 năm 2026, sử dụng mô hình Qwen3.5-35B-A3B của Alibaba được lượng tử hóa thành `NVFP4` và hoạt động triển khai trước đó của Ollama được lượng tử hóa thành `Q4_K_M` bằng cách sử dụng Ollama 0.18. Ollama 0.19 sẽ có hiệu suất cao hơn nữa (1851 mã thông báo/giây điền trước và 134 mã thông báo/giây giải mã khi chạy với `int4`).
Hỗ trợ NVFP4: phản hồi chất lượng cao hơn và tính tương đương sản xuất
Ollama hiện tận dụng NVFP4 của NVIDIA định dạng để duy trì độ chính xác của mô hình đồng thời giảm yêu cầu về bộ nhớ và băng thông bộ nhớ cho khối lượng công việc suy luận.
Khi ngày càng có nhiều nhà cung cấp suy luận mở rộng quy mô suy luận bằng định dạng NVFP4, điều này cho phép người dùng Ollama chia sẻ kết quả giống như trong môi trường sản xuất.
Nó còn mở ra cho Ollama khả năng chạy các mô hình được tối ưu hóa bởi của NVIDIA trình tối ưu hóa mô hình. Các độ chính xác khác sẽ được cung cấp dựa trên thiết kế và mục đích sử dụng từ các đối tác nghiên cứu và phần cứng của Ollama.
Cải thiện bộ nhớ đệm để có khả năng phản hồi nhanh hơn
Bộ nhớ đệm của Ollama đã được nâng cấp để thực hiện các tác vụ mã hóa và tác nhân hiệu quả hơn.
Mức sử dụng bộ nhớ thấp hơn: Ollama giờ đây sẽ sử dụng lại bộ nhớ đệm trong các cuộc hội thoại, nghĩa là sử dụng ít bộ nhớ hơn và có nhiều lượt truy cập bộ nhớ đệm hơn khi phân nhánh khi sử dụng lời nhắc hệ thống dùng chung với các công cụ như Claude Code.
Các điểm kiểm tra thông minh: Ollama hiện sẽ lưu trữ ảnh chụp nhanh của bộ nhớ đệm tại các vị trí thông minh trong lời nhắc, dẫn đến việc xử lý ít nhanh hơn và phản hồi nhanh hơn.
Trục xuất thông minh hơn: tiền tố dùng chung tồn tại lâu hơn ngay cả khi các nhánh cũ bị loại bỏ.
Bắt đầu
Bản phát hành xem trước này của Ollama giúp tăng tốc mô hình Qwen3.5-35B-A3B mới, với các tham số lấy mẫu được điều chỉnh cho các tác vụ mã hóa.
Hãy đảm bảo rằng bạn có máy Mac có bộ nhớ hợp nhất lớn hơn 32GB.
Mã Claude:
ollama ra mắt claude --model qwen3.5:35b-a3b-coding-nvfp4
OpenClaw:
ollama ra mắt openclaw --model qwen3.5:35b-a3b-coding-nvfp4
Trò chuyện với người mẫu:
ollama chạy qwen3.5:35b-a3b-coding-nvfp4
Những mô hình tương lai
Chúng tôi đang tích cực làm việc để hỗ trợ các mô hình trong tương lai. Đối với người dùng có mô hình tùy chỉnh được tinh chỉnh trên các kiến trúc được hỗ trợ, chúng tôi sẽ giới thiệu một cách dễ dàng hơn để nhập mô hình vào Ollama. Trong thời gian chờ đợi, chúng tôi sẽ mở rộng danh sách các kiến trúc được hỗ trợ.
Lời cảm ơn
Xin cảm ơn:
- Nhóm cộng tác viên MLX đã xây dựng một khuôn khổ tăng tốc đáng kinh ngạc
- Những người đóng góp của NVIDIA vào lượng tử hóa NVFP4, trình tối ưu hóa mô hình NVFP4, hỗ trợ MLX CUDA, tối ưu hóa và thử nghiệm Ollama
- Nhóm GGML & llama.cpp đã xây dựng một cộng đồng và khuôn khổ địa phương thịnh vượng
- Nhóm Alibaba Qwen chuyên cung cấp nguồn mở cho các mô hình xuất sắc và sự cộng tác của họ
Tác giả: redundantly