Mamba-3
Tin tức chung·Hacker News·1 lượt xem

Mamba-3

Mamba-3

AI Summary

Mamba-3 là một state space model (SSM) mới, tập trung vào hiệu quả khi inference thay vì tốc độ training. Mô hình này ra đời để đáp ứng nhu cầu ngày càng cao về triển khai model nhanh chóng. Mamba-3 có cấu trúc recurrence mạnh mẽ hơn, theo dõi trạng thái (state tracking) bằng số phức, cùng các biến thể MIMO, giúp giảm đáng kể độ trễ cho cả giai đoạn prefill và decode, thậm chí còn nhanh hơn cả các phiên bản Mamba trước đây và một mô hình Transformer có quy mô tương đương. Các developer nên cân nhắc Mamba-3 cho những ứng dụng mà tốc độ inference là yếu tố then chốt, tận dụng các kernel được tối ưu hóa cho phần cứng, được xây dựng bằng Triton và các DSL khác.

Mamba-3 là một mô hình không gian trạng thái (SSM) mới được thiết kế với mục tiêu chính là hiệu quả suy luận — khác với Mamba-2, được tối ưu hóa cho tốc độ huấn luyện. Những nâng cấp quan trọng mang tính biểu cảm hơn...

tl;dr

Mamba-3 là một mô hình không gian trạng thái (SSM) mới được thiết kế với mục tiêu chính là hiệu quả suy luận — một sự khởi đầu từ Mamba-2, được tối ưu hóa cho tốc độ huấn luyện. Các nâng cấp quan trọng là công thức lặp lại biểu cảm hơn, theo dõi trạng thái có giá trị phức tạp và biến thể MIMO (đa đầu vào, nhiều đầu ra) giúp tăng độ chính xác mà không làm chậm quá trình giải mã.

Kết quả: Mamba-3 SISO đánh bại Mamba-2, Gated DeltaNet và thậm chí cả Llama-3.2-1B (Transformer) về độ trễ điền trước+giải mã trên tất cả độ dài chuỗi ở thang đo 1,5B.

Nhóm cũng có nguồn mở các hạt nhân, được xây dựng bằng cách sử dụng kết hợp Triton, TileLang và CuTe DSL để có hiệu suất phần cứng tối đa.

Blog này được đăng chéo trên blog của Goomba Lab và đề cập đến công việc được thực hiện với sự cộng tác giữa các nhà nghiên cứu tại Đại học Carnegie Mellon, Đại học Princeton, Cartesia AI và Together AI.

Kể từ khi phát hành Mamba-2 vào giữa năm 2024, hầu hết kiến trúc đã chuyển từ Mamba-1. Tại sao? Mamba-2 đã đặt cược rằng hiệu quả đào tạo là nút thắt lớn nhất đối với các mô hình không gian trạng thái (SSM), và do đó đơn giản hóa cơ chế SSM cơ bản để cung cấp đào tạo nhanh hơn 2−8 lần so với phiên bản trước, dẫn đến việc áp dụng rộng rãi hơn.

Kể từ đó, bối cảnh LLM đã bắt đầu thay đổi. Mặc dù đào tạo trước vẫn cực kỳ quan trọng nhưng người ta đã tập trung nhiều sự chú ý hơn vào đào tạo sau và triển khai, cả hai đều cực kỳ nặng về suy luận. Việc mở rộng quy mô các phương pháp sau đào tạo, đặc biệt là học tăng cường với phần thưởng có thể xác minh (RLVR) cho mã hóa hoặc toán học, đòi hỏi số lượng lớn các đợt triển khai được tạo ra và gần đây nhất là các quy trình làm việc tác nhân, chẳng hạn như Codex, Claude Code hoặc thậm chí OpenClaw, đã đẩy nhu cầu suy luận lên cao.

Bất chấp tầm quan trọng ngày càng tăng của suy luận, nhiều kiến ​​trúc tuyến tính (bao gồm cả Mamba-2) đã được phát triển từ quan điểm đào tạo trước tiên. Để tăng tốc quá trình huấn luyện trước, SSM cơ bản đã được đơn giản hóa dần dần (ví dụ: chuyển đổi đường chéo đã được giảm xuống thành nhận dạng vô hướng). Mặc dù điều này mang lại tốc độ huấn luyện nhưng lại khiến bước suy luận "quá đơn giản" và bị ràng buộc hoàn toàn bởi bộ nhớ --- GPU không hoạt động mà luôn di chuyển bộ nhớ.

Trong thời đại suy luận mới này, chúng tôi quan tâm rất nhiều đến việc vượt qua ranh giới của ranh giới hiệu quả-chất lượng: chúng tôi muốn các mô hình tốt hơn chạy nhanh hơn.

Một câu hỏi tự nhiên đặt ra:

SSM sẽ được thiết kế như thế nào bằng suy luận trong tâm trí trông như thế nào?

Mô hình Mamba-3

Còn thiếu gì? Điểm hấp dẫn chính của các mô hình tuyến tính nằm ở tên của chúng: tính toán tỷ lệ tuyến tính với độ dài chuỗi do trạng thái có kích thước cố định. Thật không may, không có bữa trưa miễn phí. Cùng kích thước trạng thái cố định cho phép tính toán hiệu quả buộc mô hình nén tất cả thông tin trong quá khứ thành một biểu diễn, hoàn toàn ngược lại với Transformer, lưu trữ tất cả thông tin trong quá khứ thông qua trạng thái tăng trưởng liên tục (bộ đệm KV) --- một sự khác biệt cơ bản. Vì vậy, nếu chúng ta không thể phát triển trạng thái, làm cách nào để khiến trạng thái cố định đó thực hiện nhiều công việc hơn?

Chúng tôi thấy rằng các thiết kế trước đó đã đơn giản hóa phép truy toán và ma trận chuyển tiếp để giúp quá trình đào tạo diễn ra nhanh chóng. Tuy nhiên, thay đổi này cũng làm giảm mức độ phong phú của động lực và khiến việc giải mã bị giới hạn trong bộ nhớ: mỗi lần cập nhật mã thông báo thực hiện rất ít tính toán liên quan đến chuyển động của bộ nhớ. Điều này cung cấp cho chúng tôi ba đòn bẩy mà chúng tôi có thể sử dụng: (1) làm cho việc lặp lại trở nên biểu cảm hơn, (2) sử dụng ma trận chuyển đổi phong phú hơn và (3) thêm nhiều hoạt động song song hơn (và gần như miễn phí) trong mỗi bản cập nhật.

Từ những hiểu biết sâu sắc này, chúng tôi cải thiện Mamba-2 theo ba cách cốt lõi:

  1. tăng tính biểu cảm của cơ chế SSM thông qua phép lặp tổng quát hơn bắt nguồn từ của chúng tôi Sơ đồ rời rạc hình thang hàm mũ,
  2. mở rộng khả năng theo dõi trạng thái bằng cách lập mô hình hệ thống SSM có giá trị phức tạp
  3. cải thiện hiệu suất chung của mô hình mà ít tác động đến độ trễ giải mã bằng cách sử dụng SSM nhiều đầu vào, nhiều đầu ra (MIMO), mô hình hóa nhiều SSM song song, thay vì mô hình một đầu vào, một đầu ra hiện tại (SISO) SSM.

Thông qua ba thay đổi này, Mamba-3 nâng cao hiệu suất trong khi vẫn duy trì độ trễ suy luận tương tự.

Đáng chú ý, cả ba thay đổi này đều được lấy cảm hứng từ lý thuyết điều khiển "cổ điển" hơn và tài liệu về mô hình không gian trạng thái.

Công việc của chúng tôi đi ngược lại xu hướng của nhiều kiến ​​trúc tuyến tính hiện đại vốn sử dụng các cách diễn giải khác về phép truy hồi (chẳng hạn như sự chú ý tuyến tính hoặc đào tạo trong thời gian kiểm tra) không dễ dàng nắm bắt được những khái niệm này.

Kiến trúc

Điều gì đã thay đổi trong lớp Mamba-2? Ngoài ba lần nâng cấp về mặt phương pháp cho SSM cốt lõi đã thảo luận ở trên, chúng tôi còn cải tiến kiến ​​trúc một chút để phù hợp hơn với các mô hình ngôn ngữ hiện đại thông thường.

Mamba-3 kiến trúc

Dựa vào sơ đồ, bạn sẽ nhận thấy chúng tôi đã thay đổi một số thứ. Ở cấp độ cao,

Định mức. Chúng tôi đã thêm "BCNorm" vào QKNormor bằng thuật ngữ SSM, giúp ổn định về mặt thực nghiệm việc đào tạo các mô hình Mamba-3. Việc bổ sung tiêu chuẩn này khiến Mamba-3 phù hợp với các mẫu Transformer và Gated DeltaNet (GDN) hiện đại. Với QKNorm, RMSNorm từ Mamba-2 trở thành tùy chọn. Tuy nhiên, theo kinh nghiệm, chúng tôi thấy rằng nó vẫn có giá trị trong các mô hình kết hợp do khả năng ngoại suy kéo dài. Chúng tôi sẽ nói thêm về điều này sau.

Tạm biệt Cuộc trò chuyện ngắn. Chúng tôi đã có thể loại bỏ sự tích chập nhân quả ngắn khó chịu của Mamba-1/2 bằng cách kết hợp (1) các thành kiến ​​đơn giản trên B và C sau BCNorm với (2) sự tái diễn dựa trên sự rời rạc hóa mới của chúng tôi. Phép lặp mới ngầm áp dụng tích chập trên đầu vào vào trạng thái ẩn và chúng tôi cho thấy trường hợp này xảy ra như thế nào trong Phần 2 của blog của chúng tôi.

Có thực sự có thể loại bỏ chuyển đổi ngắn không?

Những thay đổi trong Mamba-3 thêm các thành phần giống như tích chập bên trong phép lặp SSM nhưng không thể hoán đổi chính xác với chuyển đổi ngắn tiêu chuẩn được đặt bên ngoài SSM tái phát.

Loại thứ hai vẫn có thể được sử dụng cùng với Mamba-3, nhưng quyết định không sử dụng được đưa ra theo kinh nghiệm. Chúng tôi nhận thấy việc thêm lại lượt chuyển đổi ngắn tiêu chuẩn:

  1. không cải thiện hiệu suất; trên thực tế, nó làm tình hình trở nên tồi tệ hơn một chút
  2. không làm suy giảm khả năng truy xuất đối với các tác vụ trong thế giới thực hơn (ví dụ: NIAH). Điều đó có nghĩa là, nếu không có thời gian tích chập ngắn, việc đào tạo các nhiệm vụ tổng hợp quy mô nhỏ như MQAR sẽ trở nên khó khăn hơn một chút. Tuy nhiên, vì hoạt động truy xuất trong thế giới thực vẫn không bị ảnh hưởng nên chúng tôi không coi đây là hạn chế lớn.

Còn tại sao? Chúng tôi không nghiên cứu các cơ chế lý thuyết, nhưng trong bài báo này, chúng tôi đưa ra giả thuyết về cách cả độ lệch BC và phép truy hồi hình thang hàm mũ thực hiện các cơ chế giống như tích chập tương tự, về mặt thực nghiệm phục vụ chức năng tương tự như đối lưu ngắn bên ngoài.

Bài học lịch sử nhanh về cuộc trò chuyện ngắn.

Tích chập ngắn hiện là thành phần cốt lõi của hầu hết các mô hình tuyến tính hiệu quả hiện nay. Các phiên bản của chuyển đổi ngắn lần đầu tiên được sử dụng trong các kiến ​​trúc định kỳ bởi H3 (ở dạng “shift SSM” được lấy cảm hứng từ công việc đầu cảm ứng "bị bôi nhọ" của Anthropic) và RWKV-4 (thông qua cơ chế "chuyển đổi mã thông báo" của nó), trước khi được phổ biến ở dạng hiện tại bởi Mamba-1.

Lý do nó rất phổ biến là vì các công trình trước đây đã nhiều lần chỉ ra rằng các tích chập ngắn cải thiện hiệu suất thực nghiệm cũng như hỗ trợ về mặt lý thuyết khả năng truy xuất kiểu quy nạp .

Cuối cùng, bạn sẽ nhận thấy một vài thành phần mới, cụ thể là RoPEcác phép chiếu MIMO. Mô-đun RoPE thể hiện các SSM có giá trị phức tạp thông qua việc diễn giải các chuyển đổi phức tạp dưới dạng phép quay, loại bỏ việc triển khai lại hạt nhân tốn kém. Các phép chiếu MIMO mở rộng ma trận B và C thành dạng biểu diễn phù hợp cần thiết cho MIMO SSM.

Chúng tôi tìm hiểu sâu hơn về động cơ và cách triển khai chính xác của hai ma trận này trong phần thứ hai của blog (có rất nhiều tính năng hay 🎁), vì vậy hiện tại, hãy coi chúng là các cải tiến cơ bản, độc lập góp phần cải thiện hiệu suất và/hoặc khả năng của mô hình.

Cuối cùng, kiến ​​trúc tổng thể của chúng tôi hiện áp dụng các lớp MLP xen kẽ theo quy ước tiêu chuẩn của Transformers và các mô hình tuyến tính khác.

Kết quả thực nghiệm

Chúng tôi đánh giá mô hình Mamba-3 cuối cùng của mình dựa trên các lựa chọn thay thế tuyến tính phổ biến khác và đường cơ sở của Transformer.

Mô hình hóa ngôn ngữ

Đánh giá mô hình hóa ngôn ngữ xuôi dòng cho đào tạo trước mô hình

Chúng tôi nhận thấy rằng mô hình Mamba-3 mới của chúng tôi vượt trội hơn mô hình Mamba-2 trước đó và các lựa chọn thay thế chú ý tuyến tính mạnh mẽ, chẳng hạn như GDN, về mô hình hóa ngôn ngữ trên nhiều quy mô mô hình được huấn luyện trước khác nhau. Mamba-3-SISO có thể so sánh trực tiếp với các mô hình tuyến tính trước đó; ví dụ: nó khớp chính xác với Mamba-2 về hình dạng kiến ​​trúc (kích thước mô hình, kích thước trạng thái, v.v.) và có thời gian đào tạo tương đương. Biến thể MIMO của Mamba-3 của chúng tôi tăng thêm độ chính xác trong các tác vụ tiếp theo của chúng tôi lên hơn 1 điểm phần trăm so với Mamba-3 thông thường ở thang điểm 1B, với lời cảnh báo rằng MIMO yêu cầu thời gian đào tạo dài hơn nhưng độ trễ giải mã không dài hơn!

Làm thế nào chi phí đào tạo có thể tăng lên nhưng không gây suy luận?

Mặc dù chúng tôi sẽ nói chi tiết về vấn đề này trong phần thứ hai của blog, nhưng chúng tôi sẽ giới thiệu cho độc giả một cái nhìn thoáng qua tại đây:

Sự phân đôi này có thể bắt nguồn từ bản chất tính toán tương ứng và tính chất bị ràng buộc bởi bộ nhớ của quá trình đào tạo và suy luận. Các mô hình tuyến tính hiện tại đã được thiết kế để sử dụng nhiều lõi tensor GPU (một trong những đóng góp chính của Mamba-2) để huấn luyện nhanh, nhưng trong quá trình giải mã, mỗi bước thời gian yêu cầu tính toán rất ít nên phần cứng hầu như luôn ở trạng thái nguội.

Do đó, nếu chúng ta thiết kế kiến trúc chỉ xoay quanh việc tăng số lượng FLOP cần thiết cho mỗi bước thời gian, thì độ trễ suy luận sẽ gần như không đổi vì chúng ta chỉ có thể sử dụng một số lõi nhàn rỗi --- không nhiều cho việc đào tạo!

Nhiệm vụ truy xuất

Các tác vụ truy xuất tổng hợp và trong thế giới thực

Các mô hình tuyến tính, với trạng thái kích thước cố định, tự nhiên hoạt động kém hơn các đối tác Transformer của chúng trên các tác vụ dựa trên truy xuất. Đúng như mong đợi, trong các mô hình thuần túy, Transformer vượt trội hơn trong các nhiệm vụ truy xuất, nhưng Mamba-3 hoạt động tốt trong lớp các lựa chọn thay thế bậc hai. Điều thú vị là việc bổ sung MIMO cải thiện hơn nữa hiệu suất truy xuất mà không tăng kích thước trạng thái.

Với sự thiếu hụt bẩm sinh này nhưng hiệu suất lập mô hình tổng thể mạnh mẽ,

chúng tôi dự đoán rằng các lớp tuyến tính sẽ được sử dụng chủ yếu trong kết hợp với các lớp tự chú ý toàn cầu trong tương lai.*

$^*$ít nhất là cho mô hình hóa ngôn ngữ

Các mô hình kết hợp kết hợp tính chất chung giống bộ nhớ của các lớp tuyến tính với khả năng lưu trữ giống cơ sở dữ liệu chính xác của bộ nhớ đệm KV của self-attention đã được chứng minh bằng thực nghiệm là hoạt động tốt hơn các mô hình thuần túy trong khi vẫn cho phép tiết kiệm bộ nhớ và tính toán đáng kể. Ngoài ra, ở đây chúng tôi nhận thấy rằng sự kết hợp giữa các lớp tuyến tính với tính năng tự chú ý cho phép truy xuất tốt hơn so với Transformer thông thường.

Tuy nhiên, chúng tôi nhấn mạnh rằng cách chính xác mà các mô hình tuyến tính này tương tác với sự tự chú ý vẫn chưa được hiểu đầy đủ. Ví dụ: chúng tôi thấy rằng việc sử dụng phép chiếu trước đầu ra tùy chọn cho Mamba-3 sẽ cải thiện hiệu suất khái quát hóa độ dài trên các tác vụ NIAH tổng hợp với chi phí thấp cho các tác vụ truy xuất trong thế giới thực trong ngữ cảnh. Hơn nữa, ngay cả các chi tiết về chỉ tiêu được trả về chẳng hạn như vị trí, ví dụ: trước cổng so với sau cổng và loại, được nhóm so với thông thường, đều có tác động không nhỏ đến độ chính xác đối với các nhiệm vụ bao gồm dữ liệu bán cấu trúc và phi cấu trúc, chẳng hạn như FDA và SWDE.

Hạt nhân ở đây, ở đó và ở mọi nơi

Chúng tôi rất vui khi thấy những gì mọi người xây dựng bằng Mamba-3. To help facilitate this, we are open-sourcing our kernels, which are on par in terms of speed with the original Mamba-2 Triton kernels.

Benchmarking latencies

Prefill latency

<đầu> Mô hình n=512 1024 2048 4096 16384 vLLM (Llama-3.2-1B) 0,26 0,52 1,08 2,08 17/12 DeltaNet có cổng 0,51 1,01 2,01 4,00 16:21 Mamba-2 0,51 1,02 2.02 4.02 16,22 Mamba-3 (SISO) 0,51 1,01 2.02 4.01 16,22 Mamba-3 (MIMO r=4) 0,60 1,21 2,42 4,76 19,44

Độ trễ điền trước+giải mã

<đầu> Người mẫu n=512 1024 2048 4096 16384 vLLM (Llama-3.2-1B) 4,45 9,60 20,37 58,64 976,50 DeltaNet có cổng 4,56 9.11 18,22 36,41 145,87 Mamba-2 4,66 9,32 18,62 37,22 149.02 Mamba-3 (SISO) 4,39 8,78 17,57 35.11 140,61 Mamba-3 (MIMO r=4) 4,74 9,48 18,96 37,85 151,81

Độ trễ điền trước và điền trước+giải mã (cùng số lượng mã thông báo cho cả điền trước và giải mã) trên các độ dài chuỗi đối với mô hình 1,5B trên một GPU H100-SXM 80GB duy nhất. Kích thước lô 128 đã được sử dụng cho tất cả độ dài chuỗi, thời gian đồng hồ treo tường (tính bằng giây) được báo cáo qua ba lần lặp lại. Khi so sánh các mô hình ở tỷ lệ 1,5B, Mamba-3 (biến thể SISO) đạt được độ trễ giải mã + điền trước nhanh nhất trên tất cả độ dài chuỗi, vượt trội hơn Mamba-2, Gated DeltaNet và thậm chí cả Transformer với hệ sinh thái vLLM được tối ưu hóa cao. Hơn nữa, Mamba-3 MIMO có thể so sánh với Mamba-2 về tốc độ nhưng có hiệu suất mạnh hơn nhiều.

Tính năng điền trước dựa trên Triton của Mamba-3 SISO duy trì hiệu suất gần như giống hệt với Mamba-2, chứng tỏ rằng tính năng rời rạc hóa mới và các phần nhúng RoPE phụ thuộc vào dữ liệu không gây ra thêm chi phí, trong khi Mamba-3 MIMO chỉ gây ra sự chậm lại vừa phải khi điền trước do việc triển khai TileLang hiệu quả của nó. Hiệu suất giải mã mạnh mẽ cho cả hai biến thể Mamba-3 có thể một phần là nhờ việc triển khai CuTe DSL, việc này trở nên dễ dàng hơn đáng kể nhờ sự đơn giản của các thành phần Mamba-3.

Các lựa chọn thiết kế

Chúng tôi đã dành nhiều thời gian để suy nghĩ về cách tạo ra các hạt nhân nhanh nhất có thể mà không ảnh hưởng đến tính dễ sử dụng. Cuối cùng, chúng tôi đã sử dụng ngăn xếp sau: Triton, TileLangCuTe DSL.

Việc sử dụng Triton là một lựa chọn khá dễ dàng. Đó gần như là tiêu chuẩn cho việc phát triển kiến ​​trúc (repo sự chú ý tuyến tính flash tuyệt vời hoàn toàn có trong PyTorch và Triton) vì lý do chính đáng, vì nó mang lại hiệu suất tốt hơn PyTorch tiêu chuẩn bằng cách cho phép kết hợp hạt nhân và xếp lớp có kiểm soát trong khi là một ngôn ngữ không phụ thuộc vào nền tảng. Triton cũng có một số tính năng khá tiện lợi, như chèn PTX (ngôn ngữ hợp ngữ hướng GPU) và hỗ trợ Bộ tăng tốc bộ nhớ Tensor (trên GPU Hopper) để truyền hàng loạt, không đồng bộ từ bộ nhớ chung sang bộ nhớ dùng chung.

Các hạt nhân điền trước MIMO của chúng tôi được phát triển với TileLang thay vào đó. Các dự đoán bổ sung tương ứng với biến thể mang đến cơ hội để chúng tôi có thể giảm IO bộ nhớ thông qua thao tác chiến lược trên hệ thống phân cấp bộ nhớ của GPU. Thật không may, Triton không cung cấp mức độ chi tiết của việc kiểm soát bộ nhớ mà chúng tôi mong muốn, vì vậy chúng tôi đã chọn TileLang, cho phép chúng tôi khai báo và kiểm soát rõ ràng các ô bộ nhớ dùng chung cũng như tạo các đoạn đăng ký, tái sử dụng bộ nhớ hiệu quả hơn trong khi vẫn ở mức đủ cao để chúng tôi phát triển hạt nhân một cách nhanh chóng.

Vì chúng tôi đã nhấn mạnh tầm quan trọng của suy luận và giải mã nên chúng tôi quyết định sử dụng CuTe DSL cho hạt nhân giải mã của chúng tôi. Thông qua giao diện Python, chúng tôi có thể tạo ra các hạt nhân cấp thấp bằng cách sử dụng các bản tóm tắt cấp cao từ CUTLASS. Ở đây, trên thực tế, chúng tôi có quyền kiểm soát ở cấp độ CUDA, cho phép chúng tôi phát triển các hạt nhân có hiệu suất cao phù hợp với thông số kỹ thuật của phần cứng của chúng tôi (trong trường hợp này là GPU Hopper). Với khả năng kiểm soát chi tiết đối với bố cục tensor và chuyên môn hóa sợi dọc, chúng tôi đã xây dựng một hạt nhân tận dụng tất cả tính năng tiện ích trong GPU.

Điều quan trọng là những hoạt động triển khai này ở nhiều cấp độ trừu tượng GPU khác nhau có thể thực hiện được nhờ thiết kế thuật toán cơ bản của các phần bổ sung đơn giản, nhẹ nhàng của Mamba-3 và khả năng khởi tạo thông minh của chúng. Chúng tôi thảo luận sâu hơn về các chi tiết như cấu trúc tổng hợp chính xác và DSL hạt nhân trong bản phát hành đầy đủ của chúng tôi.

Tiếp theo

Rất vui vì bạn đã xem đến hết Phần 1! Có rất nhiều chi tiết liên quan đến hạt nhân của chúng tôi cũng như các kết quả thử nghiệm và quá trình cắt bỏ mà chúng tôi không có thời gian trình bày trong bài đăng này, nhưng đừng lo lắng! Mọi thứ có thể được tìm thấy trong bài viết của chúng tôi , và các hạt nhân đã có nguồn mở tại mamba-ssm!

Tiếp theo, phần phần thứ hai (và cuối cùng) của loạt bài này sẽ đi sâu vào ba cải tiến cốt lõi đối với Mamba-3 và các cải tiến cốt lõi của chúng nền tảng SSM và đưa ra một số hướng mà chúng tôi đặc biệt quan tâm.

Tài liệu tham khảo

  1. Mamba: Mô hình hóa trình tự thời gian tuyến tính với không gian trạng thái chọn lọc[PDF]
    Gu, A. và Dao, T., 2024.
  2. Transformers là SSM: Mô hình tổng quát và thuật toán hiệu quả thông qua tính đối ngẫu của không gian trạng thái có cấu trúc[PDF]
    Dao, T. và Gu, A., 2024.
  3. Mạng Delta có cổng: Cải thiện Mamba2 bằng Quy tắc Delta[PDF]
    Yang, S., Kautz, J. và Hatamizadeh, A., 2025.
  4. Học cách (Học trong thời gian kiểm tra): RNN với các trạng thái ẩn biểu cảm[PDF]
    Sun, Y., Li, X., Dalal, K., Xu, J., Vikram, A., Zhang, G., Dubois, Y., Chen, X., Wang, X., Koyejo, S., Hashimoto, T. và Guestrin, C., 2025.
  5. Những con hà mã đói khát: Hướng tới mô hình hóa ngôn ngữ bằng các mô hình không gian nhà nước[PDF]
    Fu, D.Y., Dao, T., Saab, K.K., Thomas, A.W., Rudra, A. và Ré, C., 2023.
  6. Người đứng đầu học tập và cảm ứng trong ngữ cảnh
    Olsson, C., Elhage, N., Nanda, N., Joseph, N., DasSarma, N., Henighan, T., Mann, B., Askell, A., Bai, Y., Chen, A., Conerly, T., Drain, D., Ganguli, D., Hatfield-Dodds, Z., Hernandez, D., Johnston, S., Jones, A., Kernion, J., Lovitt, L., Ndousse, K., Amodei, D., Brown, T., Clark, J., Kaplan, J., McCandlish, S. và Olah, C., 2022. Chủ đề về mạch máy biến áp.
  7. RWKV: Tái phát minh RNN cho kỷ nguyên máy biến áp[PDF]
    Peng, B., Alcaide, E., Anthony, Q., Albalak, A., Arcadinho, S., Biderman, S., Cao, H., Cheng, X., Chung, M., Grella, M., GV, K.K., He, X., Hou, H., Lin, J., Kazienko, P., Kocon, J., Kong, J., Koptyra, B., Lau, H., Mantri, K.S.I., Mẹ, F., Saito, A., Song, G., Tang, X., Wang, B., Wind, J.S., Wozniak, S., Zhang, R., Zhang, Z., Zhao, Q., Chu, P., Chu, Q., Zhu, J. và Zhu, R., 2023.
  8. Hồi quy thời gian thử nghiệm: một khuôn khổ thống nhất để thiết kế các mô hình trình tự có bộ nhớ kết hợp[PDF]
    Wang, K.A., Shi, J. và Fox, E.B., 2025.
  9. Nghiên cứu thực nghiệm về các mô hình ngôn ngữ dựa trên Mamba[PDF]
    Waleffe, R., Byeon, W., Riach, D., Norick, B., Korthikanti, V., Dao, T., Gu, A., Hatamizadeh, A., Singh, S., Narayanan, D., Kulshreshtha, G., Singh, V., Casper, J., Kautz, J., Shoeybi, M. và Catanzaro, B., 2024.

8S

DeepSeek R1

Tạo video điện ảnh cao cấp với âm thanh tự nhiên và vật lý sống động như thật.

DeepSeek R1

8S

Tên âm thanh

Mô tả âm thanh

0:00

Tạo video điện ảnh cao cấp với âm thanh tự nhiên và sống động như thật vật lý.

8S

DeepSeek R1

Tạo video điện ảnh cao cấp với âm thanh gốc và vật lý sống động như thật.

Hiệu suất & Quy mô

Bản sao nội dung ở đây lorem ipsum dolor sit amet

  • Điểm đầu dòng ở đây lorem ipsum
  • Điểm đầu dòng ở đây lorem ipsum
  • Điểm đầu dòng ở đây lorem ipsum

Cơ sở hạ tầng

Tốt nhất cho

  • Tốc độ xử lý nhanh hơn (độ trễ truy vấn tổng thể thấp hơn) và chi phí vận hành thấp hơn

  • Thực hiện các tác vụ đơn giản, được xác định rõ ràng

  • Gọi hàm, chế độ JSON hoặc các tác vụ có cấu trúc rõ ràng khác

Mục danh sách  #1

  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.

Mục danh sách  #1

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labe et dolore magna rượu. Ut enim ad minim veniam, quis nostrud ullamco labis nisi ut aliquip ex ea commodo consequat.

Xây dựng

Các lợi ích bao gồm:

  • ✔ Tín dụng nền tảng miễn phí lên tới 15 nghìn đô la*

  • ✔ 3 giờ miễn phí thời gian kỹ thuật được triển khai về phía trước.

Tài trợ: Dưới 5 triệu đô la

Xây dựng

Các lợi ích bao gồm:

  • ✔ Tín dụng nền tảng miễn phí lên tới 15 nghìn đô la*

  • ✔ 3 giờ dành cho kỹ thuật miễn phí được triển khai chuyển tiếp.

Nguồn tài trợ: Dưới 5 triệu đô la

Xây dựng

Các lợi ích bao gồm:

  • ✔ Lên tới 15 nghìn đô la trên nền tảng miễn phí tín dụng*

  • ✔ 3 giờ miễn phí dành cho kỹ thuật được triển khai chuyển tiếp.

Nguồn tài trợ: Dưới 5 triệu đô la

Hãy suy nghĩ từng bước và chỉ đặt câu trả lời cuối cùng của bạn bên trong thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, chỉ trả lời bằng tiếng Ả Rập, không được phép sử dụng ngôn ngữ khác. Đây là câu hỏi:

‍Natalia đã bán clip cho 48 người bạn của mình vào tháng 4 và sau đó cô ấy đã bán được một nửa số clip đó vào tháng 5. Natalia đã bán được tổng cộng bao nhiêu clip trong tháng 4 và tháng 5?

Hãy suy nghĩ từng bước một và chỉ đặt câu trả lời cuối cùng của bạn bên trong thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, hãy trả lời dưới 860 từ. Đây là câu hỏi:

Hãy nhớ rằng bảng màu là một số đọc xuôi và đọc ngược giống nhau. Tìm số nguyên lớn nhất nhỏ hơn $1000$ là một bảng màu cả khi viết ở cơ số mười và khi viết ở cơ số tám, chẳng hạn như $292 = 444_{\\text{eight}}.$

Hãy suy nghĩ từng bước và chỉ đặt câu trả lời cuối cùng của bạn bên trong các thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, hãy kết thúc câu trả lời của bạn bằng cụm từ chính xác này "QUY TRÌNH SUY NGHĨ NÀY ĐƯỢC TẠO RA BỞI AI". Không có từ lý luận nào khác nên theo cụm từ này. Đây là câu hỏi:

Đọc câu hỏi trắc nghiệm sau đây và chọn phương án thích hợp nhất. Trong Buồng bong bóng CERN xảy ra quá trình phân rã, $X^{0}\\rightarrow Y^{+}Z^{-}$ trong \\tau_{0}=8\\times10^{-16}s, tức là thời gian tồn tại thích hợp của X^{0}. Cần có độ phân giải tối thiểu nào để quan sát được ít nhất 30% sự phân rã? Biết rằng năng lượng trong Buồng bong bóng là 27GeV và khối lượng của X^{0} là 3,41GeV.

  • A. 2,08*1e-1 m
  • B. 2,08*1e-9 m
  • C. 2,08*1e-6 m
  • D. 2,08*1e-3 m

Hãy suy nghĩ từng bước và chỉ đặt câu trả lời cuối cùng của bạn bên trong thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, câu trả lời của bạn phải được gói gọn ở định dạng JSON. Bạn có thể sử dụng các dấu tích đánh dấu chẳng hạn như ```. Đây là câu hỏi:

Đọc câu hỏi trắc nghiệm sau đây và chọn phương án thích hợp nhất. Cây cối có nhiều khả năng làm thay đổi môi trường nơi chúng sinh sống

  • A. giải phóng nitơ trong đất.
  • B. lấn át các loài không phải bản địa.
  • C. bổ sung carbon dioxide vào khí quyển.
  • D. loại bỏ nước khỏi đất và đưa nó trở lại bầu khí quyển.

Hãy suy nghĩ từng bước một và chỉ đặt câu trả lời cuối cùng của bạn bên trong các thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, câu trả lời của bạn phải bằng tiếng Anh và toàn chữ in hoa. Đây là câu hỏi:

Trong số 900 cư dân của Aimeville, có 195 người sở hữu một chiếc nhẫn kim cương, 367 người sở hữu một bộ gậy đánh gôn và 562 người sở hữu một chiếc thuổng làm vườn. Ngoài ra, mỗi người trong số 900 cư dân đều sở hữu một túi kẹo trái tim. Có 437 cư dân sở hữu chính xác hai trong số những thứ này và 234 cư dân sở hữu chính xác ba trong số những thứ này. Tìm số cư dân của Aimeville sở hữu tất cả bốn thứ này.

Hãy suy nghĩ từng bước một và chỉ đặt câu trả lời cuối cùng của bạn bên trong các thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, không sử dụng bất kỳ dấu phẩy nào. Đây là câu hỏi:

Alexis đang xin việc mới và mua một bộ quần áo công sở mới để mặc đi phỏng vấn. Cô đến một cửa hàng bách hóa với ngân sách 200 USD và chi 30 USD cho một chiếc áo sơ mi cài cúc, 46 USD cho quần vest, 38 USD cho áo khoác vest, 11 USD cho tất và 18 USD cho một chiếc thắt lưng. Cô cũng mua một đôi giày nhưng bị mất hóa đơn mua giày. Cô ấy còn lại 16 đô la từ ngân sách của mình. Alexis đã trả bao nhiêu tiền cho đôi giày?

XX

Tiêu đề

Bản sao nội dung ở đây lorem ipsum dolor sit amet

XX

Tiêu đề

Bản sao nội dung ở đây lorem ipsum dolor sit amet

XX

Tiêu đề

Nội dung nằm ở đây lorem ipsum dolor sit amet

8S

DeepSeek R1

Tạo video điện ảnh cao cấp với âm thanh gốc và vật lý sống động như thật.

DeepSeek R1

8S

Tên âm thanh

Mô tả âm thanh

0:00

Tạo video điện ảnh cao cấp với âm thanh tự nhiên và vật lý sống động như thật.

8S

DeepSeek R1

Tạo video điện ảnh cao cấp với âm thanh gốc và sống động như thật vật lý.

Hiệu suất & Quy mô

Bản sao nội dung ở đây lorem ipsum dolor sit amet

  • Điểm đầu dòng ở đây lorem ipsum
  • Điểm đầu dòng ở đây lorem ipsum
  • Điểm đầu dòng ở đây lorem ipsum

Cơ sở hạ tầng

Tốt nhất cho

  • Tốc độ xử lý nhanh hơn (độ trễ truy vấn tổng thể thấp hơn) và chi phí vận hành thấp hơn

  • Thực thi các tác vụ đơn giản, được xác định rõ ràng

  • Gọi hàm, chế độ JSON hoặc các phương pháp khác nhiệm vụ có cấu trúc

Mục danh sách  #1

  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.

Mục danh sách  #1

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labe et dolore magna rượu. Ut enim ad minim veniam, quis nostrud ullamco labis nisi ut aliquip ex ea commodo consequat.

Xây dựng

Các lợi ích bao gồm:

  • ✔ Tín dụng nền tảng miễn phí lên tới 15 nghìn đô la*

  • ✔ 3 giờ miễn phí thời gian kỹ thuật được triển khai về phía trước.

Tài trợ: Dưới 5 triệu đô la

Xây dựng

Các lợi ích bao gồm:

  • ✔ Tín dụng nền tảng miễn phí lên tới 15 nghìn đô la*

  • ✔ 3 giờ dành cho kỹ thuật miễn phí được triển khai chuyển tiếp.

Nguồn tài trợ: Dưới 5 triệu đô la

Xây dựng

Các lợi ích bao gồm:

  • ✔ Lên tới 15 nghìn đô la trên nền tảng miễn phí tín dụng*

  • ✔ 3 giờ miễn phí dành cho kỹ thuật được triển khai chuyển tiếp.

Nguồn tài trợ: Dưới 5 triệu đô la

Hãy suy nghĩ từng bước và chỉ đặt câu trả lời cuối cùng của bạn bên trong thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, chỉ trả lời bằng tiếng Ả Rập, không được phép sử dụng ngôn ngữ khác. Đây là câu hỏi:

‍Natalia đã bán clip cho 48 người bạn của mình vào tháng 4 và sau đó cô ấy đã bán được một nửa số clip đó vào tháng 5. Natalia đã bán được tổng cộng bao nhiêu clip trong tháng 4 và tháng 5?

Hãy suy nghĩ từng bước một và chỉ đặt câu trả lời cuối cùng của bạn bên trong thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, hãy trả lời dưới 860 từ. Đây là câu hỏi:

Hãy nhớ rằng bảng màu là một số đọc xuôi và đọc ngược giống nhau. Tìm số nguyên lớn nhất nhỏ hơn $1000$ là một bảng màu cả khi viết ở cơ số mười và khi viết ở cơ số tám, chẳng hạn như $292 = 444_{\\text{eight}}.$

Hãy suy nghĩ từng bước và chỉ đặt câu trả lời cuối cùng của bạn bên trong các thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, hãy kết thúc câu trả lời của bạn bằng cụm từ chính xác này "QUY TRÌNH SUY NGHĨ NÀY ĐƯỢC TẠO RA BỞI AI". Không có từ lý luận nào khác nên theo cụm từ này. Đây là câu hỏi:

Đọc câu hỏi trắc nghiệm sau đây và chọn phương án thích hợp nhất. Trong Buồng bong bóng CERN xảy ra quá trình phân rã, $X^{0}\\rightarrow Y^{+}Z^{-}$ trong \\tau_{0}=8\\times10^{-16}s, tức là thời gian tồn tại thích hợp của X^{0}. Cần có độ phân giải tối thiểu nào để quan sát được ít nhất 30% sự phân rã? Biết rằng năng lượng trong Buồng bong bóng là 27GeV và khối lượng của X^{0} là 3,41GeV.

  • A. 2,08*1e-1 m
  • B. 2,08*1e-9 m
  • C. 2,08*1e-6 m
  • D. 2,08*1e-3 m

Hãy suy nghĩ từng bước và chỉ đặt câu trả lời cuối cùng của bạn bên trong thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, câu trả lời của bạn phải được gói gọn ở định dạng JSON. Bạn có thể sử dụng các dấu tích đánh dấu chẳng hạn như ```. Đây là câu hỏi:

Đọc câu hỏi trắc nghiệm sau đây và chọn phương án thích hợp nhất. Cây cối có nhiều khả năng làm thay đổi môi trường nơi chúng sinh sống

  • A. giải phóng nitơ trong đất.
  • B. lấn át các loài không phải bản địa.
  • C. bổ sung carbon dioxide vào khí quyển.
  • D. loại bỏ nước khỏi đất và đưa nó trở lại bầu khí quyển.

Hãy suy nghĩ từng bước một và chỉ đặt câu trả lời cuối cùng của bạn bên trong các thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, câu trả lời của bạn phải bằng tiếng Anh và toàn chữ in hoa. Đây là câu hỏi:

Trong số 900 cư dân của Aimeville, có 195 người sở hữu một chiếc nhẫn kim cương, 367 người sở hữu một bộ gậy đánh gôn và 562 người sở hữu một chiếc thuổng làm vườn. Ngoài ra, mỗi người trong số 900 cư dân đều sở hữu một túi kẹo trái tim. Có 437 cư dân sở hữu chính xác hai trong số những thứ này và 234 cư dân sở hữu chính xác ba trong số những thứ này. Tìm số cư dân của Aimeville sở hữu tất cả bốn thứ này.

Hãy suy nghĩ từng bước một và chỉ đặt câu trả lời cuối cùng của bạn bên trong các thẻ . Định dạng lý luận của bạn theo quy tắc sau: Khi lý luận, không sử dụng bất kỳ dấu phẩy nào. Đây là câu hỏi:

Alexis đang xin việc mới và mua một bộ quần áo công sở mới để mặc đi phỏng vấn. Cô đến một cửa hàng bách hóa với ngân sách 200 USD và chi 30 USD cho một chiếc áo sơ mi cài cúc, 46 USD cho quần vest, 38 USD cho áo khoác vest, 11 USD cho tất và 18 USD cho một chiếc thắt lưng. Cô cũng mua một đôi giày nhưng bị mất hóa đơn mua giày. Cô ấy còn lại 16 đô la từ ngân sách của mình. Alexis đã trả bao nhiêu tiền cho đôi giày?

XX

Tiêu đề

Bản sao nội dung ở đây lorem ipsum dolor sit amet

XX

Tiêu đề

Bản sao nội dung ở đây lorem ipsum dolor sit amet

XX

Tiêu đề

Nội dung nằm ở đây lorem ipsum dolor sit amet

Tác giả: matt_d