TurboQuant: Xác định lại hiệu quả AI với khả năng nén cực...

Vectơ là cách cơ bản mà các mô hình AI hiểu và xử lý thông tin. Các vectơ nhỏ mô tả các thuộc tính đơn giản, chẳng hạn như một điểm trong biểu đồ, trong khi các vectơ “chiều cao” nắm bắt thông tin phức tạp như các đặc điểm của hình ảnh, ý nghĩa của một từ hoặc các thuộc tính của tập dữ liệu. Vectơ chiều cao cực kỳ mạnh mẽ nhưng chúng cũng tiêu tốn một lượng lớn bộ nhớ, dẫn đến tắc nghẽn trong bộ đệm khóa-giá trị, một "bảng gian lận kỹ thuật số" tốc độ cao lưu trữ thông tin thường được sử dụng dưới các nhãn đơn giản để máy tính có thể truy xuất thông tin đó ngay lập tức mà không cần phải tìm kiếm trong cơ sở dữ liệu lớn, chậm.

Lượng tử hóa vectơ là một kỹ thuật nén dữ liệu cổ điển, mạnh mẽ giúp giảm kích thước của vectơ nhiều chiều. Tính năng tối ưu hóa này giải quyết hai khía cạnh quan trọng của AI: nó nâng cao tìm kiếm vectơ, công nghệ tốc độ cao hỗ trợ AI và các công cụ tìm kiếm quy mô lớn, bằng cách cho phép tra cứu điểm tương đồng nhanh hơn; và nó giúp giải phóng bộ đệm khóa-giá trị thắt cổ chai bằng cách giảm kích thước của các cặp khóa-giá trị, cho phép tìm kiếm điểm tương đồng nhanh hơn và giảm chi phí bộ nhớ. Tuy nhiên, lượng tử hóa vectơ truyền thống thường đưa ra "chi phí bộ nhớ" của riêng nó vì hầu hết các phương pháp đều yêu cầu tính toán và lưu trữ (với độ chính xác hoàn toàn) hằng số lượng tử hóa cho mỗi khối dữ liệu nhỏ. Chi phí này có thể thêm 1 hoặc 2 bit bổ sung cho mỗi số, phần nào phá vỡ mục đích lượng tử hóa vectơ.

Hôm nay, chúng tôi giới thiệu TurboQuant (sẽ được trình bày tại ICLR 2026), một thuật toán nén giải quyết tối ưu thách thức về bộ nhớ chi phí trong lượng tử hóa vector. Chúng tôi cũng giới thiệu Quantized Johnson-Lindenstrauss (QJL) và PolarQuant (sẽ được trình bày tại AISTATS 2026), mà TurboQuant sử dụng để đạt được kết quả của mình. Trong quá trình thử nghiệm, cả ba kỹ thuật đều cho thấy nhiều hứa hẹn trong việc giảm tắc nghẽn khóa-giá trị mà không làm giảm hiệu suất của mô hình AI. Điều này có thể có ý nghĩa sâu sắc đối với tất cả các trường hợp sử dụng dựa vào khả năng nén, bao gồm và đặc biệt là trong lĩnh vực tìm kiếm và AI.

TurboQuant hoạt động như thế nào

TurboQuant là một phương pháp nén giúp giảm kích thước mô hình ở mức cao mà không mất độ chính xác, lý tưởng để hỗ trợ cả nén bộ nhớ đệm khóa-giá trị (KV) và tìm kiếm vectơ. Nó thực hiện điều này thông qua hai bước chính:

Nén chất lượng cao (phương pháp PolarQuant): TurboQuant bắt đầu bằng cách xoay ngẫu nhiên các vectơ dữ liệu. Bước thông minh này giúp đơn giản hóa hình học của dữ liệu, giúp dễ dàng áp dụng bộ lượng tử hóa tiêu chuẩn, chất lượng cao (một công cụ ánh xạ một tập hợp lớn các giá trị liên tục, như số thập phân chính xác, sang tập hợp các ký hiệu hoặc số rời rạc, nhỏ hơn, chẳng hạn như số nguyên: các ví dụ bao gồm lượng tử hóa âm thanh và nén jpeg) cho từng phần của vectơ riêng lẻ. Giai đoạn đầu tiên này sử dụng hầu hết công suất nén (phần lớn các bit) để nắm bắt khái niệm chính và cường độ của vectơ gốc.
Loại bỏ các lỗi ẩn: TurboQuant sử dụng một lượng nhỏ công suất nén còn lại (chỉ 1 bit) để áp dụng thuật toán QJL cho lượng lỗi nhỏ còn sót lại từ giai đoạn đầu tiên. Giai đoạn QJL hoạt động như một công cụ kiểm tra lỗi toán học giúp loại bỏ sai lệch, dẫn đến điểm chú ý chính xác hơn.

Để hiểu đầy đủ cách TurboQuant đạt được hiệu quả này, chúng ta hãy xem xét kỹ hơn cách hoạt động của thuật toán QJL và PolarQuant.

QJL: Thủ thuật 1-bit, không tốn chi phí

QJL sử dụng một kỹ thuật toán học có tên là Biến đổi Johnson-Lindenstrauss để thu nhỏ dữ liệu nhiều chiều, phức tạp trong khi vẫn duy trì khoảng cách và mối quan hệ thiết yếu giữa các điểm dữ liệu. Nó giảm mỗi số vectơ kết quả thành một bit dấu (+1 hoặc -1). Thuật toán này về cơ bản tạo ra tốc ký tốc độ cao không yêu cầu chi phí bộ nhớ. Để duy trì độ chính xác, QJL sử dụng một công cụ ước tính đặc biệt giúp cân bằng một cách chiến lược truy vấn có độ chính xác cao với dữ liệu đơn giản, có độ chính xác thấp. Điều này cho phép mô hình tính toán chính xác điểm chú ý (quy trình dùng để quyết định phần nào trong dữ liệu đầu vào là quan trọng và phần nào có thể được bỏ qua một cách an toàn).

PolarQuant: Một “góc” mới về nén

PolarQuant giải quyết vấn đề tiêu hao bộ nhớ bằng cách sử dụng một cách tiếp cận hoàn toàn khác. Thay vì xem vectơ bộ nhớ bằng tọa độ tiêu chuẩn (tức là X, Y, Z) để biểu thị khoảng cách dọc theo mỗi trục, PolarQuant chuyển đổi vectơ thành tọa độ cực bằng cách sử dụng Hệ tọa độ Descartes. Điều này có thể so sánh với việc thay thế “Đi 3 khối Đông, 4 khối Bắc” bằng “Đi tổng cộng 5 khối ở góc 37 độ”. Điều này dẫn đến hai phần thông tin: bán kính, biểu thị mức độ mạnh mẽ của dữ liệu cốt lõi và góc biểu thị hướng hoặc ý nghĩa của dữ liệu). Do mẫu của các góc đã được biết và có độ tập trung cao nên mô hình không còn cần phải thực hiện bước chuẩn hóa dữ liệu tốn kém nữa vì mô hình này ánh xạ dữ liệu vào một lưới "tròn" cố định, có thể dự đoán được trong đó các ranh giới đã được xác định, thay vì lưới "vuông" nơi các ranh giới thay đổi liên tục. Điều này cho phép PolarQuant loại bỏ chi phí sử dụng bộ nhớ mà các phương pháp truyền thống phải gánh chịu.

Thí nghiệm và kết quả

Chúng tôi đã đánh giá nghiêm ngặt cả ba thuật toán theo các điểm chuẩn ngữ cảnh dài tiêu chuẩn bao gồm: LongBench, Kim In A Haystack, ZeroSCROLLS, RULER và L-Eval sử dụng LLM nguồn mở (Gemma và Mistral). Dữ liệu thử nghiệm chứng minh rằng TurboQuant đạt được hiệu suất ghi điểm tối ưu xét về cả độ biến dạng của sản phẩm chấm và recall đồng thời giảm thiểu dung lượng bộ nhớ khóa-giá trị (KV). Biểu đồ bên dưới hiển thị điểm hiệu suất tổng hợp qua nhiều tác vụ khác nhau, bao gồm trả lời câu hỏi, tạo mã và tóm tắt cho TurboQuant, PolarQuant và KIVI cơ sở.

Các kết quả cho các nhiệm vụ “mò kim đáy bể” trong ngữ cảnh dài (tức là các thử nghiệm được thiết kế để xem liệu một mô hình có thể tìm thấy một mẩu thông tin nhỏ, cụ thể bị chôn vùi bên trong một lượng lớn văn bản hay không) được hiển thị bên dưới. Một lần nữa, TurboQuant đạt được kết quả hoàn hảo ở tất cả các điểm chuẩn trong khi giảm kích thước bộ nhớ giá trị chính xuống ít nhất 6 lần. PolarQuant cũng gần như không bị tổn thất khi thực hiện tác vụ này.

TurboQuant đã chứng minh rằng họ có thể lượng tử hóa bộ đệm khóa-giá trị thành 3 bit mà không cần đào tạo hay tinh chỉnh và gây ra bất kỳ ảnh hưởng nào đến độ chính xác của mô hình, đồng thời đạt được thời gian chạy nhanh hơn LLM ban đầu (Gemma và Mistral). Nó đặc biệt hiệu quả để triển khai và phát sinh chi phí thời gian chạy không đáng kể. Sơ đồ sau đây minh họa tốc độ tính toán nhật ký chú ý bằng cách sử dụng TurboQuant: cụ thể, TurboQuant 4 bit đạt hiệu suất tăng gấp 8 lần so với các khóa không lượng tử hóa 32 bit trên Bộ tăng tốc GPU H100.

Điều này khiến nó trở nên lý tưởng để hỗ trợ các trường hợp sử dụng như tìm kiếm vectơ trong đó nó tăng tốc đáng kể quá trình xây dựng chỉ mục. Chúng tôi đã đánh giá hiệu quả của TurboQuant trong tìm kiếm vectơ chiều cao dựa trên các phương pháp tiên tiến (PQ và RabbiQ ) bằng cách sử dụng Tỷ lệ thu hồi 1@k, đo lường tần suất thuật toán nắm bắt được kết quả sản phẩm bên trong thực sự hàng đầu trong phạm vi xấp xỉ top-k của nó. TurboQuant luôn đạt được tỷ lệ thu hồi vượt trội so với các phương pháp cơ bản, mặc dù các phương pháp cơ sở đó sử dụng các sách mã lớn không hiệu quả và điều chỉnh theo tập dữ liệu cụ thể (hình bên dưới). Điều này khẳng định sự mạnh mẽ và hiệu quả của TurboQuant đối với các tác vụ tìm kiếm đa chiều.

TurboQuant thể hiện sự thay đổi mang tính biến đổi trong tìm kiếm nhiều chiều. Bằng cách thiết lập một tiêu chuẩn mới cho tốc độ có thể đạt được, nó mang lại tốc độ biến dạng gần như tối ưu theo cách không để ý đến dữ liệu. Điều này cho phép các động cơ lân cận gần nhất của chúng tôi hoạt động với hiệu suất của hệ thống 3 bit trong khi vẫn duy trì độ chính xác của các mẫu nặng hơn nhiều. Xem bài báo để biết thêm chi tiết.

Nhìn về phía trước

TurboQuant, QJL và PolarQuant không chỉ là những giải pháp kỹ thuật thực tế; chúng là những đóng góp cơ bản về mặt thuật toán được hỗ trợ bởi những bằng chứng lý thuyết vững chắc. Những phương pháp này không chỉ hoạt động tốt trong các ứng dụng trong thế giới thực; chúng được chứng minh là có hiệu quả và hoạt động gần các giới hạn thấp hơn về mặt lý thuyết. Nền tảng nghiêm ngặt này là yếu tố khiến chúng trở nên mạnh mẽ và đáng tin cậy đối với các hệ thống quan trọng, quy mô lớn.

Trong khi một ứng dụng chính đang giải quyết tình trạng tắc nghẽn bộ nhớ đệm khóa-giá trị trong các mô hình như Gemini, thì tác động của lượng tử hóa vectơ trực tuyến, hiệu quả còn mở rộng hơn nữa. Ví dụ: tìm kiếm hiện đại đang phát triển không chỉ từ khóa để hiểu mục đích và ý nghĩa. Điều này yêu cầu tìm kiếm vectơ — khả năng tìm thấy các mục "gần nhất" hoặc giống nhất về mặt ngữ nghĩa trong cơ sở dữ liệu gồm hàng tỷ vectơ.

Các kỹ thuật như TurboQuant rất quan trọng cho nhiệm vụ này. Chúng cho phép xây dựng và truy vấn các chỉ mục vectơ lớn với bộ nhớ tối thiểu, thời gian xử lý trước gần như bằng 0 và độ chính xác hiện đại. Điều này làm cho việc tìm kiếm ngữ nghĩa ở quy mô của Google nhanh hơn và hiệu quả hơn. Khi AI được tích hợp nhiều hơn vào tất cả các sản phẩm, từ LLM đến tìm kiếm ngữ nghĩa, công việc lượng tử hóa vectơ cơ bản này sẽ trở nên quan trọng hơn bao giờ hết.

Lời cảm ơn

Dòng nghiên cứu này được thực hiện với sự cộng tác của Praneeth Kacham, nhà nghiên cứu tại Google; Insu Han, Trợ lý Giáo sư tại KAIST; và Majid Daliri, nghiên cứu sinh tiến sĩ tại NYU; Lars Gottesbüren, nhà nghiên cứu tại Google; và Rajesh Jayaram, nhà nghiên cứu tại Google.

TurboQuant: Xác định lại hiệu quả AI với khả năng nén cực cao