TinyLoRA – Học cách suy luận trong 13 tham số
AI/ML·Hacker News·0 lượt xem

TinyLoRA – Học cách suy luận trong 13 tham số

TinyLoRA – Learning to Reason in 13 Parameters

AI Summary

Các nhà nghiên cứu vừa giới thiệu TinyLoRA, một kỹ thuật giúp tinh chỉnh các low-rank adapters cho tác vụ suy luận (reasoning tasks) chỉ với vỏn vẹn một tham số. Điều này cho phép huấn luyện các large language models (LLMs) như Qwen2.5 trên các bộ benchmark suy luận phức tạp như GSM8K mà chỉ cần một lượng tham số trainable cực kỳ nhỏ, ví dụ chỉ 13 tham số mà vẫn đạt được 91% accuracy. Đối với các dev, đây là một bước tiến quan trọng trong việc tinh chỉnh LLMs hiệu quả cho các tác vụ suy luận. Nó cho thấy rằng khả năng suy luận mạnh mẽ hoàn toàn có thể đạt được chỉ với việc cập nhật rất ít tham số, đặc biệt là khi kết hợp với reinforcement learning thay vì supervised fine-tuning.

Nghiên cứu gần đây đã chỉ ra rằng các mô hình ngôn ngữ có thể học cách \textit{reason}, thường thông qua học tăng cường. Một số công việc thậm chí còn huấn luyện các tham số hóa cấp thấp để suy luận, nhưng LoRA thông thường...

Xem bản PDF HTML (thử nghiệm)

Tóm tắt:Nghiên cứu gần đây đã chỉ ra rằng các mô hình ngôn ngữ có thể học cách \textit{reason}, thường thông qua học tăng cường. Một số công việc thậm chí còn đào tạo các tham số hóa cấp thấp để suy luận, nhưng LoRA thông thường không thể mở rộng xuống dưới kích thước mô hình. Chúng tôi đặt câu hỏi liệu thậm chí xếp hạng = 1 LoRA có cần thiết để học cách suy luận và đề xuất TinyLoRA, một phương pháp để mở rộng các bộ điều hợp thứ hạng thấp thành kích thước nhỏ như một tham số hay không. Trong quá trình tham số hóa mới, chúng tôi có thể huấn luyện kích thước tham số 8B có độ chính xác Qwen2.5 đến 91\% trên GSM8K chỉ với 13 tham số được huấn luyện trong bf16 (tổng cộng 26 byte). Nhìn chung, chúng tôi nhận thấy xu hướng này vẫn đúng: chúng tôi có thể khôi phục 90\% cải thiện hiệu suất trong khi đào tạo các tham số ít hơn $1000x$ trên một bộ điểm chuẩn học-lý luận khó hơn như AIME, AMC và MATH500. Đáng chú ý, chúng tôi chỉ có thể đạt được hiệu suất mạnh mẽ như vậy với RL: các mô hình được đào tạo bằng SFT yêu cầu cập nhật lớn hơn từ 100 đến 1000 lần $ để đạt được hiệu suất tương tự.
Chủ đề: Học máy (cs.LG) Trích dẫn là: arXiv:2602.04118 [cs.LG]   (hoặc arXiv:2602.04118v1 [cs.LG] cho phiên bản này)   https://doi.org/10.48550/arXiv.2602.04118

DOI do arXiv cấp qua DataCite

Lịch sử gửi

Từ: John Morris [xem email]
[v1] Thứ Tư, ngày 4 tháng 2 năm 2026 01:20:04 UTC (1.595 KB)

Tác giả: sorenjan

#discussion