TinyLoRA – Học cách suy luận trong 13 tham số

Xem bản PDF HTML (thử nghiệm)

Tóm tắt:Nghiên cứu gần đây đã chỉ ra rằng các mô hình ngôn ngữ có thể học cách \textit{reason}, thường thông qua học tăng cường. Một số công việc thậm chí còn đào tạo các tham số hóa cấp thấp để suy luận, nhưng LoRA thông thường không thể mở rộng xuống dưới kích thước mô hình. Chúng tôi đặt câu hỏi liệu thậm chí xếp hạng = 1 LoRA có cần thiết để học cách suy luận và đề xuất TinyLoRA, một phương pháp để mở rộng các bộ điều hợp thứ hạng thấp thành kích thước nhỏ như một tham số hay không. Trong quá trình tham số hóa mới, chúng tôi có thể huấn luyện kích thước tham số 8B có độ chính xác Qwen2.5 đến 91\% trên GSM8K chỉ với 13 tham số được huấn luyện trong bf16 (tổng cộng 26 byte). Nhìn chung, chúng tôi nhận thấy xu hướng này vẫn đúng: chúng tôi có thể khôi phục 90\% cải thiện hiệu suất trong khi đào tạo các tham số ít hơn $1000x$ trên một bộ điểm chuẩn học-lý luận khó hơn như AIME, AMC và MATH500. Đáng chú ý, chúng tôi chỉ có thể đạt được hiệu suất mạnh mẽ như vậy với RL: các mô hình được đào tạo bằng SFT yêu cầu cập nhật lớn hơn từ 100 đến 1000 lần $ để đạt được hiệu suất tương tự.

Chủ đề: Học máy (cs.LG) Trích dẫn là: arXiv:2602.04118 [cs.LG] (hoặc arXiv:2602.04118v1 [cs.LG] cho phiên bản này) https://doi.org/10.48550/arXiv.2602.04118

DOI do arXiv cấp qua DataCite

Lịch sử gửi

Từ: John Morris [xem email]
[v1] Thứ Tư, ngày 4 tháng 2 năm 2026 01:20:04 UTC (1.595 KB)