Apple: Tự chưng cất đơn giản đến ngượng ngùng giúp cải th...

Xem PDF HTML (thử nghiệm)

Tóm tắt: Một mô hình ngôn ngữ lớn (LLM) có thể cải thiện việc tạo mã chỉ bằng cách sử dụng đầu ra thô của chính nó mà không cần người xác minh, mô hình giáo viên hoặc học tăng cường không? Chúng tôi trả lời khẳng định với tự phân hủy đơn giản (SSD): các giải pháp mẫu từ mô hình với nhiệt độ nhất định và cắt ngắn cấu hình, sau đó tinh chỉnh trên các mẫu đó với tinh chỉnh có giám sát tiêu chuẩn. SSD cải thiện Qwen3-30B - Hướng dẫn từ 42,4% lên 55,3% vượt qua@1 trên LiveCodeBench v6, với mức tăng tập trung vào các vấn đề khó hơn và nó khái quát hóa trên các mô hình Qwen và Llama ở tỷ lệ 4B, 8B và 30B, bao gồm cả các biến thể hướng dẫn và tư duy. Để hiểu lý do tại sao một phương pháp đơn giản như vậy có thể hoạt động, chúng tôi theo dõi những lợi ích này đến một cuộc xung đột thăm dò chính xác trong giải mã LLM và cho thấy rằng SSD định hình lại các phân phối mã thông báo theo cách phụ thuộc vào ngữ cảnh, ngăn chặn đuôi mất tập trung trong đó độ chính xác quan trọng trong khi vẫn giữ được sự đa dạng hữu ích trong đó việc thăm dò quan trọng. Kết hợp với nhau, SSD cung cấp một hướng sau đào tạo bổ sung để cải thiện việc tạo mã LLM.

Đối tượng:	Tính toán và ngôn ngữ (cs.CL)
Trích dẫn dưới dạng:	arXiv:2604.01193 [cs.CL]
	(hoặc arXiv:2604.01193v1 [cs.CL] cho phiên bản này)
	https://doi.org/10.48550/arXiv.2604.01193 arXiv- issued DOI via DataCite (pending registration)

Lịch sử gửi

Từ: Ruixiang Zhang xem email
[v1] Thứ Tư, ngày 1 tháng 4 năm 2026 17:39:50 UTC (21,738 KB)

Apple: Tự chưng cất đơn giản đến ngượng ngùng giúp cải thiện việc tạo mã

Lịch sử gửi