Apple: Tự chưng cất đơn giản đến ngượng ngùng giúp cải thiện việc tạo mã
Apple: Embarrassingly Simple Self-Distillation Improves Code Generation
Các nhà nghiên cứu của Apple đã giới thiệu "Simple Self-Distillation" (SSD), một kỹ thuật khá hiệu quả để nâng cao khả năng sinh mã của LLM. Phương pháp này bao gồm việc fine-tune một model dựa trên chính những mẫu mã mà nó đã sinh ra (với các cài đặt temperature và truncation cụ thể). Kết quả cho thấy sự cải thiện đáng kể về độ chính xác, đặc biệt là với các bài toán khó hơn. SSD giúp giải quyết sự đánh đổi cố hữu giữa precision và exploration trong quá trình LLM decoding, cho thấy đây là một chiến lược hậu đào tạo (post-training) hữu ích cho các developer muốn cải thiện khả năng sinh mã mà không cần các quy trình xác minh phức tạp hay phản hồi từ bên ngoài.
Một mô hình ngôn ngữ lớn (LLM) có thể cải thiện việc tạo mã chỉ bằng cách sử dụng đầu ra thô của chính nó, mà không cần người xác minh, mô hình giáo viên hoặc học tăng cường không? Chúng tôi trả lời khẳng định bằng câu hỏi đơn giản...
Tóm tắt: Một mô hình ngôn ngữ lớn (LLM) có thể cải thiện việc tạo mã chỉ bằng cách sử dụng đầu ra thô của chính nó mà không cần người xác minh, mô hình giáo viên hoặc học tăng cường không? Chúng tôi trả lời khẳng định với tự phân hủy đơn giản (SSD): các giải pháp mẫu từ mô hình với nhiệt độ nhất định và cắt ngắn cấu hình, sau đó tinh chỉnh trên các mẫu đó với tinh chỉnh có giám sát tiêu chuẩn. SSD cải thiện Qwen3-30B - Hướng dẫn từ 42,4% lên 55,3% vượt qua@1 trên LiveCodeBench v6, với mức tăng tập trung vào các vấn đề khó hơn và nó khái quát hóa trên các mô hình Qwen và Llama ở tỷ lệ 4B, 8B và 30B, bao gồm cả các biến thể hướng dẫn và tư duy. Để hiểu lý do tại sao một phương pháp đơn giản như vậy có thể hoạt động, chúng tôi theo dõi những lợi ích này đến một cuộc xung đột thăm dò chính xác trong giải mã LLM và cho thấy rằng SSD định hình lại các phân phối mã thông báo theo cách phụ thuộc vào ngữ cảnh, ngăn chặn đuôi mất tập trung trong đó độ chính xác quan trọng trong khi vẫn giữ được sự đa dạng hữu ích trong đó việc thăm dò quan trọng. Kết hợp với nhau, SSD cung cấp một hướng sau đào tạo bổ sung để cải thiện việc tạo mã LLM.
| Đối tượng: | Tính toán và ngôn ngữ (cs.CL) |
| Trích dẫn dưới dạng: | arXiv:2604.01193 [cs.CL] |
| (hoặc arXiv:2604.01193v1 [cs.CL] cho phiên bản này) | |
| https://doi.org/10.48550/arXiv.2604.01193 arXiv- issued DOI via DataCite (pending registration) |
Lịch sử gửi
Từ: Ruixiang Zhang xem email
[v1]
Thứ Tư, ngày 1 tháng 4 năm 2026 17:39:50 UTC (21,738 KB)
Tác giả: Anon84