EsoLang-Bench: Đánh giá lý luận chân thực trong LLM thông...

Tóm tắt

Các điểm chuẩn hiện tại để tạo mã mô hình ngôn ngữ lớn (LLM) chủ yếu đánh giá xu hướng chính thống các ngôn ngữ như Python, nơi các mô hình được hưởng lợi từ kho dữ liệu đào tạo trước khổng lồ. Điều này dẫn đến điểm số chính xác tăng cao có thể phản ánh khả năng ghi nhớ dữ liệu hơn là khả năng suy luận thực sự. Chúng tôi giới thiệu EsoLang-Bench, một chuẩn mực của 80 vấn đề lập trình trên năm các ngôn ngữ bí truyền (Brainfuck, Befunge-98, Whitespace, Unlambda và Shakespeare) trong đó dữ liệu đào tạo nghèo hơn Python từ 5.000 đến 100.000 lần.

Chúng tôi đánh giá năm mô hình biên giới bằng cách sử dụng năm chiến lược nhắc nhở và hai hệ thống mã hóa tác nhân. Mô hình hoạt động tốt nhất chỉ đạt được độ chính xác tổng thể 3,8% so với mô hình ~90% cho các tác vụ Python tương đương. Tất cả các mô hình đều đạt điểm 0% ở các vấn đề trên mức Dễ cấp độ, Khoảng trắng vẫn hoàn toàn chưa được giải quyết (0% trên tất cả các cấu hình) và tự phản ánh về cơ bản không mang lại lợi ích gì. Những kết quả này cho thấy một khoảng cách đáng kể giữa hiệu suất chuẩn về các ngôn ngữ chính thống và khả năng lập trình thực sự, cho thấy rằng việc tạo mã LLM hiện tại khả năng hẹp hơn nhiều so với các số liệu tiêu đề ngụ ý.

Video giải thích

Kết quả tốt nhất trong tất cả các chiến lược nhắc nhở cho mỗi ngôn ngữ. 80 vấn đề cho mỗi ngôn ngữ, mỗi ngôn ngữ có 6 trường hợp kiểm tra.

Những phát hiện chính

Khoảng cách hiệu suất 85 điểm

Các mẫu Frontier đạt được 85 đến 95% điểm chuẩn tiêu chuẩn chỉ đạt 0 đến 11% điểm tương đương nhiệm vụ bí truyền, tiết lộ rằng điểm cao trong các ngôn ngữ chính thống không phản ánh chung khả năng lập trình.

0% Vượt mức dễ dàng

Tất cả các mô hình đều đạt 0% ở các bài toán Trung bình, Khó và Cực khó trên tất cả các ngôn ngữ và chiến lược, cho thấy mức trần cứng nhắc về khả năng suy luận hiện tại vượt xa những nhiệm vụ đơn giản nhất.

Khoảng trắng hoàn toàn không được giải quyết

Không có mô hình nào tạo ra mã Khoảng trắng hợp lệ trong bất kỳ cấu hình nào. Cú pháp vô hình (chỉ dấu cách, tab, dòng mới) không thể học được từ dữ liệu huấn luyện, một mô hình việc đưa vào đào tạo trước là không hợp lý về mặt kinh tế.

Thất bại trong việc học theo ngữ cảnh

Việc nhắc bắn ít lần không mang lại sự cải thiện đáng kể nào so với việc nhắc không bắn (Wilcoxon p = 0,505), cho thấy thành công của ICL trên điểm chuẩn tiêu chuẩn phản ánh việc kích hoạt về đào tạo ưu tiên hơn là học tập thực sự trong bối cảnh.

Giàn giáo tự chiếm ưu thế

Phản hồi trực tiếp của trình thông dịch (1 cuộc gọi LLM/lặp lại) luôn hoạt động tốt hơn nhiều tác nhân cách tiếp cận. Việc thêm người phê bình hoặc người lập kế hoạch sẽ tạo ra nhiễu hơn là tín hiệu hữu ích khi tất cả các thành phần đều thiếu kiến thức về miền.

2× Lợi thế đại lý

Các tác nhân được tăng cường bằng công cụ (Codex, Claude Code) đạt được độ chính xác ~2× so với chỉ nhắc nhở tiếp cận thông qua các vòng phản hồi thực thi bù đắp một phần cho việc thiếu dữ liệu huấn luyện.

Kết quả & Phân tích

Vách đá Hiệu suất

Khi thử nghiệm trên các ngôn ngữ bí truyền có dữ liệu huấn luyện khan hiếm hơn từ 5.000 đến 100.000 lần, các mô hình biên giới sụp đổ từ độ chính xác ~ 90% xuống còn một chữ số. Befunge-98 có giá vé tốt nhất ở mức 11,2% (Mô hình lưới 2D của nó được chia sẻ một phần với các ngôn ngữ dựa trên ngăn xếp), trong khi Khoảng trắng, với cú pháp vô hình của dấu cách, tab và dòng mới, vẫn còn ở mức 0% trên mọi mô hình và chiến lược.

So sánh chiến lược

Self-Scaffolding, cung cấp thông báo lỗi trình thông dịch trực tiếp trở lại mô hình cải tiến lặp đi lặp lại, luôn vượt trội hơn tất cả các chiến lược khác. Đáng chú ý, việc thêm một nhà phê bình (Textual Self-Scaffolding) hoặc một người lập kế hoạch (ReAct) sẽ cung cấp không có lợi ích nào có thể đo lường được. Các cuộc gọi LLM bổ sung gây ra tiếng ồn hơn là tín hiệu hữu ích, gợi ý rằng việc tự suy ngẫm về mật mã bí truyền là điều vượt quá khả năng của mô hình hiện tại

Phân tích lỗi

Mỗi ngôn ngữ thể hiện một hồ sơ lỗi khác nhau. Lỗi Brainfuck có logic 83,9% (cú pháp hợp lệ nhưng đầu ra sai), mô hình hiểu cú pháp 8 lệnh nhưng lại thất bại trong việc suy luận thuật toán. Unlambda có 74,6% lỗi biên dịch (các mô hình không thể tạo ra các biểu thức tổ hợp hợp lệ). Befunge-98 có thời gian chạy 93,4% (lưới 2D mô hình thực hiện dẫn đến các vòng lặp vô hạn). Shakespeare có thời gian chạy 59,2% (sân khấu cú pháp được nhận dạng nhưng ngữ nghĩa đối thoại sai).

Hệ thống đại lý

Khi được cấp quyền truy cập vào các trình thông dịch thực tế dưới dạng công cụ, các hệ thống mã hóa tác nhân như Codex và Claude Code đạt được độ chính xác ~2× so với các phương pháp chỉ nhắc nhở. Codex đạt 13,8% trên Brainfuck, điểm ngôn ngữ đơn cao nhất trong chúng tôi điểm chuẩn. Điều này chứng tỏ rằng các vòng phản hồi thực thi bù đắp một phần cho thiếu dữ liệu đào tạo, nhưng ngay cả khi có quyền truy cập công cụ, hiệu suất vẫn thấp hơn nhiều cấp độ ngôn ngữ chính thống.

Tập dữ liệu

EsoLang-Bench chứa 80 vấn đề lập trình với bốn cấp độ khó, mỗi trường hợp có 6 trường hợp thử nghiệm. Mọi vấn đề đều được thực hiện bằng cả 5 ngôn ngữ bí truyền.

Vấn đề

Ngôn ngữ

Mức độ khó

Từng trường hợp thử nghiệm

Dễ dàng (E01 đến E20)
Trung bình (M01 đến M20)
Cứng (H01 đến H20)
Siêu cứng (X01 đến X20)

<đầu> ID Tiêu đề vấn đề Danh mục

Ngôn ngữ được hỗ trợ

Năm ngôn ngữ Esoteric bao gồm các mô hình đa dạng, từ dựa trên băng, chức năng đến giống ngôn ngữ tự nhiên.

BibTeX

 @article{sharma2026esolangbench,
  title = {{EsoLang-Bench}: Evaluating Genuine Reasoning in Large Language
                  Models via Esoteric Programming Languages},
   author       = {Sharma, Aman and Chopra, Paras},
  journal      = {arXiv preprint arXiv:2603.09678},
  year         = {2026},
  eprint       = {2603.09678},
  archivePrefix= {arXiv},
  primaryClass = {cs.LG},
  url          = {https://arxiv.org/abs/2603.09678}

EsoLang-Bench: Đánh giá lý luận chân thực trong LLM thông qua ngôn ngữ Esoteric