
Từ 0% đến 36% vào ngày 1 của ARC-AGI-3
From 0% to 36% on Day 1 of ARC-AGI-3
SDK Agentica vừa lập được một thành tích ấn tượng là 36.08% trên benchmark ARC-AGI-3, vượt trội đáng kể so với các large language models như Opus 4.6 cả về hiệu năng lẫn chi phí. Điều này cho thấy một bước tiến quan trọng trong khả năng giải quyết các bài toán suy luận phức tạp của AI agents, bỏ xa các phương pháp zero-shot và few-shot trước đây. Các developer có thể tham khảo cách triển khai mã nguồn mở của Agentica trên GitHub để xây dựng các AI agents mạnh mẽ hơn và tiết kiệm chi phí cho những thử thách suy luận tương tự.
SDK Agentica của Symbolica đạt được điểm cạnh tranh chưa được xác minh là 36,08% trên ARC-AGI-3 [1], vượt qua 113 trên 182 cấp độ có thể chơi được và hoàn thành 7 trên 25 trò chơi có sẵn [2]. Của chúng tôi...
SDK Agentica của Symbolica đạt được số điểm cạnh tranh chưa được xác minh là 36,08% trên ARC-AGI-3 [1], vượt qua 113 trên 182 cấp độ có thể chơi và hoàn thành 7 trong số 25 trò chơi có sẵn target="_blank" href="https://www.symbolica.ai/blog/arc-agi-3#ref2">[2].
Việc triển khai của chúng tôi vượt trội so với mức cơ bản của CoT là 0,2% (Opus 4.6 Max) và 0,3% (GPT 5.4 High), trong khi vẫn duy trì mức chi phí thấp hơn nhiều: 36,08% của Agentica với giá 1.005 USD so với 36,08% của Agentica với giá 1.005 USD. Opus 4.6 0,25% với giá 8.900 USD.
Hãy xem mã trên GitHub symbolica-ai/ARC-AGI-3-Agents
Thư viện - Trò chơi đã thắng
![]()
97,6
%
118
hành động
CN0497,6% CHIẾN THẮNG
![]()
84,16
%
273
hành động
LP8584,16% CHIẾN THẮNG
![]()
83,28
%
516
hành động
AR2583,28% THẮNG
![]()
77,59
%
123
hành động
FT0977,59% THẮNG
Bảng phân tích điểm - Tất cả các trò chơi
Đánh bại con ngườiTrò chơi đã thắngTrò chơi kết thúc
| Trò chơi | L1 | L2 | L3 | L4 | L5 | L6 | L7 | L8 | L9 | L10 | Điểm |
|---|---|---|---|---|---|---|---|---|---|---|---|
| CN04 | 20 | 19 | 22 | 21 | 35 | — | 97,60 | ||||
| LP85< /td> | 17 | 11 | 18 | 18 | 23 | 153 | 19 | 13 | < td>84,16 | ||
| AR25 | 50 | 30 | 97 | 28 | 73 | 84 | 106 | 47 | 83,28 | ||
| FT09 | 3 | 7 | 14 | 21 | 2 1 | 56 | 77,59 | ||||
| CD82 | 60 | 36 | < td>5714 | 16 | 20 | 70,15 | |||||
| TR87 td> | 42 | 32 | 39 | 29 | 43 | 3,962 | 69,21 | ||||
| TU93 | 17 | 18 | 23 | 45 | 81 | 62 | 14 | 91 | 48 | 67,87 | |
| KA59 | 37 | 56 | 37 | 52 | 27 | 113 | 59 | 65,33 | |||
| SB26 | 18 | 221< /td> | 15 | 20 | 17 | 19 | 67 | 203 | 49,35 | ||
| M0R0 | 25 | 43 | 121 | 12 | 61 | — | < /td> | 40,06 | |||
| RE86 | 24 | 37 | 61 | 132 | 66 | 280 | 263 | — | 35,54 | ||
| SU15 | 16 | 232 | 17 | 1 05 | 136 | 90 | 27 | 150 | — | 35,17 | |
| S5I5 | 33 | 72 | 77 | 141 | 365 | — | — | — | 23,85 td> | ||
| WA30 | 39 | 58 | 86 | 80 | 132 | — | — | — | 22,22 | ||
| SC25 | 78 | 9 | 30 | 42 | — | —< /td> | 18,42 | ||||
| VC33 | 11 | 15 | 29 | 143 | — | — | — | 17.14 | |||
| DC22 | 94 | 99 | 114 | 128 | — | — | 15,56 | ||||
| G50T | 69 | 180 | 467 | — | — | — | — | td> | 8,70 | ||
| LS20 | 26 | 387 | 251 | 213 | 212 | 502 | — | 7,13 | |||
| LF52 | 23 | 137 | 246 | 174 td> | 928 | — | — | — | — | — | 5,36 |
| R11L | 4 | 432 | — | — | — | — | 4,76 | ||||
| T N36 | 57 | 69 | 528 | — | — | — | — | 1,31 | |||
| SK48 | 74 | 72 | 266 | — | — | — | — | —< /td> | 1,21 | ||
| SP80 | 28 | 120 | — | — | — | < td>—0,73 | |||||
| BP35 | 48 | 10 | — | — | — | — | — | — | — | 0,22 | |
| Nhìn chung | 36,08 |
Trò chuyện với Agentica
Chúng tôi đã đóng hộp SDK và cho phép SDK chạy mọi tác vụ liên tục, bao gồm cả việc giải các câu đố ARC.
Tài liệu tham khảo
[1] Quỹ Giải thưởng ARC. ARC-AGI-3: Thử thách mới cho trí tuệ đặc vụ biên giới. Quỹ Giải thưởng Arc.
[2] Giải thưởng ARC. ARC-AGI-3. Giải thưởng ARC.
Phụ lục
Lưu ý về việc chấm điểm
Điểm số cơ bản của con người có sẵn thông qua API ARC-AGI-3 cho biết trò chơi cn04 có tổng cộng 6 cấp độ. Số cấp độ này không khớp với số cấp độ trong trò chơi tương ứng có sẵn thông qua API.
Tác giả: lairv