Từ 0% đến 36% vào ngày 1 của ARC-AGI-3
Tin tức chung·Hacker News·0 lượt xem

Từ 0% đến 36% vào ngày 1 của ARC-AGI-3

From 0% to 36% on Day 1 of ARC-AGI-3

AI Summary

SDK Agentica vừa lập được một thành tích ấn tượng là 36.08% trên benchmark ARC-AGI-3, vượt trội đáng kể so với các large language models như Opus 4.6 cả về hiệu năng lẫn chi phí. Điều này cho thấy một bước tiến quan trọng trong khả năng giải quyết các bài toán suy luận phức tạp của AI agents, bỏ xa các phương pháp zero-shot và few-shot trước đây. Các developer có thể tham khảo cách triển khai mã nguồn mở của Agentica trên GitHub để xây dựng các AI agents mạnh mẽ hơn và tiết kiệm chi phí cho những thử thách suy luận tương tự.

SDK Agentica của Symbolica đạt được điểm cạnh tranh chưa được xác minh là 36,08% trên ARC-AGI-3 [1], vượt qua 113 trên 182 cấp độ có thể chơi được và hoàn thành 7 trên 25 trò chơi có sẵn [2]. Của chúng tôi...

SDK Agentica của Symbolica đạt được số điểm cạnh tranh chưa được xác minh là 36,08% trên ARC-AGI-3 [1], vượt qua 113 trên 182 cấp độ có thể chơi và hoàn thành 7 trong số 25 trò chơi có sẵn target="_blank" href="https://www.symbolica.ai/blog/arc-agi-3#ref2">[2].

Việc triển khai của chúng tôi vượt trội so với mức cơ bản của CoT là 0,2% (Opus 4.6 Max) và 0,3% (GPT 5.4 High), trong khi vẫn duy trì mức chi phí thấp hơn nhiều: 36,08% của Agentica với giá 1.005 USD so với 36,08% của Agentica với giá 1.005 USD. Opus 4.6 0,25% với giá 8.900 USD.

Hãy xem mã trên GitHub symbolica-ai/ARC-AGI-3-Agents

ARC-AGI-3: Điểm so với chi phí0%10%20%30%40%Điểm (%)$1$10$100$1k$10kChi phí ($)Gemini 3.1Pro(Xem trước)Grok 4.20(BetaReasoning)GPT-5.4(Cao)Opus4.6(Tối đa)SOTAAgentica Opus4.6 (Cao)

Hình 1. So sánh điểm số và chi phí cho mỗi nhiệm vụ trên bộ đánh giá công khai ARC-AGI-3 giữa các mô hình Chuỗi suy nghĩ (CoT) và tác nhân Agentica ARC-AGI-3 cho Opus 4.6 (120k) High. Để biết chi tiết về chi phí cho mỗi nhiệm vụ cho Agentica Opus 4.6 (120k) High, hãy xem .

97,6

%

118

hành động

CN0497,6% CHIẾN THẮNG

84,16

%

273

hành động

LP8584,16% CHIẾN THẮNG

83,28

%

516

hành động

AR2583,28% THẮNG

77,59

%

123

hành động

FT0977,59% THẮNG

Bảng phân tích điểm - Tất cả các trò chơi

Đánh bại con ngườiTrò chơi đã thắngTrò chơi kết thúc

< td>84,16< td>57< td>—
Trò chơiL1L2L3L4L5L6 L7L8L9L10Điểm
CN04201922213597,60
LP85< /td>17111818231531913
AR25503097287384106 4783,28
FT093714212 15677,59
CD82603614162070,15
TR8742323929433,962 69,21
TU9317182345816214914867,87
KA5937563752 271135965,33
SB2618221< /td>152017196720349,35
M0R025431211261< /td>40,06
RE8624376113266280 26335,54
SU1516232171 05136902715035,17
S5I5 33727714136523,85
WA303958868013222,22
SC257893042—< /td>18,42
VC33111529 14317.14
DC2294 9911412815,56
G50T691804678,70
LS20263872512132125027,13
LF52231372461749285,36
R11L44324,76
T N365769528 1,31
SK487472266—< /td>1,21
SP80281200,73
BP3548100,22
Nhìn chung36,08

Trò chuyện với Agentica

Chúng tôi đã đóng hộp SDK và cho phép SDK chạy mọi tác vụ liên tục, bao gồm cả việc giải các câu đố ARC.

Đọc về Agentica tại đây

Tài liệu tham khảo

[1] Quỹ Giải thưởng ARC. ARC-AGI-3: Thử thách mới cho trí tuệ đặc vụ biên giới. Quỹ Giải thưởng Arc.

[2] Giải thưởng ARC. ARC-AGI-3. Giải thưởng ARC.

Phụ lục

Lưu ý về việc chấm điểm

Điểm số cơ bản của con người có sẵn thông qua API ARC-AGI-3 cho biết trò chơi cn04 có tổng cộng 6 cấp độ. Số cấp độ này không khớp với số cấp độ trong trò chơi tương ứng có sẵn thông qua API.

Tác giả: lairv

#discussion