Từ 0% đến 36% vào ngày 1 của ARC-AGI-3

SDK Agentica của Symbolica đạt được số điểm cạnh tranh chưa được xác minh là 36,08% trên ARC-AGI-3 [1], vượt qua 113 trên 182 cấp độ có thể chơi và hoàn thành 7 trong số 25 trò chơi có sẵn target="_blank" href="https://www.symbolica.ai/blog/arc-agi-3#ref2">[2].

Việc triển khai của chúng tôi vượt trội so với mức cơ bản của CoT là 0,2% (Opus 4.6 Max) và 0,3% (GPT 5.4 High), trong khi vẫn duy trì mức chi phí thấp hơn nhiều: 36,08% của Agentica với giá 1.005 USD so với 36,08% của Agentica với giá 1.005 USD. Opus 4.6 0,25% với giá 8.900 USD.

Hãy xem mã trên GitHub symbolica-ai/ARC-AGI-3-Agents

Hình 1. So sánh điểm số và chi phí cho mỗi nhiệm vụ trên bộ đánh giá công khai ARC-AGI-3 giữa các mô hình Chuỗi suy nghĩ (CoT) và tác nhân Agentica ARC-AGI-3 cho Opus 4.6 (120k) High. Để biết chi tiết về chi phí cho mỗi nhiệm vụ cho Agentica Opus 4.6 (120k) High, hãy xem mã.

Thư viện - Trò chơi đã thắng

97,6

118

hành động

CN0497,6% CHIẾN THẮNG

84,16

273

hành động

LP8584,16% CHIẾN THẮNG

83,28

516

hành động

AR2583,28% THẮNG

77,59

123

hành động

FT0977,59% THẮNG

Bảng phân tích điểm - Tất cả các trò chơi

Đánh bại con ngườiTrò chơi đã thắngTrò chơi kết thúc

< td>84,16< td>57—< td>—

Trò chơi	L1	L2	L3	L4	L5	L6	L7	L8	L9	L10	Điểm
CN04	20	19	22	21	35	—					97,60
LP85< /td>	17	11	18	18	23	153	19	13
AR25	50	30	97	28	73	84	106	47			83,28
FT09	3	7	14	21	2 1	56					77,59
CD82	60	36	14	16	20					70,15
TR87	42	32	39	29	43	3,962					69,21
TU93	17	18	23	45	81	62	14	91	48		67,87
KA59	37	56	37	52	27	113	59				65,33
SB26	18	221< /td>	15	20	17	19	67	203			49,35
M0R0	25	43	121	12	61	—				< /td>	40,06
RE86	24	37	61	132	66	280	263	—			35,54
SU15	16	232	17	1 05	136	90	27	150	—		35,17
S5I5	33	72	77	141	365	—	—	—			23,85
WA30	39	58	86	80	132	—	—	—		22,22
SC25	78	9	30	42	—	—< /td>					18,42
VC33	11	15	29	143	—	—	—				17.14
DC22	94	99	114	128	—	—					15,56
G50T	69	180	467	—	—	—	—				8,70
LS20	26	387	251	213	212	502	—				7,13
LF52	23	137	246	174	928	—	—	—	—	—	5,36
R11L	4	432	—	—	—	—					4,76
T N36	57	69	528	—	—	—	—				1,31
SK48	74	72	266	—	—	—	—	—< /td>			1,21
SP80	28	120	—	—	—					0,73
BP35	48	10	—	—	—	—	—	—	—		0,22
Nhìn chung	36,08

Trò chuyện với Agentica

Chúng tôi đã đóng hộp SDK và cho phép SDK chạy mọi tác vụ liên tục, bao gồm cả việc giải các câu đố ARC.

Đọc về Agentica tại đây

Tài liệu tham khảo

[1] Quỹ Giải thưởng ARC. ARC-AGI-3: Thử thách mới cho trí tuệ đặc vụ biên giới. Quỹ Giải thưởng Arc.

[2] Giải thưởng ARC. ARC-AGI-3. Giải thưởng ARC.

Phụ lục

Lưu ý về việc chấm điểm

Điểm số cơ bản của con người có sẵn thông qua API ARC-AGI-3 cho biết trò chơi cn04 có tổng cộng 6 cấp độ. Số cấp độ này không khớp với số cấp độ trong trò chơi tương ứng có sẵn thông qua API.