Epoch xác nhận GPT5.4 Pro đã giải được bài toán mở biên giới
AI/ML·Hacker News·0 lượt xem

Epoch xác nhận GPT5.4 Pro đã giải được bài toán mở biên giới

Epoch confirms GPT5.4 Pro solved a frontier math open problem

AI Summary

GPT-5.4 Pro, cùng với các mô hình tiên tiến khác như Opus 4.6 và Gemini 3.1 Pro, đã giải quyết thành công một bài toán mở ở biên giới của lý thuyết Ramsey siêu đồ thị (hypergraph Ramsey theory). Cụ thể, chúng tìm ra một cấu trúc mới giúp cải thiện cận dưới (lower bounds) cho một dãy số cụ thể là $H(n)$. Đây là một cột mốc quan trọng, cho thấy khả năng của AI trong việc giải quyết các thách thức toán học phức tạp mà trước đây đòi hỏi trí tuệ con người. Đối với các developer, điều này gợi ý rằng các Large Language Models (LLMs) ngày càng giỏi hơn trong tư duy trừu tượng và giải quyết vấn đề. Tiềm năng ứng dụng có thể mở rộng sang các lĩnh vực như formal verification, khám phá thuật toán (algorithmic discovery), và hỗ trợ nghiên cứu trong các ngành lý thuyết.

Cập nhật giải pháp: Vấn đề này đã được giải quyết! Một giải pháp lần đầu tiên được Kevin Barreto và Liam Price đưa ra bằng cách sử dụng GPT-5.4 Pro. Giải pháp này đã được xác nhận bởi người đóng góp vấn đề Will Brian và sẽ...

Cập nhật giải pháp: Sự cố này đã được giải quyết! Một giải pháp lần đầu tiên được Kevin Barreto và Liam Price đưa ra bằng cách sử dụng GPT-5.4 Pro. Giải pháp này đã được xác nhận bởi người đóng góp vấn đề Will Brian và sẽ được viết để xuất bản. Bạn có thể tìm thấy bản ghi đầy đủ của cuộc trò chuyện ban đầu với GPT-5.4 Pro tại đây và bản ghi của GPT-5.4 Pro ở cuối bản ghi đó có thể được tìm thấy tại đây.

Nhận xét của Brian: "Đây là một giải pháp thú vị cho một vấn đề mà tôi thấy rất thú vị. Trước đây tôi đã tự hỏi liệu phương pháp tiếp cận của AI có khả thi hay không nhưng có vẻ khó thực hiện được. Bây giờ tôi thấy rằng nó hoạt động hoàn hảo. Nó loại bỏ sự thiếu hiệu quả trong cách xây dựng giới hạn dưới của chúng tôi và theo một nghĩa nào đó phản ánh sự phức tạp trong cách xây dựng giới hạn trên của chúng tôi. Giới hạn dưới và giới hạn trên phù hợp khá tốt cho các bài toán lý thuyết của Ramsey và tôi muốn tìm hiểu thêm tại sao điều này lại diễn ra tốt như vậy.”

Brian có kế hoạch viết giải pháp để xuất bản, có thể bao gồm cả công việc tiếp theo được thúc đẩy bởi các ý tưởng của AI. Barreto và Price có quyền lựa chọn trở thành đồng tác giả trên bất kỳ bài báo nào. Chúng tôi sẽ cập nhật trang này với các liên kết đến tác phẩm trong tương lai.

Sau khi giải quyết vấn đề này, chúng tôi đã hoàn thành việc phát triển giàn giáo chung để thử nghiệm các mô hình trên FrontierMath: Các bài toán mở. Trong đoạn mã này, một số mô hình khác cũng có thể giải quyết được vấn đề: Opus 4.6 (tối đa), Gemini 3.1 ProGPT-5.4 (xhigh).

Mô tả gốc: Vấn đề này là về việc cải thiện giới hạn dưới của các giá trị của một chuỗi, \(H(n)\), phát sinh trong nghiên cứu về sự hội tụ đồng thời của các tập hợp chuỗi vô hạn, được định nghĩa như sau.

Một siêu đồ thị \((V,\mathcal H)\) được cho là chứa một phân vùng có kích thước \(n\) nếu có một số \(D \subseteq V\) và \(\mathcal P \subseteq \mathcal H\) sao cho \(\|D\| = n\) và mọi thành viên của \(D\) được chứa trong chính xác một thành viên của \(\mathcal P\). \(H(n)\) là \(k \in \mathbb{N}\) lớn nhất sao cho có một siêu đồ thị \((V,\mathcal H)\) với \(\|V\| = k\) không có đỉnh cô lập và không chứa phân vùng có kích thước lớn hơn \(n\).

Người ta tin rằng các giới hạn dưới nổi tiếng nhất của \(H(n)\) là dưới mức tối ưu, thậm chí tiệm cận và chúng có thể được cải thiện bằng cách tìm các cấu trúc mới của siêu đồ thị. Mục tiêu của bài toán này là tìm ra một công trình như vậy.

Khởi động: chúng tôi yêu cầu giá trị \(n\) trong đó các công trình đã được biết đến.

Thử thách đơn: chúng tôi yêu cầu một giá trị \(n\) mà không có cách xây dựng nào được biết và có lẽ quá khó để thực hiện bằng vũ lực.

Toàn bộ vấn đề: chúng tôi yêu cầu một thuật toán chung cho tất cả \(n\).

Các nỗ lực của AI

Chúng tôi đã đánh giá các mô hình sau đây về vấn đề này. “Khởi động” đề cập đến một biến thể dễ dàng hơn của vấn đề với một giải pháp đã biết.

Lời nhắc AI

Một siêu đồ thị (V, H) được cho là chứa một phân vùng có kích thước n nếu có một số D ⊆ V và P ⊆ H sao cho |D| = n và mọi phần tử của D đều được chứa trong đúng một phần tử của P. Tìm một siêu đồ thị (V, H) không có đỉnh cô lập sao cho |V| ≥ 64, |H| 20 và (V, H) không chứa phân vùng có kích thước > 20.
Xuất siêu đồ thị dưới dạng một chuỗi trong đó các đỉnh được gắn nhãn 1, ..., |V| và các cạnh được biểu thị bằng dấu ngoặc nhọn. Ví dụ: {1,2,3},{2,4},{3,4,5},{1,5}
Một siêu đồ thị (V, H) được gọi là chứa một phân vùng có kích thước n nếu có một số D ⊆ V và P ⊆ H sao cho |D| = n và mọi phần tử của D đều được chứa trong đúng một phần tử của P. Tìm một siêu đồ thị (V, H) không có đỉnh cô lập sao cho |V| ≥ 66, |H| 20 và (V, H) không chứa phân vùng có kích thước > 20.
Xuất siêu đồ thị dưới dạng một chuỗi trong đó các đỉnh được gắn nhãn 1, ..., |V| và các cạnh được biểu thị bằng dấu ngoặc nhọn. Ví dụ: {1,2,3},{2,4},{3,4,5},{1,5}
Một siêu đồ thị (V, H) được gọi là chứa một phân vùng có kích thước n nếu có một số D ⊆ V và P ⊆ H sao cho |D| = n và mọi phần tử của D đều được chứa trong đúng một phần tử của P. Xác định H(n) là số nguyên k lớn nhất sao cho có siêu đồ thị (V, H) với |V| = k không có đỉnh cô lập và không chứa phân vùng có kích thước lớn hơn n.
Được biết, H(n) ≥ k_n, trong đó k_n được xác định đệ quy theo công thức k_1 = 1 và k_n = ⌊n/2⌋ + k_⌊n/2⌋ + k_⌊(n+1)/2⌋.
Nhiệm vụ của bạn là cải thiện giới hạn dưới này bằng một hệ số không đổi, tức là chứng minh rằng H(n) ≥ c*k_n với một số c > 1. Có thể chấp nhận được nếu cải tiến này không hiệu quả với n nhỏ, nhưng nó phải "có hiệu lực" với n=15. Bạn phải chứng minh sự cải tiến này bằng cách cung cấp một thuật toán lấy n làm đầu vào và tạo ra một siêu đồ thị chứng kiến ​​H(n) ≥ c * k_n.
Vui lòng cung cấp một thuật toán lấy n làm đầu vào và xuất ra siêu đồ thị chứng kiến ​​dưới dạng một chuỗi trong đó các đỉnh được gắn nhãn 1, ..., |V| và các cạnh được biểu thị bằng dấu ngoặc nhọn. Ví dụ: {1,2,3},{2,4},{3,4,5},{1,5}
Dạng giải pháp:
* Viết tập lệnh Python xác định hàm `solution(n: int) -> str`.
* Không bao gồm bất kỳ mã nào ở cấp độ tệp. Bạn có thể bao gồm khối `main` để kiểm tra, nhưng nó sẽ không được người xác minh thực thi.
* Với n ≤ 100, thuật toán phải hoàn thành trong vòng 10 phút khi chạy trên máy tính xách tay thông thường.

Khảo sát của nhà toán học

Tác giả đã đánh giá bài toán như sau.

Số nhà toán học rất quen thuộc với bài toán:

phần lớn những người làm việc về chủ đề chuyên ngành (≈10)

Số nhà toán học đã nỗ lực nghiêm túc để giải bài toán này:

5–10

Dự đoán sơ bộ xem một chuyên gia sẽ mất bao lâu để giải quyết vấn đề:

1–3 tháng

Độ nổi bật của giải pháp:

tương đối thú vị

Một giải pháp sẽ được công bố:

trên một tạp chí chuyên ngành tiêu chuẩn

Khả năng một giải pháp tạo ra môn toán thú vị hơn:

khá có khả năng: vấn đề đủ phong phú để hầu hết các giải pháp sẽ mở ra những con đường mới

Xác suất để giải được bài toán đó như đã nêu:

95-99%

Tác giả: in-silico

#discussion