LLM dự đoán cà phê của tôi
AI/ML·Hacker News·1 lượt xem

LLM dự đoán cà phê của tôi

LLMs Predict My Coffee

AI Summary

Một lập trình viên đã thử nghiệm khả năng dự đoán quá trình nguội đi của cà phê bằng các mô hình ngôn ngữ lớn (LLMs), với bài toán vật lý liên quan đến các hiện tượng truyền nhiệt phức tạp. Các LLM đã tạo ra các phương trình mô tả sự suy giảm nhiệt độ. Tuy nhiên, khi kiểm tra bằng thực nghiệm, dự đoán của chúng chỉ ở mức "tạm được" và không hoàn toàn khớp với thực tế, đặc biệt là ở giai đoạn nguội nhanh ban đầu. Điều này cho thấy, dù LLMs có thể mô hình hóa các hệ thống phức tạp, chúng vẫn gặp khó khăn với các khía cạnh vật lý tinh tế trong thế giới thực. Do đó, các nhà phát triển cần thận trọng khi dựa vào LLMs cho các dự đoán khoa học hoặc kỹ thuật chính xác mà không có sự kiểm chứng độc lập.

Các chủ đề hay nhất của DYNOMIGHT tiếp theo về Mã hóa, toán học, bất cứ thứ gì. LLM có thể dự đoán kết quả của các thí nghiệm vật lý không? Giả sử tôi đổ 8 oz (226,8 g) nước sôi...

Mã hóa, toán học, bất cứ thứ gì. LLM có thể dự đoán kết quả của các thí nghiệm vật lý không?

Giả sử tôi đổ 8 oz (226,8 g) nước sôi vào cốc cà phê bằng gốm nặng 1,25 lb (0,57 kg). Không khí xung quanh vẫn ở mức 20 độ C. Cốc bắt đầu ở nhiệt độ phòng. Hãy cho tôi phương trình tính nhiệt độ của nước tính bằng độ C theo thời gian. Biến tự do duy nhất trong phương trình phải là số giây t kể từ khi nước được đổ vào. Tập trung vào độ chính xác trong 5 phút đầu tiên.

Việc đó có vẻ khó khăn phải không? Tôi nghĩ nó khó. Các hiện tượng vật lý liên quan ít nhất bao gồm:

  1. Sự dẫn nhiệt giữa nước, cốc, không khí và bàn.
  2. Sự dẫn nhiệt bên trong mỗi vật đó.
  3. Đối lưu (chuyển động của chất lỏng) bên trong nước và không khí.
  4. Làm mát bay hơi khi các phân tử nước trở thành hơi.
  5. Sự chuyển động của hơi nước trong không khí.
  6. Bức xạ. (Giống như mọi vật chất, cốc và nước phát ra bức xạ hồng ngoại phụ thuộc vào nhiệt độ.)
  7. Sức căng bề mặt, sự giãn nở/co lại vì nhiệt, sự tái hấp thu không khí vào trong nước khi nó nguội đi, có thể còn hơn thế nữa.

Và nhiều chi tiết không được chỉ định trong lời nhắc. Chiếc cốc được làm bằng sứ hay đồ đá? Cốc có hình dạng như thế nào? Cái bàn được làm bằng gì? Không khí ẩm đến mức nào? Làm cách nào để giảm nhiệt độ nước thay đổi theo không gian xuống một con số?

Vì vậy, đây không phải là vấn đề với câu trả lời “đúng” mà bạn có thể tìm thấy bằng cách suy nghĩ. Thực tế quá phức tạp. Thay vào đó, việc trả lời câu hỏi đòi hỏi phải có “khẩu vị”—đoán xem yếu tố nào là quan trọng nhất, đưa ra giả định về những chi tiết còn thiếu, v.v.

Vì vậy, tôi đã đặt câu hỏi đó cho một loạt LLM. Đây là những gì họ đã nói:

(Về mặt kỹ thuật, họ đưa ra các phương trình dưới dạng văn bản. Tôi đang vẽ các phương trình đó.)

Tôi đã rất ngạc nhiên trước những đường cong đó, cả về tốc độ họ nghĩ nhiệt độ sẽ giảm lúc đầu và tốc độ họ nghĩ nhiệt độ sẽ giảm chậm như thế nào về sau. Họ cho rằng bạn sẽ được làm mát nhiều trong vài phút đầu tiên cũng như trong những phút còn lại. Điều đó có đúng không?

Rồi tôi làm thí nghiệm. Đầu tiên, tôi đợi cho đến khi nhiệt độ môi trường xung quanh đạt tới 20 độ C. Sau đó, tôi cho 8 oz nước vào cốc đong, cho vào lò vi sóng cho đến khi sôi, để nhiệt độ cân bằng một chút rồi cho vào lò vi sóng cho đến khi nước sôi trở lại. Sau đó, tôi đổ nước vào cốc cà phê nặng 1,25 lb có nhiệt kế kỹ thuật số trong đó và hét lên các phép đo cứ sau 5 giây, được Nhà sinh vật học Dynomight điên cuồng ghi lại. Dần dần tôi giảm số đo xuống còn 15 giây, 30 giây, 1 phút và sau đó là 5 phút.

Này:

Hoặc đây là chế độ xem phóng to của 5 phút đầu tiên:

Tất cả các dự đoán đều ổn, nhưng không có dự đoán nào là tuyệt vời. Có lẽ Claude 4.6 Opus đã làm tốt nhất, mặc dù sau khi tiêu tốn 0,61 USD token. (Thêm câu chuyện cười về thí nghiệm vật lý / Bộ Quốc phòng / tiền / cà phê.)

Điều đó nói lên rằng, điều làm tôi ngạc nhiên về dự đoán là nhiệt độ giảm nhanh như thế nào trong vài phút đầu tiên và giảm chậm như thế nào sau đó. Nhưng về mặt thử nghiệm, nó thậm chí còn giảm nhanh hơn ở giai đoạn đầu và thậm chí còn chậm hơn về cuối. Vì vậy, nếu bạn muốn kết hợp trực giác của tôi với LLM, tôi đoán trực giác của tôi sẽ có trọng số bằng 0.

Tóm lại, họ có thể làm bài toán của chúng ta, nhưng họ sẽ làm bài kiểm soát vận động tinh của chúng ta chậm hơn một chút. Cảm ơn bạn đã đọc một dự án khoa học cấp trung học khác.

(Phụ lục: Các phương trình)

Đây là các phương trình thực tế mà tất cả các mô hình đưa ra cho T(t), nhiệt độ dự đoán sau t giây.

LLM T(t) Chi phí
Kimi K2.5 (lý luận) 20 + 52,9 điểm kinh nghiệm(-t/3600)+ 27,1 điểm kinh nghiệm(-t/80) 0,01$
Gemini 3.1 Pro 20 + 53 điểm kinh nghiệm(-t/2500) + 27 điểm kinh nghiệm(-t/149.25) 0,09$
GPT 5.4 20 + 54,6 điểm kinh nghiệm(-t/2920) + 25,4 điểm kinh nghiệm(-t/68.1) $0,11
Claude 4.6 Opus (lý luận) 20 + 55 điểm kinh nghiệm(-t/1700) + 25 điểm kinh nghiệm(-t/43) $0,61 (eeek)
Qwen3-235B 20 + 53,17 điểm kinh nghiệm(-t/1414,43) $0,009
GLM-4.7 (lý luận) 20 + 53,2 điểm kinh nghiệm(-t/2500) $0,03

Điều thú vị là chúng tất cả đều dựa trên một hoặc hai số hạng phân rã theo cấp số nhân. Cách đọc những điều này là hãy coi exp(-t/b) như một hàm bắt đầu từ 1 khi t bằng 0 và giảm dần. Sau b giây, nó giảm xuống 1/e ≈ 0,368 và tiếp tục giảm theo hệ số 0,368 cứ sau b giây.

Vì vậy, hầu hết các mẫu này đều có “tốc độ nhanh” phản ánh dòng nhiệt từ nước vào cốc cùng với “tốc độ chậm” để nhiệt từ nước/cốc truyền vào không khí. Một số mô hình bỏ qua tốc độ nhanh. Tôi cũng đã thử DeepSeek và Grok nhưng họ cứ loay hoay mãi mà không bao giờ trả lời. Họ thật tốt bụng khi tính phí dịch vụ đó cho tôi.


nhận xét
lemmy / ngăn xếp phụ

Có lẽ ở đây có hình mẫu? · khoa học AI

Bức tường dữ liệu thực sự là hàng tỷ năm tiến hóa · AI khoa học

Tại sao chúng tôi không nhận được GPT-2 vào năm 2005? · khoa học kinh tế AI

Chứng nghiện định dạng hiện đại trong văn bản · viết AI


Tác giả: surprisetalk

#discussion