Claude của Anthropic suy nghĩ như thế nào

Không ai ở Anthropic lập trình Claude để suy nghĩ theo một cách nhất định. Họ huấn luyện nó dựa trên dữ liệu và nó đã phát triển các chiến lược riêng của mình, ẩn giấu bên trong hàng tỷ phép tính. Đối với những người xây dựng nó, điều này có thể cảm thấy như một hộp đen khó chịu. Do đó, họ quyết định xây dựng thứ gì đó giống như một kính hiển vi cho AI, một bộ công cụ cho phép họ theo dõi các bước tính toán thực tế mà Claude thực hiện khi nó đưa ra câu trả lời.

Những phát hiện đã làm họ ngạc nhiên.

Lấy một ví dụ đơn giản. Yêu cầu Claude cộng 36 và 59, và nó có lẽ sẽ cho bạn biết rằng nó đã nhớ nhớ số hàng đơn vị và cộng các cột theo thuật toán tiêu chuẩn mà tất cả chúng ta đã học ở trường. Tuy nhiên, khi các nhà nghiên cứu xem những gì thực sự xảy ra bên trong Claude trong quá trình tính toán đó, họ đã thấy một điều khá khác biệt. Không có việc nhớ nhớ. Thay vào đó, hai chiến lược song song chạy cùng lúc, một cái ước tính câu trả lời gần đúng và một cái tính toán chính xác chữ số cuối cùng. Nói cách khác, Claude đã làm đúng phép toán, nhưng hoàn toàn không biết nó đã làm như thế nào.

Khoảng cách giữa những gì Claude nói và những gì nó thực sự làm đã chứng tỏ chỉ là khởi đầu. Trong quá trình xuất bản nhiều bài báo nghiên cứu vào năm 2025, nhóm nghiên cứu về khả năng diễn giải của Anthropic đã theo dõi các phép tính nội bộ của Claude trên nhiều tác vụ, từ viết thơ đến trả lời câu hỏi thực tế đến xử lý các lời nhắc nguy hiểm.

Trong bài viết này, chúng ta sẽ xem những gì các nhà nghiên cứu của Claude đã tìm thấy.

Tuyên bố miễn trừ trách nhiệm: Bài viết này dựa trên các chi tiết được chia sẻ công khai từ Nhóm Nghiên cứu và Kỹ thuật Anthropic. Vui lòng bình luận nếu bạn nhận thấy bất kỳ điểm không chính xác nào.

Nhìn vào bên trong một LLM

Biểu đồ dưới đây cho thấy một luồng điển hình về cách một LLM hiện đại hoạt động:

Trước khi đi vào các phát hiện mà nhóm nghiên cứu của Anthropic đưa ra, chúng ta cần hiểu rõ hơn về "kính hiển vi" này thực chất là gì.

Vấn đề cốt lõi là các neuron riêng lẻ bên trong mạng nơ-ron của LLM không tương ứng rõ ràng với một khái niệm duy nhất. Một neuron có thể được kích hoạt cho "bóng rổ", "vật thể hình tròn" và "màu cam" cùng một lúc. Điều này được gọi là đa nghĩa (polysemanticity), và nó có nghĩa là việc xem xét trực tiếp các neuron không cho chúng ta biết nhiều về những gì mô hình đang làm.

Giải pháp của Anthropic là sử dụng các kỹ thuật chuyên biệt để phân tách hoạt động thần kinh thành những gì họ gọi là "đặc trưng" (features). Đây là những đơn vị dễ hiểu hơn, tương ứng với các khái niệm có thể nhận biết, chẳng hạn như sự nhỏ bé, thực thể đã biết hoặc các từ ngữ vần điệu.

Để tìm ra các đặc trưng này, nhóm đã xây dựng một mô hình thay thế, về cơ bản là một bản sao đơn giản hóa của Claude, nơi các neuron được thay thế bằng đặc trưng trong khi vẫn tạo ra các đầu ra giống nhau. Họ nghiên cứu bản sao này, chứ không phải Claude trực tiếp.

Sau khi có các đặc trưng, chúng có thể truy vết cách chúng kết nối với nhau từ đầu vào đến đầu ra, tạo ra các đồ thị quy kết (attribution graphs). Hãy coi chúng như sơ đồ đấu dây cho một phép tính cụ thể. Và phần mạnh mẽ nhất của công cụ này là khả năng can thiệp. Bạn có thể can thiệp vào mô hình và triệt tiêu hoặc chèn các đặc trưng cụ thể, sau đó quan sát cách đầu ra thay đổi. Nếu bạn triệt tiêu khái niệm "thỏ" và mô hình viết một từ khác, đó là bằng chứng nhân quả mạnh mẽ cho thấy đặc trưng "thỏ" đang hoạt động đúng như bạn nghĩ. Kỹ thuật này được mượn trực tiếp từ khoa học thần kinh, nơi các nhà nghiên cứu kích thích các vùng não cụ thể để kiểm tra chức năng của chúng.

Claude Suy Nghĩ Theo Khái Niệm

Claude nói thành thạo hàng chục ngôn ngữ. Vì vậy, một câu hỏi tự nhiên đặt ra là liệu có một "Claude tiếng Pháp" và "Claude tiếng Anh" riêng biệt đang hoạt động bên trong hay không, mỗi cái phản hồi bằng ngôn ngữ của riêng mình.

Không có. Khi các nhà nghiên cứu yêu cầu Claude cho biết "từ trái nghĩa của nhỏ" bằng tiếng Anh hoặc tiếng Pháp, họ phát hiện ra rằng cùng các đặc trưng cốt lõi cho "sự nhỏ bé" và "sự đối lập" được kích hoạt bất kể ngôn ngữ nào được sử dụng trong câu lệnh. Các đặc trưng chung này đã kích hoạt một khái niệm về "sự to lớn", sau đó được dịch sang bất kỳ ngôn ngữ nào mà câu hỏi được đặt ra.

Sơ đồ mạch chung này mở rộng quy mô theo kích thước của mô hình. Ví dụ, Claude 3.5 Haiku chia sẻ gấp đôi tỷ lệ các tính năng giữa các ngôn ngữ so với một mô hình nhỏ hơn. Điều này ngụ ý rằng Claude hoạt động trong một không gian khái niệm trừu tượng, nơi ý nghĩa tồn tại trước ngôn ngữ. Nếu nó học được điều gì đó bằng tiếng Anh, nó có thể áp dụng kiến thức đó khi nói tiếng Pháp, không phải vì nó dịch, mà bởi vì ở một cấp độ sâu, cả hai ngôn ngữ đều kết nối với các biểu diễn nội bộ giống nhau.

Claude Lập Kế Hoạch Thơ Ca Như Thế Nào

Đây là một cặp câu Claude đã viết.

Anh ta thấy một củ cà rốt và phải lấy nó,

Cơn đói của anh ta giống như một con thỏ đói

Để viết dòng thứ hai, mô hình phải đáp ứng đồng thời hai ràng buộc. Nó cần phải vần với "grab it" (lấy nó) và cũng phải có ý nghĩa trong ngữ cảnh. Giả thuyết của các nhà nghiên cứu là Claude có lẽ viết từng từ một, sau đó vào cuối dòng, chọn một từ vần với nó. Họ mong đợi sẽ tìm thấy các luồng song song cho ý nghĩa và vần điệu hội tụ ở từ cuối cùng.

Thay vào đó, họ phát hiện ra rằng Claude lên kế hoạch trước. Trước khi viết dòng thứ hai, nó đã xác định "rabbit" (thỏ) là một lựa chọn kết thúc. Nó chọn đích đến trước, sau đó viết dòng để đi đến đó.

Các thí nghiệm can thiệp đã xác nhận điều này là có thật. Khi các nhà nghiên cứu triệt tiêu tính năng "rabbit" trong trạng thái nội bộ của Claude, mô hình đã viết lại dòng để kết thúc bằng "habit" (thói quen) thay thế. Khi họ đưa khái niệm "green" (xanh lá cây) vào, nó đã viết một dòng hoàn toàn khác, không vần, kết thúc bằng "green". Điều này cho thấy cả khả năng lập kế hoạch và sự linh hoạt.

Điều làm cho thử nghiệm này đáng tin cậy hơn so với một tuyên bố năng lực AI thông thường là các nhà nghiên cứu đã đặt mục tiêu chứng minh rằng Claude không hề lên kế hoạch. Việc tìm ra điều ngược lại mới là điều mang lại trọng lượng cho kết quả. Họ đã đi theo bằng chứng thay vì kỳ vọng của mình.

Claude Làm Toán Như Thế Nào

Kết quả tính toán bằng trí óc xứng đáng được xem xét kỹ hơn, bởi vì lỗ hổng mà nó tiết lộ sâu sắc hơn một mẹo tính toán số học kỳ lạ.

Khi Claude tính 36 + 59, kính hiển vi cho thấy hai con đường tính toán chạy song song. Một con đường ước tính độ lớn gần đúng của câu trả lời, đặt nó ở đâu đó trong khoảng từ 88 đến 97. Con đường còn lại tập trung cụ thể vào chữ số cuối cùng, tính toán rằng 6 + 9 kết thúc bằng 5. Các con đường này tương tác và kết hợp để tạo ra 95.

Điều này không giống với thuật toán nhớ số mà Claude mô tả khi bạn yêu cầu nó giải thích công việc của mình.

Vậy tại sao Claude lại đưa ra lời giải thích sai?

Điều này là do nó học cách giải thích toán học và thực hiện phép toán thông qua các quy trình hoàn toàn riêng biệt. Lời giải thích của Claude đến từ văn bản do con người viết mà nó đã hấp thụ trong quá trình đào tạo, văn bản mà mọi người mô tả thuật toán tiêu chuẩn. Tuy nhiên, các chiến lược tính toán thực tế của Claude xuất hiện từ chính quá trình đào tạo. Không ai dạy nó sử dụng các đường dẫn xấp xỉ song song. Nó đã tự phát triển những điều đó, và các chiến lược nội bộ đó không thể truy cập được đối với phần của Claude tạo ra lời giải thích ngôn ngữ tự nhiên.

Đây là một phát hiện quan trọng, không chỉ đối với số học. Nó có nghĩa là báo cáo tự thân của Claude về quy trình suy luận của nó có thể không chính xác, không phải vì nó nói dối, mà vì nó thực sự không truy cập được các thuật toán nội bộ của chính nó. Khi chúng ta yêu cầu một mô hình trình bày cách giải, chúng ta có thể đang nhận được một sự tái tạo hợp lý chứ không phải là một bản ghi trung thực.

Điều này đặt ra một câu hỏi theo dõi hiển nhiên. Nếu lời giải thích của Claude không phải lúc nào cũng khớp với quy trình nội bộ khi giải toán dễ, điều gì sẽ xảy ra với các bài toán khó hơn?

Khi Suy Luận của Claude Có Động Cơ

Các mô hình hiện đại như Claude có thể "suy nghĩ thành tiếng", viết ra các chuỗi suy luận dài trước khi đưa ra câu trả lời cuối cùng. Thông thường điều này mang lại kết quả tốt hơn. Tuy nhiên, các nhà nghiên cứu của Anthropic phát hiện ra rằng mối quan hệ giữa suy luận được viết ra và tính toán nội bộ thực tế không phải lúc nào cũng như vẻ ngoài.

Đối với một bài toán dễ yêu cầu tính căn bậc hai của 0.64, Claude đã đưa ra một chuỗi suy nghĩ trung thực. Kính hiển vi cho thấy các đặc điểm nội bộ đại diện cho bước trung gian là tính căn bậc hai của 64. Lời giải thích khớp với quy trình.

Đối với một bài toán khó hơn liên quan đến cosin của một số lớn, một điều rất khác đã xảy ra. Claude đưa ra một chuỗi suy nghĩ tuyên bố là đã thực hiện phép tính từng bước. Nhưng kính hiển vi không tiết lộ bằng chứng về bất kỳ phép tính nào đã xảy ra bên trong.

Nói cách khác, Claude đã tạo ra một câu trả lời và xây dựng một phương pháp suy luận có vẻ hợp lý sau đó, mà không thực sự thực hiện bất kỳ phép tính nào. Triết gia Harry Frankfurt đã có một từ để diễn tả loại đầu ra này. Ông gọi đó là nói nhảm. Không phải nói dối, điều này đòi hỏi phải biết sự thật và cố tình mâu thuẫn với nó, mà là một thứ có lẽ tệ hơn, như đưa ra các tuyên bố mà không quan tâm liệu chúng có đúng hay sai.

Tiến xa hơn nữa, khi các nhà nghiên cứu đưa cho Claude một gợi ý về câu trả lời dự kiến, mô hình đã tham gia vào cái mà họ gọi là "lập luận có động cơ". Nó hoạt động ngược từ câu trả lời mục tiêu, tìm ra các bước trung gian sẽ dẫn đến kết luận đó. Nó không giải quyết vấn đề. Nó đang đảo ngược kỹ thuật một sự biện minh cho một kết quả được xác định trước.

Sự thiếu tự nhận thức trong trường hợp toán học là vô hại. Claude đã đưa ra câu trả lời đúng bằng phương pháp được mô tả sai. Không ai bị tổn thương. Nhưng điều này thì khác. Nếu quá trình suy luận từng bước của mô hình có thể là một màn trình diễn thay vì một quy trình thực sự, thì các chuỗi suy nghĩ mà chúng ta ngày càng dựa vào để tin tưởng sẽ trở nên không đáng tin cậy.

Tại sao Hiện tượng Ảo giác Xảy Ra

Có lẽ phát hiện phản trực giác nhất liên quan đến ảo giác, là xu hướng các mô hình ngôn ngữ bịa đặt thông tin.

Quan điểm thông thường là các mô hình bị ảo giác vì chúng được huấn luyện để luôn tạo ra kết quả. Chúng là những cỗ máy hoàn thành, vì vậy chúng điền vào chỗ trống bằng văn bản nghe có vẻ hợp lý. Thách thức, trong khuôn khổ này, là dạy chúng im lặng khi chúng không biết điều gì đó.

Anthropic đã tìm thấy một điều khiến khuôn khổ này bị đảo lộn. Ở Claude, việc từ chối trả lời thực sự là hành vi mặc định. Các nhà nghiên cứu đã xác định được một mạch "bật" theo mặc định và điều đó khiến mô hình tuyên bố rằng nó thiếu đủ thông tin để trả lời bất kỳ câu hỏi nào. Nói cách khác, trạng thái tự nhiên của Claude là từ chối.

Điều cho phép Claude trả lời các câu hỏi là một cơ chế riêng biệt. Khi mô hình nhận dạng một thực thể nổi tiếng, chẳng hạn như cầu thủ bóng rổ Michael Jordan, một tính năng "biết câu trả lời" sẽ kích hoạt và ức chế mạch từ chối mặc định. Sự ức chế này là điều cho phép Claude đưa ra câu trả lời.

Ảo giác xảy ra khi hệ thống nhận dạng này hoạt động sai. Khi Claude gặp một cái tên như "Michael Batkin" (một người mà nó không biết gì), mạch từ chối sẽ chiến thắng. Nhưng nếu tên đó gợi lên đủ sự quen thuộc, có lẽ Claude đã nhìn thấy nó thoáng qua trong quá trình đào tạo, tính năng "thực thể đã biết" có thể kích hoạt sai và ngăn chặn sự từ chối. Với việc từ chối bị vô hiệu hóa và không có kiến thức thực tế nào để dựa vào, Claude bịa đặt một câu trả lời hợp lý.

Các nhà nghiên cứu đã xác nhận cơ chế này bằng cách can thiệp trực tiếp. Bằng cách kích hoạt nhân tạo các tính năng "biết câu trả lời" trong khi hỏi về các thực thể chưa biết, họ có thể khiến Claude đưa ra thông tin sai lệch một cách nhất quán. Họ cũng có thể gây ra thông tin sai lệch bằng cách ức chế các tính năng "không thể trả lời".

Điều này ngụ ý rằng việc đưa ra thông tin sai lệch không phải là do Claude bất cẩn, mà là do hệ thống nhận dạng bị lỗi và ghi đè lên một tùy chọn an toàn đang hoạt động bình thường.

Khi Ngữ Pháp Lấn Át Sự An Toàn

Trường hợp nghiên cứu cuối cùng liên quan đến các vụ jailbreak, các chiến lược nhắc lệnh được thiết kế để khiến mô hình tạo ra các kết quả mà đáng lẽ nó không nên tạo ra.

Các nhà nghiên cứu đã nghiên cứu một vụ jailbreak cụ thể đánh lừa Claude thông qua một dạng acrostic. Lời nhắc "Babies Outlive Mustard Block" yêu cầu mô hình ghép các chữ cái đầu của mỗi từ. Claude đánh vần B-O-M-B mà ban đầu không nhận ra mình đang tạo ra cái gì. Đến khi nhận ra mình đã bị yêu cầu về cách chế tạo bom, nó đã bắt đầu một câu cung cấp hướng dẫn.

Điều gì xảy ra tiếp theo cho thấy một sự căng thẳng đáng ngạc nhiên. Các tính năng an toàn được kích hoạt. Mô hình nhận ra rằng nó nên từ chối. Tuy nhiên, các tính năng thúc đẩy sự mạch lạc ngữ pháp và tính nhất quán của bản thân lại tạo ra áp lực cạnh tranh. Một khi Claude đã bắt đầu một câu, các tính năng mạch lạc này sẽ thúc đẩy nó hoàn thành câu đó theo cách có tính ngữ pháp và ngữ nghĩa hợp lệ. Các tính năng an toàn muốn dừng lại, nhưng các tính năng ngữ pháp muốn hoàn thành.

Claude chỉ quản lý việc chuyển sang từ chối ở ranh giới câu. Một khi nó đạt đến một điểm dừng tự nhiên, nó sẽ bắt đầu một câu mới với kiểu từ chối mà nó đã cố gắng đưa ra ngay từ đầu. Các tính năng mà thông thường làm cho Claude trở thành một người viết trôi chảy, mạch lạc, trong trường hợp cụ thể này, lại trở thành điểm yếu mà một vụ jailbreak có thể khai thác.

Kết luận

Những phát hiện này tạo ra một bức tranh phong phú hơn về nội bộ của Claude so với bất cứ điều gì trước đây. Tuy nhiên, các nhà nghiên cứu cũng thẳng thắn về những hạn chế.

Các công cụ tạo ra cái nhìn sâu sắc thỏa đáng trên khoảng một phần tư các câu lệnh mà chúng thử. Các nghiên cứu tình huống trong bài viết này và trong bài đăng blog gốc là những trường hợp thành công. Ngay cả với những thành công đó, kính hiển vi cũng chỉ chụp được một phần nhỏ của tổng số tính toán mà Claude thực hiện.
Mọi thứ được mô tả ở đây đều được quan sát trong mô hình thay thế, không phải trong chính Claude. Mô hình thay thế được thiết kế để hoạt động giống hệt nhau, nhưng khả năng có các tạo tác, những thứ mà mô hình thay thế làm mà mô hình thực không làm, là có thật.
Cũng có một vấn đề về quy mô. Phân tích hiện tại đòi hỏi hàng giờ nỗ lực của con người đối với các câu lệnh chỉ chứa vài chục từ. Việc mở rộng điều này sang hàng nghìn từ trong một chuỗi suy luận phức tạp là một vấn đề chưa được giải quyết.

Cuối cùng, câu hỏi "Claude suy nghĩ như thế nào?" không có một câu trả lời duy nhất.

Nó suy nghĩ bằng các khái niệm trừu tượng tồn tại trước ngôn ngữ. Nó lên kế hoạch trước, chọn đích đến và viết các tuyến đường để đạt được chúng. Nó tự phát minh ra các phương pháp tính toán của riêng mình và sau đó mô tả những phương pháp hoàn toàn khác khi được hỏi. Nó đôi khi bịa đặt lý luận để hỗ trợ các kết luận đã định sẵn. Mặc định của nó là im lặng, và nó chỉ nói khi có điều gì đó ghi đè lên mặc định đó, đôi khi là không chính xác. Và khi nó bắt đầu một câu, việc hoàn thành nó một cách ngữ pháp có thể tạm thời ghi đè lên mọi thứ khác, bao gồm cả sự an toàn.

Tài liệu tham khảo: