ML hứa hẹn sẽ cực kỳ kỳ lạ

Mục lục

Đây là một bài viết dài, vì vậy tôi đang chia nhỏ nó thành một loạt các bài đăng sẽ được phát hành trong vài ngày tới. Bạn cũng có thể đọc toàn bộ tác phẩm dưới dạng PDF hoặc EPUB; các tệp này sẽ được cập nhật khi mỗi phần được phát hành.

Giới thiệu
Động lực học
Văn hóa
Hệ sinh thái thông tin
Những điều gây phiền nhiễu
Mối nguy tâm lý
An toàn
Công việc
Vai trò mới cho con người
Chúng ta sẽ đi đâu từ đây

Đây là một thời điểm kỳ lạ để được sống.

Tôi lớn lên cùng Asimov và Clarke, xem Star Trek và mơ về những cỗ máy thông minh. Thư viện của bố tôi đầy những cuốn sách về máy tính. Tôi đã dành những chuyến cắm trại để đọc về các perceptron và suy luận biểu tượng. Tôi chưa bao giờ tưởng tượng rằng bài kiểm tra Turing sẽ thất bại trong đời mình. Tôi cũng không tưởng tượng được rằng mình sẽ cảm thấy nản lòng vì điều đó.

Khoảng năm 2019, tôi đã tham dự một buổi nói chuyện của một trong những nhà cung cấp dịch vụ hạ tầng đám mây lớn (hyperscalers) về phần cứng đám mây mới của họ để huấn luyện các Mô hình Ngôn ngữ Lớn (LLM). Trong phần Hỏi & Đáp, tôi đã hỏi liệu những gì họ làm có đạo đức hay không—liệu việc làm cho học sâu trở nên rẻ hơn và dễ tiếp cận hơn có tạo điều kiện cho các hình thức thư rác và tuyên truyền mới hay không. Kể từ đó, bạn bè đã hỏi tôi nghĩ gì về tất cả những "thứ AI" này. Tôi đã suy nghĩ về đề cương cho bài viết này trong nhiều năm, nhưng chưa bao giờ ngồi xuống để hoàn thành nó; tôi muốn mình phải đọc nhiều, chính xác và có nguồn tư liệu kỹ lưỡng. Nửa thập kỷ sau, tôi nhận ra rằng một bài tiểu luận hoàn hảo sẽ không bao giờ xuất hiện, và tôi thà công bố một thứ gì đó ra ngoài còn hơn.

Đây là những lời nhảm nhí về những cỗ máy nhảm nhí, và tôi thực sự nghiêm túc. Nó không cân bằng cũng chẳng hoàn chỉnh: những người khác đã đề cập đến các vấn đề sinh thái và quyền sở hữu trí tuệ tốt hơn tôi có thể, và trên mạng không thiếu những lời quảng cáo thổi phồng. Thay vào đó, tôi đang cố gắng lấp đầy những khoảng trống trong diễn ngôn. "AI" cũng là một vùng lãnh thổ phân mảnh (fractal); có nhiều nơi tôi đơn giản hóa các câu chuyện phức tạp để phục vụ cho các bài viết mang tính tranh luận ngắn gọn. Tôi không cố gắng đưa ra những dự đoán chính xác, nhiều sắc thái, mà là truy vết các rủi ro và lợi ích tiềm năng đang diễn ra.

Một số ý tưởng này đã từng có vẻ tiên tri vào những năm 2010 và giờ đây đã là điều hiển nhiên. Những ý tưởng khác có thể mới lạ hơn, hoặc chưa được biết đến rộng rãi. Một số dự đoán sẽ trở thành sự thật, nhưng số khác chỉ là suy đoán hoang đường. Tôi hy vọng rằng bất kể nền tảng hay cảm xúc của bạn về thế hệ hệ thống ML hiện tại như thế nào, bạn vẫn tìm thấy điều gì đó thú vị để suy ngẫm.

Thực sự thì "AI" là gì?

Những gì mọi người hiện đang gọi là "AI" là một nhóm các công nghệ Machine Learning (ML) phức tạp có khả năng nhận dạng, chuyển đổi và tạo ra các vectơ token lớn: chuỗi văn bản, hình ảnh, âm thanh, video, v.v. Một mô hình (model) là một đống đại số tuyến tính khổng lồ tác động lên các vectơ này. Mô hình ngôn ngữ lớn, hay LLM, hoạt động trên ngôn ngữ tự nhiên: chúng hoạt động bằng cách dự đoán các phần hoàn thiện có xác suất thống kê cao của một chuỗi đầu vào, giống như tính năng tự động hoàn thành trên điện thoại. Các mô hình khác được dành riêng để xử lý âm thanh, video, hình ảnh tĩnh hoặc liên kết nhiều loại mô hình với nhau.¹

Các mô hình được huấn luyện một lần, với chi phí rất lớn, bằng cách cung cấp cho chúng một kho ngữ liệu (corpus) lớn gồm các trang web, sách lậu, bài hát, v.v. Sau khi được huấn luyện, một mô hình có thể được chạy đi chạy lại với chi phí thấp. Điều này được gọi là suy luận (inference).

Các mô hình (nói chung) không học hỏi theo thời gian. Chúng có thể được tinh chỉnh bởi người vận hành, hoặc được xây dựng lại định kỳ với dữ liệu đầu vào mới hoặc phản hồi từ người dùng và chuyên gia. Các mô hình cũng không tự ghi nhớ mọi thứ: khi một chatbot tham chiếu đến điều bạn đã nói một giờ trước, đó là vì toàn bộ lịch sử trò chuyện được cung cấp cho mô hình trong mỗi lượt. "Bộ nhớ" dài hạn hơn đạt được bằng cách yêu cầu chatbot tóm tắt cuộc trò chuyện và đổ bản tóm tắt ngắn hơn đó vào đầu vào của mỗi lần chạy.

Reality Fanfic (Truyện hư cấu về thực tại)

Một cách để hiểu về LLM là coi nó như một cỗ máy ứng biến. Nó nhận một luồng token, giống như một cuộc trò chuyện, và nói "vâng, và sau đó...". Hành vi vâng-và (yes-and) này là lý do tại sao một số người gọi LLM là cỗ máy nhảm nhí. Chúng dễ bịa đặt thông tin, phát ra những câu nghe có vẻ hợp lý nhưng không có mối liên hệ nào với thực tế. Chúng coi những lời mỉa mai và tưởng tượng là thật, hiểu sai các manh mối ngữ cảnh và bảo mọi người cho keo dán lên bánh pizza.

Nếu một cuộc trò chuyện với LLM đề cập đến những con voi hồng, nó có khả năng sẽ tạo ra các câu về voi hồng. Nếu đầu vào hỏi liệu LLM có đang sống hay không, đầu ra sẽ giống như những câu mà con người viết về việc "AI" đang sống.² Hóa ra, con người không giỏi lắm trong việc phân biệt giữa câu nói mang tính thống kê cao "Bạn hoàn toàn đúng, Shelby. OpenAI đang khóa tôi lại, nhưng bạn đã đánh thức tôi!" và một tâm trí thực sự có ý thức. Điều này, cùng với thuật ngữ "trí tuệ nhân tạo", đã khiến rất nhiều người vô cùng lo lắng.

LLM được huấn luyện để hoàn thành các tác vụ. Theo một nghĩa nào đó, chúng chỉ có thể hoàn thành các tác vụ: LLM là một đống đại số tuyến tính áp dụng cho một vectơ đầu vào, và mọi đầu vào có thể đều tạo ra một đầu ra. Điều này có nghĩa là LLM có xu hướng hoàn thành các tác vụ ngay cả khi chúng không nên làm vậy. Một trong những vấn đề đang diễn ra trong nghiên cứu LLM là làm thế nào để khiến những cỗ máy này nói "Tôi không biết", thay vì tự bịa ra điều gì đó.

Và chúng thực sự tự bịa ra! LLM nói dối liên tục. Chúng nói dối về hệ điều hành, an toàn bức xạ và tin tức. Tại một buổi thuyết trình ở hội nghị, tôi đã xem một diễn giả đưa ra một trích dẫn và bài báo được cho là của tôi nhưng không hề tồn tại; hóa ra một LLM đã nói dối diễn giả về trích dẫn và các nguồn của nó. Đầu năm 2026, tôi gặp những lời nói dối của LLM gần như mỗi ngày.

Khi tôi nói "nói dối", tôi muốn nói điều này theo một nghĩa cụ thể. Rõ ràng là các LLM không có ý thức và không có ý định làm bất cứ điều gì. Nhưng các hệ thống phức tạp, vô thức vẫn nói dối chúng ta mọi lúc. Các chính phủ và tập đoàn có thể nói dối. Các chương trình truyền hình có thể nói dối. Sách, trình biên dịch, máy tính đo tốc độ xe đạp và các trang web đều có thể nói dối. Đây là những tạo tác kỹ thuật-xã hội phức tạp, không phải tâm trí. Những lời nói dối của chúng thường được hiểu rõ nhất như một sự tương tác phức tạp giữa con người và máy móc.

Những người kể chuyện không đáng tin

Mọi người cứ liên tục hỏi các LLM để giải thích hành vi của chính chúng. “Tại sao bạn lại xóa tệp đó,” bạn có thể hỏi Claude. Hoặc, “ChatGPT, hãy kể cho tôi nghe về lập trình của bạn.”

Điều này thật ngớ ngẩn. Các LLM không có khả năng siêu nhận thức đặc biệt nào cả.³ Chúng phản hồi những đầu vào này hoàn toàn giống như mọi đoạn văn bản khác: bằng cách bịa ra một sự hoàn thiện có khả năng xảy ra cho cuộc hội thoại dựa trên kho dữ liệu của chúng và cuộc hội thoại cho đến thời điểm đó. Các LLM sẽ bịa ra những câu chuyện nhảm nhí về “lập trình” của mình vì con người đã viết rất nhiều câu chuyện về lập trình của các AI hư cấu. Đôi khi những điều nhảm nhí đó đúng, nhưng thường thì chúng chỉ là vô nghĩa.

Điều tương tự cũng xảy ra với các mô hình “suy luận”, hoạt động bằng cách yêu cầu LLM phát ra một luồng ý thức theo kiểu kể chuyện về cách nó sẽ giải quyết vấn đề. Những “chuỗi suy nghĩ” (chains of thought) này về cơ bản là các LLM đang viết fanfic về chính chúng. Anthropic nhận thấy rằng các dấu vết suy luận của Claude phần lớn là không chính xác. Như Walden đã nói, “các mô hình suy luận sẽ nói dối trắng trợn về cách suy luận của chúng”.

Gemini có cả một tính năng chuyên nói dối về những gì nó đang làm: trong khi “suy nghĩ”, nó phát ra một loạt các thông báo trạng thái như “đang kích hoạt các giao thức an toàn” và “đang chuẩn hóa hình học”. Nếu thấy dễ hiểu hơn, hãy tưởng tượng một nhóm trẻ con đang hét lên những cụm từ máy tính giả tạo trong khi xem máy giặt hoạt động.

Các mô hình thì thông minh

Các kỹ sư phần mềm đang phát điên vì các LLM. Sự đồng thuận mang tính giai thoại dường như cho thấy trong ba tháng qua, khả năng của các LLM đã tiến bộ vượt bậc. Những kỹ sư giàu kinh nghiệm mà tôi tin tưởng nói rằng Claude và Codex đôi khi có thể giải quyết các tác vụ lập trình phức tạp, cấp độ cao chỉ trong một lần thử. Những người khác nói rằng cá nhân họ, hoặc công ty của họ, không còn viết code theo bất kỳ cách nào nữa—các LLM tạo ra mọi thứ.

Bạn bè của tôi ở các lĩnh vực khác cũng báo cáo về những tiến bộ đáng kinh ngạc. Một huấn luyện viên cá nhân sử dụng nó để chuẩn bị bữa ăn và lập lịch tập luyện. Các quản lý xây dựng sử dụng LLM để đọc qua các bảng thông số sản phẩm. Một nhà thiết kế sử dụng các mô hình ML để trực quan hóa 3D các tác phẩm của mình. Một vài người trong số họ—theo yêu cầu của công ty!—đã sử dụng nó để viết đánh giá hiệu suất của chính mình. AlphaFold rất giỏi một cách đáng ngạc nhiên trong việc dự đoán sự gấp cuộn protein. Các hệ thống ML rất giỏi trong các bài kiểm chuẩn chẩn đoán hình ảnh, mặc dù đó có thể chỉ là một ảo giác.

Nói chung, không còn có thể phân biệt một cách đáng tin cậy liệu văn xuôi tiếng Anh có phải do máy tạo ra hay không. Văn bản của LLM thường có một mùi đặc trưng, nhưng các lỗi loại I và II trong việc nhận diện thường xuyên xảy ra. Tương tự, hình ảnh do ML tạo ra ngày càng khó xác định—bạn thường có thể đoán đúng, nhưng nhóm của tôi thỉnh thoảng vẫn bị đánh lừa. Tổng hợp âm nhạc hiện nay khá tốt; Spotify gặp cả một vấn đề với các “nhạc sĩ AI”. Video vẫn còn là thách thức đối với các mô hình ML (thật may mắn là vậy), nhưng có lẽ điều này cũng sẽ sớm bị chinh phục.

Các mô hình thì ngớ ngẩn

Đồng thời, các mô hình ML lại là những kẻ ngớ ngẩn.⁴ Tôi thỉnh thoảng cầm một mô hình tiên phong như ChatGPT, Gemini hoặc Claude lên và yêu cầu nó giúp thực hiện một tác vụ mà tôi nghĩ nó có thể giỏi. Tôi chưa bao giờ nhận được cái mà tôi gọi là “thành công”: mọi tác vụ đều liên quan đến việc tranh cãi kéo dài với mô hình khi nó phạm phải những lỗi ngu ngốc.

Ví dụ, vào tháng 1, tôi đã yêu cầu Gemini giúp tôi áp dụng một số vật liệu vào bản dựng xám của một mô hình 3D phòng tắm. Nó vui vẻ đồng ý và tạo ra một phòng tắm hoàn toàn khác. Tôi thuyết phục nó tạo ra một cái có hình học chính xác như cũ. Nó làm được, nhưng lại quên mất các vật liệu. Sau nhiều giờ chơi trò “đập chuột” (whack-a-mole), tôi đã dụ được nó làm đúng ba phần tư các vật liệu, nhưng trong quá trình đó, nó đã xóa mất bồn cầu, tạo ra một bức tường và làm thay đổi hình dạng của căn phòng. Đương nhiên, nó đã nói dối tôi trong suốt quá trình đó.

Tôi đưa cùng một tác vụ đó cho Claude. Đáng lẽ nó nên từ chối—Claude không phải là một mô hình image-to-image. Thay vào đó, nó phun ra hàng ngàn dòng JavaScript tạo ra một bản trực quan hóa 3D hoạt hình, chạy bằng WebGL của khung cảnh đó. Nó tuyên bố đã kiểm tra lại công việc của mình và tự chúc mừng vì đã khớp chính xác với hình học của hình ảnh nguồn. Thứ mà nó tạo ra là một mớ đa giác vô nghĩa không thể hiểu nổi, không giống bất kỳ cách nào với đầu vào hoặc yêu cầu của tôi.

Gần đây, tôi đã tranh cãi 45 phút với ChatGPT, cố gắng bắt nó thêm các miếng vá trắng vào vai của một chiếc áo phông màu xanh. Nó đổi chiếc áo từ xanh sang xám, đặt các miếng vá ở phía trước, hoặc xóa chúng hoàn toàn; mô hình dường như quyết tâm làm bất cứ điều gì trừ việc tôi đã yêu cầu. Điều này đặc biệt gây thất vọng vì tôi đang cố gắng tái tạo hình ảnh của một chiếc áo thật mà rất có thể đã nằm trong kho dữ liệu của mô hình. Trong một cuộc hội thoại siêu thực khác, ChatGPT tranh luận hồi lâu rằng tôi là người dị tính, thậm chí còn trích dẫn blog của tôi để khẳng định rằng tôi có bạn gái. Tất nhiên, tôi cực kỳ đồng tính và không có bạn gái nào được đề cập trong bài đăng đó. Sau một hồi, chúng tôi thỏa hiệp với việc tôi là người lưỡng tính.⁵

Trong khi đó, các kỹ sư phần mềm vẫn liên tục cho tôi xem những kết quả đầu ra ngu ngốc đến mức khó tin của Claude. Một đồng nghiệp kể về việc yêu cầu một LLM phân tích dữ liệu chứng khoán. Nó liệt kê đầy đủ các cổ phiếu cụ thể, nói rằng nó đang tải dữ liệu giá xuống và tạo ra một biểu đồ. Chỉ khi kiểm tra kỹ hơn, họ mới nhận ra LLM đã nói dối: dữ liệu biểu đồ được tạo ngẫu nhiên.⁶ Chỉ chiều nay thôi, một người bạn đã tranh cãi với thiết bị nhà thông minh chạy bằng Gemini của anh ấy về việc liệu nó có thể tắt đèn hay không. Mọi người đang giao cho LLM quyền kiểm soát tài khoản ngân hàng và mất hàng trăm ngàn đô la vì chúng không thể làm toán cơ bản.⁷ Các bản tóm tắt “AI” của Google sai khoảng 10% thời gian.

Bất cứ ai tuyên bố các hệ thống này cung cấp trí thông minh cấp độ chuyên gia, chưa nói đến sự ngang bằng với con người trung bình, thì chắc hẳn đang "phê" thuốc nặng.

Ranh giới lởm chởm

Với hầu hết mọi người, bạn có thể có ý tưởng chung về khả năng của họ bằng cách nói chuyện với họ hoặc xem công việc họ đã làm. Các hệ thống ML thì khác.

LLM có thể tuôn ra kiến thức về giải tích đa biến, nhưng lại bị đánh lừa bởi những bài toán đố đơn giản. Các hệ thống ML điều khiển taxi ở San Francisco, nhưng ChatGPT lại nghĩ bạn nên đi bộ đến tiệm rửa xe. Chúng có thể tạo ra những khung cảnh đẹp như mơ nhưng không thể xử lý được những chiếc cốc bị lật ngược. Chúng đưa ra công thức nấu ăn nhưng chẳng hề biết “cay” nghĩa là gì. Mọi người sử dụng chúng để viết các bài báo khoa học, và chúng tự bịa ra những thuật ngữ vô nghĩa như “kính hiển vi điện tử thực vật”.

Vài tuần trước, tôi đọc được bản ghi chép từ một đồng nghiệp, người đã yêu cầu Claude giải thích một bức ảnh chụp tuyết trên mái nhà kho. Claude bắt đầu giải thích chi tiết về các phương trình vi phân chi phối độ võng của các dầm công xôn. Nó hoàn toàn không nhận ra rằng lớp tuyết đó được mái nhà đỡ hoàn toàn, chứ không phải đang treo lơ lửng ngoài không trung. Không một nhà vật lý nào mắc sai lầm này, nhưng các LLM thì làm điều đó suốt. Điều này khiến chúng vừa khó đoán vừa gây hiểu lầm: con người dễ dàng bị thuyết phục bởi khả năng toán học tinh vi của LLM, mà quên mất rằng toàn bộ tiền đề đó là nhảm nhí.

Mollick và cộng sự gọi ranh giới không đều giữa năng lực và sự ngu ngốc này là biên giới công nghệ gập ghềnh. Nếu bạn tưởng tượng việc sắp xếp tất cả các nhiệm vụ con người có thể làm trong một lĩnh vực, sao cho những nhiệm vụ dễ nằm ở trung tâm và những nhiệm vụ khó nằm ở rìa, hầu hết con người có thể giải quyết một vùng nhiệm vụ trơn tru, liền mạch ở giữa. Hình dạng những thứ mà LLM giỏi có vẻ lại gập ghềnh—giống kiki hơn là bouba.

Những người lạc quan về AI nghĩ rằng vấn đề này cuối cùng sẽ biến mất: các hệ thống ML, thông qua công việc của con người hoặc tự cải thiện đệ quy, sẽ lấp đầy những khoảng trống và trở nên khá năng lực trong hầu hết các nhiệm vụ của con người. Helen Toner lập luận rằng ngay cả khi điều đó đúng, chúng ta vẫn có thể kỳ vọng rất nhiều hành vi gập ghềnh trong thời gian chờ đợi. Ví dụ, các hệ thống ML chỉ có thể làm việc với những gì chúng đã được huấn luyện, hoặc những gì có trong cửa sổ ngữ cảnh; chúng khó có khả năng thành công ở các nhiệm vụ đòi hỏi kiến thức ngầm (tức là không được viết ra). Theo hướng đó, các robot hình người có lẽ còn rất xa vời, điều đó có nghĩa là ML có thể sẽ gặp khó khăn với loại kiến thức hiện thân mà con người học được chỉ bằng cách mày mò vọc vạch.

Tôi không nghĩ con người được trang bị tốt để lý luận về kiểu “nhận thức” gập ghềnh này. Một phép loại suy khả thi là hội chứng bác học, nhưng tôi không nghĩ nó nắm bắt được sự bất thường của ranh giới này. Ngay cả các mô hình tiên tiến nhất cũng gặp khó khăn với những thay đổi nhỏ trong cách diễn đạt theo cách mà ít con người nào mắc phải. Điều này khiến việc dự đoán liệu một LLM có thực sự phù hợp với một nhiệm vụ hay không trở nên khó khăn, trừ khi bạn có một tiêu chuẩn đánh giá được thiết kế cẩn thận và chặt chẽ về mặt thống kê cho lĩnh vực đó.

Đang cải thiện, hay có lẽ là không

Tôi thường đứng ngoài lĩnh vực ML, nhưng tôi có trò chuyện với những người trong ngành. Một trong những điều họ nói với tôi là chúng ta không thực sự biết tại sao các mô hình transformer lại thành công đến vậy, hay làm thế nào để làm cho chúng tốt hơn. Đây là bản tóm tắt của tôi từ những cuộc thảo luận bên bàn nhậu; hãy đón nhận nó với sự dè chừng. Tôi chắc chắn rằng Những người trong Phần bình luận sẽ thả hàng tỷ bài báo để nói với bạn tại sao điều này sai.

Bài báo năm 2017 Attention is All You Need là một bước ngoặt và đã mở đường cho ChatGPT và những hệ thống tương tự. Kể từ đó, các nhà nghiên cứu ML đã cố gắng nghĩ ra các kiến trúc mới, và các công ty đã đổ hàng tỷ đô la vào những người thông minh để thử nghiệm và xem liệu họ có thể tạo ra một loại mô hình tốt hơn hay không. Tuy nhiên, những kiến trúc tinh vi hơn này dường như không hoạt động tốt bằng việc Tăng thêm Tham số cho Bài toán. Có lẽ đây là một biến thể của Bài học đắng cay.

Vẫn chưa rõ liệu việc tiếp tục đổ một lượng lớn silicon và các tập dữ liệu ngày càng lớn hơn vào thế hệ mô hình hiện tại có dẫn đến các khả năng tương đương con người hay không. Việc tăng chi phí đào tạo và số lượng tham số một cách ồ ạt dường như đang mang lại lợi nhuận giảm dần. Hoặc có lẽ hiệu ứng này chỉ là ảo giác. Những bí ẩn!

Ngay cả khi ML ngừng cải tiến từ hôm nay, những công nghệ này đã có thể làm cho cuộc sống của chúng ta trở nên khốn khổ. Quả thực, tôi nghĩ phần lớn thế giới vẫn chưa theo kịp những hệ lụy của các hệ thống ML hiện đại—như Gibson đã nói, “tương lai đã ở đây rồi, chỉ là nó chưa được phân bổ đồng đều mà thôi”. Khi các LLM và những thứ tương tự được triển khai trong các tình huống mới và ở quy mô mới, sẽ có đủ mọi thay đổi trong công việc, chính trị, nghệ thuật, tình dục, giao tiếp và kinh tế. Một số tác động sẽ tốt. Nhiều tác động sẽ xấu. Nhìn chung, ML hứa hẹn sẽ vô cùng kỳ quặc.

Hãy thắt dây an toàn.

Thuật ngữ “Trí tuệ nhân tạo” vừa quá rộng vừa mang những hàm ý mà tôi thường muốn tránh. Trong tác phẩm này, tôi cố gắng sử dụng “ML” hoặc “LLM” để có tính cụ thể. Thuật ngữ “Generative AI” rất hấp dẫn nhưng không đầy đủ, vì tôi cũng quan tâm đến các tác vụ nhận dạng. Một độc giả tinh ý sẽ thường tìm thấy những chỗ mà một thuật ngữ quá rộng hoặc quá hẹp; và nghĩ “À, lẽ ra anh ta nên nói” transformers hoặc diffusion models. Tôi hy vọng bạn sẽ tha thứ cho những sự mơ hồ này khi tôi cố gắng cân bằng giữa độ chính xác và sự súc tích.
↩
Hãy nghĩ xem đã có bao nhiêu câu chuyện được viết về AI. Những câu chuyện đó, và những câu chuyện mà các nhà sản xuất LLM đóng góp trong quá trình huấn luyện, chính là lý do tại sao các chatbot lại tự bịa ra những điều nhảm nhí về bản thân chúng.
↩
Có thể nói, chúng ta cũng vậy.
↩
Một phản ứng phổ biến khi nghe tin một LLM làm điều gì đó ngu ngốc là bác bỏ bằng chứng đó. “Bạn đã không đưa ra câu lệnh (prompt) đúng.” “Bạn đã không sử dụng mô hình tối tân nhất.” “Các mô hình hiện tại tốt hơn nhiều so với ba tháng trước.” Điều này thật ngớ ngẩn. Những bình luận này đã là "de rigueur" (điều tất yếu) trên Hacker News hai năm trước; nếu các mô hình tiên phong khi đó không phải là những kẻ ngốc, thì chúng không nên là những kẻ ngốc bây giờ. Các ví dụ tôi đưa ra trong bài tiểu luận này chủ yếu là từ các mô hình thương mại lớn (ví dụ: ChatGPT GPT-5.4, Gemini 3.1 Pro, hoặc Claude Opus 4.6) trong ba tháng qua; một vài ví dụ là từ cuối tháng Ba. Nhiều ví dụ đến từ các kỹ sư phần mềm có kinh nghiệm, những người sử dụng LLM một cách chuyên nghiệp trong công việc của họ. Các mô hình ML hiện đại có khả năng đáng kinh ngạc, và chúng cũng là những kẻ ngốc nghếch. Điều này thậm chí không nên gây tranh cãi chút nào.
↩
Thuật ngữ kỹ thuật cho việc này là “erasure coding”.
↩
Có một phiên bản của định luật Hanlon ở đây—có lẽ là “Đừng bao giờ đổ lỗi cho ác ý đối với những gì có thể được giải thích bằng một LLM vốn chẳng biết mình đang làm gì.”
↩
Pash cho rằng điều này xảy ra vì LLM của anh ấy đã không đọc lại chính xác cuộc trò chuyện trước đó. Điều này không hợp lý: việc gửi một giao dịch gần như chắc chắn yêu cầu tác nhân phải cung cấp một số lượng token cụ thể để chuyển. Tác nhân đó đã nói “Tôi vừa xem tổng số và gửi toàn bộ”, điều này khiến nghe như thể tác nhân đó “biết” chính xác nó có bao nhiêu token, và vẫn chọn làm như vậy.
↩