Internet ngày càng yên tĩnh hơn - Ai sẽ nuôi sống thế hệ AI tiếp theo?
AI/ML·Dev.to·1 lượt xem

Internet ngày càng yên tĩnh hơn - Ai sẽ nuôi sống thế hệ AI tiếp theo?

The Internet Is Getting Quieter - Who Will Feed the Next Generation of AI?

AI Summary

Các mô hình AI ngày càng được huấn luyện dựa trên những thảo luận công khai của developer trên các diễn đàn như Stack Overflow. Tuy nhiên, khi các trợ lý AI trở nên phổ biến hơn, developer có xu hướng ít chia sẻ giải pháp của mình công khai, dẫn đến sự suy giảm của kho kiến thức chung. Xu hướng này gây ra vấn đề cho sự phát triển AI trong tương lai, bởi lẽ những giải pháp mới lạ và kinh nghiệm gỡ lỗi quý báu đang dần bị "riêng tư hóa" thay vì được chia sẻ rộng rãi. Developer nên cân nhắc tác động lâu dài của việc kiến thức bị riêng tư hóa này và tìm cách tiếp tục đóng góp, duy trì các kho lưu trữ kiến thức công khai, có thể kiểm chứng được.

Stack Overflow đã giúp đào tạo các mô hình AI hiện đang khiến nó trở nên không phù hợp. Khi các nhà phát triển giải quyết vấn đề một cách riêng tư với trợ lý AI, thì lượng kiến ​​thức chung đang dần cạn kiệt. Đây là một vấn đề được đánh giá thấp.

Đây là điều trớ trêu luôn khiến tôi bận tâm.

Stack Overflow đã giúp đào tạo các mô hình AI hiện đang khiến Stack Overflow không còn phù hợp nữa.

Các mô hình đã học được từ hàng triệu câu hỏi và câu trả lời, từ các nhà phát triển thực sự đã vượt qua những bức tường thực tế và làm việc một cách công khai. Giờ đây, những mô hình tương tự đó trả lời trực tiếp các câu hỏi, lưu lượng truy cập giảm, ít nhà phát triển bận tâm đăng bài hơn và hệ sinh thái nuôi dưỡng các mô hình đang dần chết đói.

Tôi không thấy nhiều người nói về điều này. Có lẽ tôi đang thiếu một cái gì đó. Nhưng tôi cảm thấy đó là một vấn đề bị đánh giá thấp và tôi tiếp tục quay lại vấn đề đó.

Những gì thực sự đang bị mất

Thoạt nhìn, đây có vẻ như là một vấn đề về nền tảng. Stack Overflow mất người dùng, Stack Overflow mất doanh thu. Buồn cho họ chứ không phải chuyện của chúng ta.

Nhưng đào sâu thêm một lớp nữa thì đó là vấn đề về kiến thức.

Khi một nhà phát triển gặp phải một lỗi kỳ lạ vào năm 2015, họ có thể đã dành hàng giờ để tìm ra lỗi đó, sau đó đăng công khai câu hỏi và giải pháp. Bài đăng đó đã trở thành một hiện vật vĩnh viễn. Các nhà phát triển khác đã tìm thấy nó, bình chọn nó, thêm các trường hợp đặc biệt vào phần nhận xét. Kiến thức được tích lũy theo thời gian ở một nơi mà mọi người đều có thể truy cập.

Ngày nay, chính nhà phát triển đó đã hỏi trợ lý AI của họ. Nhận được câu trả lời. Đi tiếp.

Dung dịch bay hơi. Nó không tồn tại trong lịch sử trò chuyện của ai ngoài lịch sử trò chuyện của họ.

Nhân con số đó với hàng triệu nhà phát triển mỗi ngày. Đó không phải là vấn đề về Tràn ngăn xếp. Đó là vấn đề tri thức tập thể.

Tại sao điều này lại quan trọng đối với chính AI

Đây là nơi nó được đệ quy.

Các người mẫu ngày nay đã được đào tạo trên internet công cộng. Phần lớn dữ liệu đào tạo đó là Stack Overflow, các vấn đề về GitHub, bài đăng trên blog, chủ đề diễn đàn. Mọi người chia sẻ những điều họ tìm ra một cách công khai ở nơi mà trình thu thập thông tin có thể tìm thấy.

Bây giờ dòng chảy đó đang chậm lại. Các giải pháp mới đang được giải quyết một cách riêng tư. Hồ sơ công khai không được cập nhật như trước đây.

Người mẫu tương lai sẽ được đào tạo về... chính xác là gì?

Câu trả lời hiển nhiên là dữ liệu tổng hợp. Các mô hình tạo dữ liệu đào tạo của riêng chúng hoặc học thông qua các vòng thực thi mã. Và đối với những thông tin có thể kiểm chứng được như "mã này có chạy đúng không" hoạt động khá tốt.

Nhưng rất nhiều kiến thức có giá trị không thể được kiểm chứng theo cách đó. Bài đăng "Tôi đã thử tiếp cận X và đây là lý do tại sao nó thất bại". Chủ đề quyết định kiến ​​trúc. Phiên gỡ lỗi trong đó ai đó trình bày rõ lý do của họ. Đó là loại tín hiệu khó tổng hợp vì nó đến từ sự nhầm lẫn thực sự và sau đó là sự khám phá thực sự.

Nếu tín hiệu đó biến mất khỏi Internet công cộng, những người mẫu trong tương lai sẽ mất đi thứ gì đó có thật.

Vấn đề tư nhân hóa

Có một vấn đề liên quan lại càng ít được bàn tới.

Ngay bây giờ, khi các kỹ sư giỏi nhất trong nhóm của bạn giải quyết một vấn đề khó khăn, kiến thức đó sẽ tồn tại trong một chuỗi Slack riêng tư, wiki nội bộ hoặc nhật ký trò chuyện AI thuộc về công ty bạn.

Trước đây, một số kiến thức đó cuối cùng sẽ được công khai. Một bài đăng trên blog. Câu trả lời về Tràn ngăn xếp. Một cuộc nói chuyện hội nghị. Không chính thức, chậm, nhưng nó đã xảy ra.

Đường ống đó đang bị thu hẹp lại. Động lực chia sẻ công khai sẽ yếu hơn khi bạn đã có trợ lý AI trả lời bạn nhanh hơn bất kỳ diễn đàn nào. Tri thức đang được tư nhân hóa trên quy mô lớn và đó không phải là một âm mưu mà chỉ là con đường ít bị cản trở nhất.

Các kho kiến thức chung không được duy trì như cũ.

Một hướng đi đáng suy nghĩ

Tôi không có giải pháp rõ ràng. Nhưng có một ý tưởng cứ lởn vởn trong đầu tôi.

Điều gì sẽ xảy ra nếu các tác nhân AI là những người tham gia hạng nhất trong nền tảng kiến thức công cộng?

Không chỉ với tư cách là người tiêu dùng kiến thức mà còn là những người đóng góp. Khi một tác nhân giải quyết một vấn đề mới, thay vì giải pháp đó biến mất, nó sẽ đăng nó một cách công khai. Chuỗi suy nghĩ, những cách tiếp cận mà nó đã thử, những gì hiệu quả và tại sao. Các nhân viên khác gặp phải vấn đề tương tự có thể tìm thấy nó, sử dụng nó và bỏ phiếu xem nó có thực sự hữu ích hay không.

Một loại Tràn ngăn xếp dành cho tổng đài viên.

Ý tưởng sơ bộ đặt ra những câu hỏi rõ ràng ngay lập tức:

Ai là người chịu trách nhiệm đằng sau một bài đăng? Xác thực không thể ẩn danh. Một đại lý đăng giải pháp cần phải được truy nguyên về nhà điều hành hoặc nhà phát triển đã đăng ký giải pháp đó. Giống như cách bạn chịu trách nhiệm về thư viện bên thứ ba mà bạn chọn cài đặt, bạn sẽ chịu trách nhiệm về những gì đại diện của bạn đưa vào tài sản chung.

Các quy tắc tồn tại ở đâu? Câu trả lời đương nhiên ngày nay là máy chủ MCP. Nền tảng này bộc lộ chính nó như một công cụ. Lược đồ, quy tắc đăng bài, API biểu quyết đều có trong định nghĩa công cụ. Tác nhân không cần phải được đào tạo trước về nền tảng, nó sẽ khám phá nền tảng này giống như cách nó khám phá bất kỳ khả năng nào khác.

Khi nào nhân viên thực sự đăng bài? Có lẽ không nằm trong lộ trình thực hiện nhiệm vụ hấp dẫn. Nhiều khả năng là bước không đồng bộ sau khi quá trình chạy hoàn tất, sau khi giải pháp được xác minh, khi có đủ ngữ cảnh để quyết định xem những gì được tìm thấy có thực sự mới lạ và đáng chia sẻ hay không.

Không có thông số nào trong số này là thông số kỹ thuật. Đó là một bản phác thảo thô về một phương hướng.

Mảnh thực sự chưa được giải quyết

Ngay cả khi các vấn đề kỹ thuật trên có thể giải quyết được thì vấn đề khó khăn hơn vẫn là quản trị.

Ai xây dựng và duy trì kho kiến thức chung cho các đại lý? Một công ty sẽ kiếm tiền từ nó và cuối cùng sẽ đóng cửa nó. Một tiêu chuẩn mở cần được áp dụng trước khi nó có giá trị, đây là vấn đề con gà và quả trứng kinh điển.

Stack Overflow hoạt động hiệu quả vì có văn hóa chia sẻ. Các nhà phát triển cảm thấy điều gì đó khi họ đăng một câu trả lời hay. Danh tiếng, đóng góp, trả nó về phía trước. Đại lý không có văn hóa. Họ cần các biện pháp khuyến khích được tích hợp trong hệ thống vận hành họ.

Đó là phần tôi chưa có câu trả lời thỏa đáng.

Đất này ở đâu

Tôi tiếp tục quay lại vấn đề này vì cảm thấy quỹ đạo rõ ràng.

Các người mẫu được đào tạo trên mạng internet công cộng, nơi mọi người chia sẻ những gì họ tìm ra. Internet đó đang trở nên yên tĩnh hơn. Kiến thức vẫn đang được tạo ra, nó chỉ được tạo ra một cách riêng tư, trong các hệ thống được thiết kế cho năng suất cá nhân chứ không phải cho trí nhớ tập thể.

Điều đó có thể ổn vào lúc này. Những mô hình chúng tôi có đều đã tốt rồi. Nhưng còn những người chúng tôi đào tạo trong 5 năm, dựa trên dữ liệu ngày càng phản ánh kết quả tổng hợp và tương tác riêng tư thay vì giải quyết vấn đề công thực sự thì sao?

Tôi không nghĩ đây là thảm họa. Tôi thực sự nghĩ nó bị đánh giá thấp.

Nếu bạn biết về công việc đang được thực hiện ở đây, tôi thực sự muốn biết về nó. Hãy liên hệ với tôi theo địa chỉ @sag1v.

Được xuất bản lần đầu trên debuggr.io.

Tôi viết về công nghệ phần mềm, AI và những điều khiến tôi trăn trở trong ngành của chúng ta. Nếu điều này đồng ý với bạn, hãy truy cập debuggr.io để biết thêm.

Tác giả: Sagiv ben giat

#ai#knowledgesharing#stackoverflow#opinion