Những quyết định làm xói mòn niềm tin vào Azure – của cựu kỹ sư Azure Core
Cloud·Hacker News·2 lượt xem

Những quyết định làm xói mòn niềm tin vào Azure – của cựu kỹ sư Azure Core

Decisions that eroded trust in Azure – by a former Azure Core engineer

AI Summary

Một kỹ sư cũ của Azure Core chia sẻ câu chuyện về một chiến lược sai lầm khi cố gắng đưa phần lớn hệ điều hành Windows lên chạy trên các chip tăng tốc (accelerator chips) có công suất thấp. Vấn đề cốt lõi là cách tiếp cận này sẽ tốn kém tài nguyên đến mức không thể chấp nhận được. Cách làm này có nguy cơ khiến các khách hàng lớn như OpenAI và chính phủ Mỹ xa lánh, bởi nó cho thấy sự chênh lệch nghiêm trọng giữa năng lực kỹ thuật và khả năng triển khai dự án thực tế. Qua đó, các nhà phát triển nên nhận thức rõ tầm quan trọng của việc hiểu rõ giới hạn phần cứng và đưa ra những lựa chọn kiến trúc (architectural choices) thực tế. Điều này giúp duy trì lòng tin của khách hàng và tránh lãng phí vào các sáng kiến không thể đạt được.

Đây là bài đầu tiên trong loạt bài viết mà bạn sẽ tìm hiểu về những gì có thể là một trong những rủi ro ngớ ngẩn nhất, có thể phòng ngừa được và tốn kém nhất trong thế kỷ 21, khi Microsoft gần như đã đánh mất OpenAI,...

Đây là bài đầu tiên trong loạt bài viết mà bạn sẽ tìm hiểu về những gì có thể là một trong những rủi ro ngớ ngẩn nhất, có thể phòng ngừa được và tốn kém nhất trong thế kỷ 21, khi Microsoft gần như mất đi OpenAI, khách hàng lớn nhất của hãng và sự tin tưởng của chính phủ Hoa Kỳ.

Tôi đã gia nhập Azure Core vào buổi sáng thứ Hai buồn tẻ của ngày 1 tháng 5, 2023, với tư cách là thành viên cấp cao của nhóm Overlake R&D, mọi người đằng sau thẻ giảm tải Azure Boost và bộ tăng tốc mạng.

Tôi không phải là người mới đối với Azure, đã chạy dịch vụ có thể là đăng ký sản xuất lâu nhất của dịch vụ đám mây này, ra mắt vào tháng 2 năm 2010 với tên Windows Azure.

Tôi cũng không phải là người mới đối với Microsoft, tôi đã là thành viên của nhóm Windows kể từ ngày 1/1/2013 và sau đó đã giúp di chuyển SharePoint Online sang Azure, trước khi gia nhập Core Nhóm hệ điều hành là hạt nhân kỹ sư, trong đó tôi đặc biệt giúp cải thiện kernel, đồng thời giúp phát minh và cung cấp nền tảng Container hỗ trợ Docker, Azure Kubernetes, Azure Container Instances, Azure App Services và Windows Sandbox, tất cả các công nghệ vận chuyển dẫn đến nhiều bằng sáng chế được cấp.

Hơn nữa, tôi đã góp phần lên ý tưởng về các thẻ Overlake đầu tiên vào năm 2020-2021, soạn thảo đề xuất cho Hệ điều hành máy chủ <-> Giao thức truyền thông Thẻ tăng tốc và ngăn xếp mạng, khi tất cả những gì chúng tôi có là kết nối nối tiếp của trình gỡ lỗi. Tôi cũng từng là chuyên gia Core OS, giúp các kỹ sư Azure Core chẩn đoán các sự cố sâu về hệ điều hành.

Tôi tái gia nhập vào năm 2023 với tư cách là chuyên gia Azure vào ngày đầu tiên, tôi đã góp phần phát triển một số công nghệ mà Azure dựa vào và đã sử dụng nền tảng này nhiều hơn nữa hơn một thập kỷ, cả bên ngoài và bên trong Microsoft ở quy mô toàn cầu.

Là một nhân viên mới trở lại, tôi đã bỏ qua buổi Định hướng nhân viên mới và nhận được lời mời từ Ban An ninh toàn cầu vào 12 giờ trưa để nhận huy hiệu, nhưng người quản lý tương lai của tôi đã hỏi liệu tôi có thể đến sớm hơn không vì nhóm có cuộc họp lập kế hoạch hàng tháng vào sáng hôm đó.

Tất nhiên, tôi đã đồng ý và đến trước đó vài phút. 10 giờ sáng tại cổng vào Tòa nhà Studio X, không xa The Commons ở khuôn viên phía Tây ở Redmond. Một người đàn ông xuất hiện ở tiền sảnh và mở cửa cho tôi. Tôi theo anh ấy đến phòng họp qua mê cung các hành lang.

Căn phòng chật kín, với nhiều người đang tham gia cuộc gọi hội nghị trực tiếp. Giám đốc phát triển, trưởng nhóm, kiến trúc sư, hiệu trưởng và kỹ sư cấp cao chia sẻ không gian với những người có vẻ là nhân viên mới và nhân sự cấp dưới.

Màn hình chiếu một trang trình bày trong đó tôi nhận ra một số từ viết tắt quen thuộc, như COM, WMI, bộ đếm hiệu suất, VHDX, NTFS, ETW và hàng chục từ khác, được trộn lẫn với những từ mới liên quan đến Azure, trong một tập hợp các hộp được liên kết bởi mũi tên.

Tôi ngồi lặng lẽ ở phía sau trong khi người đàn ông đang đi trong phòng thông qua một kế hoạch chuyển lớn ngăn xếp hiện tại của họ sang máy gia tốc Overlake. Khi tôi lắng nghe, tôi không hiểu ngay rằng loạt hộp có chế độ người dùng Windows và các thành phần hạt nhân có liên quan gì đến kế hoạch đó.

Sau vài phút, tôi mạo hiểm đặt câu hỏi: Bạn có dự định chuyển các tính năng Windows đó sang Overlake không? Câu trả lời là có, hoặc ít nhất họ đang xem xét nó. Người quản lý nhà phát triển tỏ ra nghi ngờ và người đàn ông trả lời rằng ít nhất họ có thể “yêu cầu một vài nhà phát triển cấp dưới xem xét vấn đề đó”.

Căn phòng im lặng trong giây lát. Tôi đã thấy thông số phần cứng của SoC trên thẻ Overlake trong nhiệm kỳ trước của mình: dung lượng RAM và mức tiêu thụ điện năng, chỉ bằng một phần rất nhỏ so với TDP mà bạn có thể mong đợi từ CPU máy chủ thông thường.

Những người phụ trách phần cứng mà tôi đã nói chuyện cùng đã nói với tôi rằng họ chỉ có thể dành 4KB bộ nhớ cổng kép trên FPGA cho giao tiếp bộ nhớ chia sẻ qua chuông cửa của tôi giao thức.

Mọi thứ đều nhanh nhẹn, hiệu quả, và hiểu biết về năng lượng, còn nhóm mà tôi đã tham gia 10 phút trước đó đã nghiêm túc đang cân nhắc việc chuyển một nửa Windows sang con chip nhỏ bé, không có quạt, chạy Linux có kích thước bằng móng tay đó.

Cảm giác giống như Elon đang nói về việc xâm chiếm sao Hỏa: chỉ cần ném bom các cực rồi phát triển một bầu không khí! Nói thì dễ hơn làm, ừ?

Toàn bộ tổ chức gồm 122 thành viên đó đã vượt quá khả năng của mình những suy nghĩ liên quan đến việc chuyển Windows sang Linux để hỗ trợ các tác nhân quản lý VM hiện có của họ.

Người đàn ông này là Giám đốc kỹ thuật của nhóm chính, giám sát một phần phần mềm chạy trên mỗi nút Azure; sếp của anh ấy, Giám đốc kỹ thuật đối tác, đang ở trong phòng với chúng tôi và họ thực sự đã dự tính chuyển Windows sang Linux để hỗ trợ hiện tại của họ phần mềm.

Lúc đầu, tôi nghi ngờ sự hiểu biết của mình. Điều đó có nghiêm trọng không? Phần còn lại của cuộc nói chuyện không còn nghi ngờ gì nữa: kế hoạch đã được vạch ra và các trưởng nhóm phát triển được giao nhiệm vụ đóng góp cho nỗ lực của mọi người. Tôi ngay lập tức thấy rõ rằng kế hoạch này sẽ không bao giờ thành công và tổ chức cần rất nhiều sự trợ giúp.

Giờ đầu tiên trong vai trò mới đã để lại cho tôi nhiều cảm xúc kỳ lạ, sự sửng sốt và sự hoài nghi.

Ngăn xếp đã đạt đến giới hạn mở rộng trên Xeon 400 Watt với chỉ vài chục máy ảo trên mỗi nút, sau này tôi mới biết, khác xa so với giới hạn 1.024 máy ảo mà tôi biết trình ảo hóa có khả năng làm điều đó và là một người hàng xóm ồn ào tiêu thụ nhiều tài nguyên đến mức gây ra hiện tượng giật hình có thể quan sát được từ các máy ảo của khách hàng.

Không có chiều nào trong vũ trụ mà ngăn xếp này có thể vừa với một SoC ARM nhỏ bé và mở rộng quy mô theo nhiều yếu tố. Điều đó sẽ không xảy ra.

Tôi đã thấy rất nhiều điều trong hàng chục năm kinh nghiệm làm việc trong ngành (và Microsoft) của mình, nhưng tôi chưa bao giờ thấy một tổ chức nào khác xa thực tế đến vậy. Do đó, vấn đề hàng ngày của tôi không phải là tăng tốc công nghệ mới mà là thuyết phục toàn bộ tổ chức, ở cấp độ bỏ qua của tôi, rằng họ đang trên đường hành quân tử thần.

Ở đâu đó, tôi biết đây sẽ là một trận chiến cam go khốc liệt. Như bạn có thể tưởng tượng, mọi việc đã không diễn ra suôn sẻ như sau này bạn sẽ biết.

Tôi đã dành vài ngày tiếp theo để đọc thêm về các kế hoạch, nghiên cứu các hệ thống hiện tại và thăm những người bạn cũ ở Core OS, trường cũ của tôi. Tôi bị lạc xa nhà trong một vùng lãnh thổ kỳ lạ, nơi mọi người lập ra những kế hoạch vô lý với sự tự tin của một LLM say rượu.

Đặc biệt, tôi đã dành hơn 90 phút trò chuyện trực tiếp với người đứng đầu Nhóm Hệ thống Linux, một học giả giỏi có bằng Tiến sĩ tại INRIA, một trong những người đã thuê tôi vào nhóm hạt nhân nhiều năm trước.

Tổ chức của anh ấy chịu trách nhiệm cung cấp Mariner Linux (nay là Azure Linux) và bản phân phối được rút gọn chạy trên thẻ Overlake / Azure Boost. Anh ấy vui lòng trả lời tất cả các câu hỏi của tôi và tôi được biết rằng họ đã xác định 173 nhân viên (một trăm bảy mươi ba) là ứng viên để chuyển sang Overlake.

Sau đó, tôi đã nghiên cứu sâu hơn về vấn đề này và nhận thấy rằng không ai ở Microsoft, không một ai, có thể nói rõ lý do tại sao cần tới 173 nhân viên để quản lý nút Azure, tất cả họ đã làm gì, cách họ tương tác với một nút khác, bộ tính năng của chúng là gì hoặc thậm chí tại sao chúng tồn tại ngay từ đầu.

Azure bán VM, kết nối mạng và lưu trữ làm cốt lõi. Thêm khả năng quan sát và phục vụ, và bạn sẽ ổn. Mọi thứ khác, khối lượng công việc SQL, K8, AI và những thứ khác đều được xây dựng trên máy ảo với xPU, kết nối mạng và lưu trữ, đồng thời công việc nặng nhọc để biến điều kỳ diệu thành hiện thực đều được thực hiện bởi những người giỏi Core OS và nhà ảo hóa.

Cách những người Azure tạo ra 173 tác nhân có thể sẽ vẫn còn là một bí ẩn, nhưng để đạt được điều đó thì phải có rất nhiều hiểu lầm nghiêm trọng và đây cũng là cách thảm họa xảy ra đã được xây dựng.

Bây giờ, hãy tìm hiểu trong giây lát rằng đống “thứ” không được kiểm soát này đang điều phối các máy ảo chạy Claude của Anthropic, những gì còn lại trong API của OpenAI trên Azure, SharePoint Online, các đám mây của chính phủ và cơ sở hạ tầng quan trọng khác, và bạn sẽ gần hiểu được làm thế nào một hạt cát trong đống mong manh đó có thể gây ra sự sụp đổ toàn cầu, gây ra những tác động nghiêm trọng đến An ninh Quốc gia cũng như những hậu quả tiềm ẩn về kết thúc hoạt động kinh doanh đối với Microsoft.

Chúng ta vẫn còn lâu mới đạt được mức vốn hóa thị trường trị giá nghìn tỷ nghìn tỷ, những lá thư của tôi gửi cho Giám đốc điều hành, Ban giám đốc Microsoft, đến Cloud + AI EVP và sự im lặng hoàn toàn của họ, sự gần như mất mát của OpenAI, sự vi phạm lòng tin với chính phủ Hoa Kỳ như Bộ trưởng Quốc phòng đã tuyên bố công khai, những nỗ lực kỹ thuật lãng phí, nhiệm vụ của Rust, thời gian làm việc của tôi trong nhóm kim loại trần OpenAI trong Azure Core, các phiên họp hộ tống từ Trung Quốc và các nơi khác cũng như các tính năng bị trì hoãn được công khai ngụ ý là sẽ được vận chuyển kể từ năm 2023, thậm chí trước khi công việc bắt đầu.

Nếu bạn đang chạy khối lượng công việc sản xuất trên Azure hoặc dựa vào nó cho các hệ thống quan trọng thì câu chuyện này quan trọng hơn bạn nghĩ.

Nhấp để xem một phần 2.

Không có bài đăng nào

Tác giả: axelriet

#discussion