Nền tảng AI của Cloudflare: lớp suy luận được thiết kế cho các đại lý
Cloud·Hacker News·0 lượt xem

Nền tảng AI của Cloudflare: lớp suy luận được thiết kế cho các đại lý

Cloudflare's AI Platform: an inference layer designed for agents

Chúng tôi đang xây dựng Cổng AI thành một lớp suy luận thống nhất cho AI, cho phép các nhà phát triển gọi các mô hình từ hơn 14 nhà cung cấp. Các tính năng mới bao gồm tích hợp ràng buộc AI của Công nhân và một danh mục mở rộng với các mô hình đa phương thức.

2026-04-16

5 phút đọc

Các mô hình AI đang thay đổi nhanh chóng: mô hình tốt nhất để sử dụng cho mã hóa tác nhân ngày nay có thể trong ba tháng nữa sẽ trở thành một mô hình hoàn toàn khác với một nhà cung cấp khác. Trên hết, các trường hợp sử dụng trong thế giới thực thường yêu cầu gọi nhiều hơn một mô hình. Nhân viên hỗ trợ khách hàng của bạn có thể sử dụng mô hình nhanh, rẻ để phân loại tin nhắn của người dùng; một mô hình lớn, hợp lý để lập kế hoạch hành động; và một mô hình gọn nhẹ để thực hiện các nhiệm vụ riêng lẻ.

Điều này có nghĩa là bạn cần quyền truy cập vào tất cả các mô hình mà không cần phải ràng buộc mình về mặt tài chính và hoạt động với một nhà cung cấp duy nhất. Bạn cũng cần có sẵn hệ thống phù hợp để giám sát chi phí giữa các nhà cung cấp, đảm bảo độ tin cậy khi một trong số họ ngừng hoạt động và quản lý độ trễ cho dù người dùng của bạn ở đâu.

Những thách thức này luôn hiện hữu bất cứ khi nào bạn xây dựng bằng AI nhưng chúng thậm chí còn cấp bách hơn khi bạn xây dựng đại lý. Một chatbot đơn giản có thể thực hiện một cuộc gọi suy luận cho mỗi lời nhắc của người dùng. Một tổng đài viên có thể xâu chuỗi mười cuộc gọi lại với nhau để hoàn thành một nhiệm vụ và đột nhiên, một nhà cung cấp chậm không thêm 50 mili giây mà lại thêm 500 mili giây. Một yêu cầu không thành công không phải là yêu cầu thử lại mà đột nhiên là một loạt các yêu cầu thất bại ở phía sau. 

Kể từ khi ra mắt AI Gateway và Workers AI, chúng tôi đã nhận thấy sự áp dụng đáng kinh ngạc từ các nhà phát triển xây dựng ứng dụng hỗ trợ AI trên Cloudflare và chúng tôi đã nhanh chóng bắt kịp! Chỉ trong vài tháng qua, chúng tôi đã làm mới trang tổng quan, thêm các cổng mặc định không cần thiết lập, tự động thử lại khi xảy ra lỗi ngược dòng và các biện pháp kiểm soát ghi nhật ký chi tiết hơn. Hôm nay, chúng tôi đang biến Cloudflare thành một lớp suy luận thống nhất: một API để truy cập mọi mô hình AI từ bất kỳ nhà cung cấp nào, được xây dựng để hoạt động nhanh chóng và đáng tin cậy. 

Một danh mục, một điểm cuối thống nhất

Bắt đầu từ hôm nay, bạn có thể gọi mô hình của bên thứ ba bằng cách sử dụng cùng một liên kết AI.run() mà bạn đã sử dụng cho AI Công nhân. Nếu bạn đang sử dụng Công nhân, việc chuyển từ mô hình được lưu trữ trên Cloudflare sang mô hình từ OpenAI, Anthropic hoặc bất kỳ nhà cung cấp nào khác chỉ là thay đổi một dòng. 

const phản hồi = đang chờ env.AI.run('anthropic/claude-opus-4-6',{
đầu vào: 'Cloudflare là gì?',
}, {
cổng: { id: "mặc định" },
});

Đối với những người không sử dụng Công nhân, chúng tôi sẽ phát hành hỗ trợ API REST trong những tuần tới, vì vậy bạn có thể truy cập vào danh mục mô hình đầy đủ từ bất kỳ môi trường nào.

Chúng tôi cũng rất vui được chia sẻ rằng giờ đây bạn sẽ có quyền truy cập vào hơn 70 mô hình trên hơn 12 nhà cung cấp — tất cả thông qua một API, một dòng mã để chuyển đổi giữa chúng và một bộ tín dụng để thanh toán cho chúng. Và chúng tôi đang nhanh chóng mở rộng phạm vi này.

Bạn có thể duyệt qua danh mục mô hình của chúng tôi để tìm mô hình tốt nhất cho trường hợp sử dụng của bạn, từ các mô hình nguồn mở được lưu trữ trên Cloudflare Workers AI đến các mô hình độc quyền từ các nhà cung cấp mô hình chính. Chúng tôi rất vui mừng được mở rộng quyền truy cập vào các mô hình từ Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway và Vidu — những người sẽ cung cấp mô hình của họ thông qua AI Gateway. Đáng chú ý là chúng tôi đang mở rộng việc cung cấp mô hình của mình để bao gồm các mô hình hình ảnh, video và giọng nói để bạn có thể xây dựng các ứng dụng đa phương thức

Truy cập tất cả các mô hình của bạn thông qua một API cũng có nghĩa là bạn có thể quản lý tất cả chi tiêu AI của mình ở một nơi. Hầu hết các công ty ngày nay đang gọi trung bình là 3,5 mô hình trên nhiều nhà cung cấp, nghĩa là không một nhà cung cấp nào có thể cung cấp cho bạn cái nhìn toàn diện về việc sử dụng AI của bạn. Với AI Gateway, bạn sẽ có một nơi tập trung để theo dõi và quản lý chi tiêu AI.

Bằng cách đưa siêu dữ liệu tùy chỉnh vào các yêu cầu của mình, bạn có thể nhận được bảng phân tích chi phí cho các thuộc tính mà bạn quan tâm nhất, như chi tiêu miễn phí so với chi tiêu miễn phí. người dùng trả phí, theo khách hàng cá nhân hoặc theo quy trình làm việc cụ thể trong ứng dụng của bạn.

const phản hồi = đang chờ env.AI.run('@cf/moonshotai/kimi-k2.5',
      {
lời nhắc: 'Cổng AI là gì?'
      },
      {
siêu dữ liệu: { "teamId": "AI", "userId": 12345 }
      }
    );

Mang theo người mẫu của riêng bạn

AI Gateway cung cấp cho bạn quyền truy cập vào các mô hình từ tất cả các nhà cung cấp thông qua một API. Nhưng đôi khi bạn cần chạy một mô hình mà bạn đã tinh chỉnh trên dữ liệu của riêng mình hoặc một mô hình được tối ưu hóa cho trường hợp sử dụng cụ thể của bạn. Vì vậy, chúng tôi đang nỗ lực cho phép người dùng đưa mô hình của riêng họ vào Workers AI. 

Phần lớn lưu lượng truy cập của chúng tôi đến từ các phiên bản dành riêng cho khách hàng Doanh nghiệp đang chạy mô hình tùy chỉnh trên nền tảng của chúng tôi và chúng tôi muốn mang điều này đến với nhiều khách hàng hơn. Để làm điều này, chúng tôi tận dụng công nghệ Cog của Replicate để giúp bạn chứa các mô hình máy học.

Cog được thiết kế khá đơn giản: tất cả những gì bạn cần làm là ghi lại các phần phụ thuộc trong tệp cog.yaml và mã suy luận của bạn trong tệp Python. Cog tóm tắt tất cả những điều khó khăn về việc đóng gói các mô hình ML, chẳng hạn như phần phụ thuộc CUDA, phiên bản Python, tải trọng, v.v.

Ví dụ về tệp cog.yaml:

bản dựng:
  python_version: "3.13"
  python_requirements: yêu cầu.txt
dự đoán: "predict.py:Predictor"

Ví dụ về tệp predict.py, tệp này có chức năng thiết lập mô hình và chức năng chạy khi bạn nhận được yêu cầu suy luận (dự đoán):

từ cog nhập BasePredictor, Đường dẫn, Đầu vào
ngọn đuốc nhập khẩu
Dự đoán lớp (BasePredictor):
    thiết lập def (tự):
        """Tải mô hình vào bộ nhớ để chạy nhiều dự đoán hiệu quả"""
        self.net = torch.load("weights.pth")
    dự đoán chắc chắn (tự,
            hình ảnh: Đường dẫn = Đầu vào(mô tả="Hình ảnh cần phóng to"),
            tỉ lệ: float = Đầu vào(description="Yếu tố để chia tỷ lệ hình ảnh theo", mặc định=1.5)
    ) -> Đường dẫn:
        """Chạy một dự đoán trên mô hình"""
        # ... tiền xử lý ...
        đầu ra = self.net(đầu vào)
        # ... xử lý hậu kỳ ...
        trả về đầu ra

Sau đó, bạn có thể chạy cog build để xây dựng hình ảnh vùng chứa của mình và đẩy vùng chứa Cog của bạn tới Workers AI. Chúng tôi sẽ triển khai và cung cấp mô hình cho bạn, sau đó bạn truy cập thông qua API AI Công nhân thông thường của mình. 

Chúng tôi đang thực hiện một số dự án lớn để có thể mang tính năng này đến với nhiều khách hàng hơn, chẳng hạn như API hướng tới khách hàng và các lệnh sắp xếp để bạn có thể đẩy vùng chứa của riêng mình cũng như khởi động nguội nhanh hơn thông qua chụp nhanh GPU. Chúng tôi đã thử nghiệm tính năng này trong nội bộ với các nhóm Cloudflare và một số khách hàng bên ngoài đang hướng dẫn tầm nhìn của chúng tôi. Nếu bạn muốn trở thành đối tác thiết kế với chúng tôi, vui lòng liên hệ! Chẳng bao lâu nữa, bất kỳ ai cũng có thể đóng gói mô hình của mình và sử dụng nó thông qua Workers AI.

Con đường nhanh chóng đến mã thông báo đầu tiên

Việc sử dụng mô hình AI của Công nhân với Cổng AI là đặc biệt hiệu quả nếu bạn đang xây dựng các đại lý trực tiếp – trong đó nhận thức của người dùng về tốc độ phụ thuộc vào thời gian đối với mã thông báo đầu tiên hoặc tốc độ mà tổng đài viên bắt đầu phản hồi, thay vì thời gian phản hồi đầy đủ. Ngay cả khi tổng thời gian suy luận là 3 giây, thì việc nhận được mã thông báo đầu tiên đó nhanh hơn 50 mili giây sẽ tạo ra sự khác biệt giữa một tác nhân cảm thấy nhanh chóng và một tác nhân cảm thấy chậm chạp.

Mạng lưới các trung tâm dữ liệu của Cloudflare ở 330 thành phố trên khắp thế giới có nghĩa là Cổng AI được đặt gần với cả người dùng và điểm cuối suy luận, giảm thiểu thời gian mạng trước khi bắt đầu truyền phát.

Worker AI cũng lưu trữ các mô hình nguồn mở trên đó danh mục công khai hiện bao gồm các mô hình lớn được xây dựng có mục đích dành cho tổng đài viên, bao gồm Kimi K2.5 và các mô hình giọng nói thời gian thực. Khi bạn gọi các mô hình được lưu trữ trên Cloudflare này thông qua Cổng AI, bạn sẽ không cần phải nhảy qua Internet công cộng vì mã và suy luận của bạn chạy trên cùng một mạng toàn cầu, mang lại cho nhân viên của bạn độ trễ thấp nhất có thể.

Được xây dựng để đảm bảo độ tin cậy với tính năng chuyển đổi dự phòng tự động

Khi xây dựng đại lý, tốc độ không phải là yếu tố duy nhất mà người dùng quan tâm – độ tin cậy cũng quan trọng. Mỗi bước trong quy trình làm việc của tổng đài viên đều phụ thuộc vào các bước trước đó. Suy luận đáng tin cậy là rất quan trọng đối với các tổng đài viên vì một cuộc gọi không thành công có thể ảnh hưởng đến toàn bộ chuỗi hạ nguồn. 

Thông qua AI Gateway, nếu bạn đang gọi một mô hình có sẵn trên nhiều nhà cung cấp và một nhà cung cấp ngừng hoạt động, chúng tôi sẽ tự động định tuyến đến một nhà cung cấp có sẵn khác mà bạn không cần phải viết bất kỳ logic chuyển đổi dự phòng nào của mình sở hữu. 

Nếu bạn đang xây dựng các tác nhân hoạt động lâu dài với SDK tác nhân, các cuộc gọi suy luận trực tuyến của bạn cũng có khả năng phục hồi khi bị ngắt kết nối. Cổng AI sẽ đệm các phản hồi phát trực tuyến khi chúng được tạo, độc lập với thời gian hoạt động của tổng đài viên của bạn. Nếu tác nhân của bạn bị gián đoạn giữa quá trình suy luận, tác nhân đó có thể kết nối lại với Cổng AI và truy xuất phản hồi mà không cần phải thực hiện lệnh gọi suy luận mới hoặc trả tiền hai lần cho cùng một mã thông báo đầu ra. Kết hợp với điểm kiểm tra tích hợp của SDK đại lý, người dùng cuối sẽ không bao giờ nhận thấy.

Sao chép

Nhóm Replica đã chính thức tham gia nhóm Nền tảng AI của chúng tôi, đến mức chúng tôi thậm chí không còn coi mình là các nhóm riêng biệt nữa. Chúng tôi đã nỗ lực nỗ lực tích hợp giữa Replica và Cloudflare, bao gồm việc đưa tất cả các mô hình Sao chép lên Cổng AI và nền tảng lại các mô hình được lưu trữ trên cơ sở hạ tầng Cloudflare. Bạn sẽ sớm có thể truy cập vào các mô hình bạn yêu thích trên Replica thông qua AI Gateway và lưu trữ các mô hình mà bạn đã triển khai trên Replica trên Workers AI.

Bắt đầu

Để bắt đầu, hãy xem tài liệu của chúng tôi về AI Gateway hoặc Workers AI. Tìm hiểu thêm về cách xây dựng đại lý trên Cloudflare thông qua SDK đại lý

Xem trên Cloudflare TV

Đám mây kết nối của Cloudflare bảo vệ toàn bộ mạng công ty, giúp khách hàng xây dựng các ứng dụng trên quy mô Internet một cách hiệu quả, tăng tốc mọi trang web hoặc ứng dụng Internet, ngăn chặn các cuộc tấn công DDoS, ngăn chặn tin tặc và có thể giúp bạn trên hành trình tiến tới Zero Tin tưởng.

Truy cập 1.1.1.1 từ bất kỳ thiết bị nào để bắt đầu với ứng dụng miễn phí của chúng tôi giúp Internet của bạn nhanh hơn và an toàn hơn.

Để tìm hiểu thêm về sứ mệnh của chúng tôi là giúp xây dựng một cộng đồng Internet tốt hơn, bắt đầu tại đây. Nếu bạn đang tìm hướng phát triển sự nghiệp mới, hãy xem các vị trí đang tuyển dụng của chúng tôi.

Đại lý TuầnĐại lýAIAI GatewayWorkers AINhà phát triểnNhà phát triển Nền tảngLLM

Tác giả: nikitoci

#discussion