Tôi để Claude Code tự động chạy quảng cáo trong một tháng

Trong tương lai, đôi khi chúng tôi sẽ giới thiệu tài khoản trực tiếp của những người đang xây dựng công cụ AI cá nhân để đảm nhận một phần công việc không liên quan đến mã hóa của họ.

Đây là câu chuyện của Giorgio Liapakis của wibci. Nếu bạn có câu chuyện muốn kể, hãy gửi thư cho chúng tôi theo địa chỉ editors@Technology.dev.

Vào tháng 1, tôi đã đưa cho một nhân viên AI 1.500 đô la, toàn quyền kiểm soát tài khoản Meta Ads, sau đó bỏ đi.

Trong 31 ngày, đầu vào duy nhất của con người là gõ phím /let-it-rip vào thiết bị đầu cuối mỗi sáng. Khoảng 2 phút thời gian của tôi, so với 1-2 giờ mỗi ngày mà một người mua phương tiện truyền thông con người thường dành để quản lý một chiến dịch như thế này.

Nó không diễn ra hoàn toàn như kế hoạch nhưng có rất nhiều điều cần tìm hiểu.

Và một cái nhìn thoáng qua về tương lai tiềm năng của “công việc”.

Nếu bạn là người hâm mộ hướng dẫn chơi Excalidraw hay, hãy xem Giorgio nấu ăn tại đây:

Tôi chạy Wibci, một doanh nghiệp tư vấn AI tập trung vào xây dựng các công cụ cho các nhóm tiếp thị và tăng trưởng. Khoảng 12 tháng trước, tôi đã thử xây dựng một cái gì đó tương tự bằng cách sử dụng n8n, một đại lý tiếp thị có thể phân tích hiệu suất, tạo nội dung và quản lý các chiến dịch mà không cần tôi. Điều đó thật tệ vì các mô hình không được xây dựng cho các tác vụ chạy dài, kết hợp với nhau hàng giờ, hàng ngày hoặc hàng tuần. Kể từ đó, họ đã tiến bộ hơn trong lĩnh vực này (hiện tại đây là lĩnh vực trọng tâm của các công ty AI), đó là điều khiến thử nghiệm này có thể thực hiện được.

Kể từ đó, chúng tôi đã thực hiện một số thay đổi từng bước về LLM và tôi đã xây dựng lại toàn bộ mọi thứ dựa trên Claude Code. Đối với bất kỳ nhân viên công nghệ nào sống dưới một tảng đá, đây là tác nhân mã hóa của Anthropic (nhưng việc gọi nó là “tác nhân mã hóa” đã đánh giá thấp nó vào thời điểm này). Nó có thể đọc và ghi tệp, chạy các lệnh đầu cuối và ủy thác nhiệm vụ cho các nhân viên AI chạy song song. Mỗi cuộc trò chuyện bắt đầu mới mà không có bộ nhớ, nhưng nó đọc các ghi chú riêng từ các lần chạy trước, do đó, nó được xây dựng dựa trên những gì có trước đó. Các nhà phát triển bắt đầu sử dụng nó cho các tác vụ không liên quan đến mã hóa thường xuyên đến mức Anthropic đã cung cấp một phiên bản không dành cho nhà phát triển có tên Cowork vào tháng 1. Về cơ bản, đây là thời gian chạy tác nhân có mục đích chung và đó là cách tôi sử dụng nó ở đây.

Nguồn cảm hứng là Project Vend, nơi Anthropic trao cho Claude quyền kiểm soát một máy bán hàng tự động thực sự trong văn phòng SF của họ, có biệt danh là Claudius. Ban đầu mọi chuyện diễn ra khá tồi tệ vì thua lỗ, bị nhân viên thao túng và gặp khủng hoảng danh tính khi khẳng định đó là một con người mặc áo blazer xanh. Nhưng nó đã phục hồi sau khi họ bổ sung thêm các công cụ và lan can tốt hơn. Năng lượng tương tự ở đây, ngoại trừ máy bán hàng tự động là tài khoản Meta Ads và tiền đặt cược là thẻ tín dụng của tôi. Điều gì có thể xảy ra?

Tôi sẽ không đi sâu vào thiết lập kỹ thuật ở đây (có một phân tích dài hơn nếu bạn muốn). Nhưng cấu trúc cơ bản quan trọng vì nó không dành riêng cho quảng cáo.

Mỗi ngày, tác nhân chạy qua cùng một vòng lặp:

Thức dậy tươi mới. Mỗi ngày là một phiên mới không có bộ nhớ liên tục trong mô hình chính nó. Nói cách khác, mô hình không biết bất cứ điều gì về những gì đã xảy ra ngày hôm qua hoặc trước đó.
Đọc lịch sử của chính nó. Nó tạo ra một quy trình phụ xem xét mọi nhật ký hàng ngày từ thử nghiệm cho đến nay, sau đó tóm tắt bối cảnh chiến lược. Bây giờ nó đã biết.
Lấy dữ liệu mới. Số liệu hiệu suất từ Meta qua nhiều khung thời gian (thử nghiệm đầy đủ, 7 ngày, hôm qua, hôm nay).
Đưa ra quyết định. Mọi quyết định đều tuân theo một cấu trúc có sẵn định dạng.
Execute (hoặc không làm gì cả, vì một số ngày nó đã chọn rõ ràng không hành động).
Viết mọi thứ xuống. Cập nhật nhật ký, nội dung tìm hiểu, lịch sử chiến dịch, sau đó cam kết thực hiện git.

Điểm mấu chốt rút ra từ vấn đề này là chúng tôi đang áp dụng một số các nguyên tắc kỹ thuật cơ bản cho quy trình tiếp thị, vốn là điều thường không xảy ra trong các nhóm tiếp thị.

Các kỹ sư ghi lại tài liệu một cách ám ảnh, vì mỗi thay đổi mã đều có một điểm khác biệt, một thông điệp cam kết, một mô tả PR. Các nhà tiếp thị... thì không. Những hiểu biết vẫn còn trong đầu mọi người, có thể là một báo cáo nén hàng tháng nhưng ít người viết ra tại sao họ đã tạm dừng quảng cáo đó vào thứ Ba.

Hệ thống này buộc phải ghi lại bằng văn bản hàng ngày với các giả thuyết, mức độ tin cậy trong các giả thuyết đó và xem lại các yếu tố kích hoạt. Trong 31 ngày, nó đã tạo ra hơn 5.500 dòng lý luận. Không một nhà tiếp thị con người nào có thể viết điều đó, nhưng LLM có thể, và quan trọng hơn là nó có thể đọc lại tất cả vào ngày hôm sau và tiếp tục phát triển. nó.

đại lý đã thử nghiệm hơn 10 định dạng quảng cáo: bản phác thảo trên bảng trắng, trang sổ tay, bảng hiệu bìa cứng, bìa tạp chí, ghi chú iPhone, ảnh chụp màn hình tweet. Hầu hết đều không thực sự phát huy tác dụng vì thuật toán của Meta chỉ từ chối hiển thị chúng.

Những quảng cáo xấu xí đã chiến thắng, điều này gây khó chịu nhưng cũng không có gì đáng ngạc nhiên. Các định dạng bảng trắng và máy tính xách tay hoạt động tốt hơn mọi thứ đã được đánh bóng và các biện pháp bảo vệ đầu tiên đã được triển khai: tạm dừng 2 định dạng hoạt động kém đã đạt đến ngưỡng CPL tối đa của chúng tôi là 8 USD. Đến cuối thử nghiệm, nhân viên hỗ trợ đã thử nghiệm ~50 biến thể quảng cáo trên 8 danh mục định dạng và quảng cáo tiếp tục quay trở lại hai định dạng xấu này.

Đây thực sự là những quảng cáo hoạt động hiệu quả nhất trông như thế nào như:

Không chính xác là sáng tạo đã đoạt giải thưởng, nhưng chúng đã thành công. Tính thẩm mỹ viết tay/phác họa mang lại cảm giác tự nhiên trong nguồn cấp dữ liệu Meta chứa đầy nội dung thương hiệu bóng bẩy, đó có thể là lý do tại sao họ nhận được nhấp chuột.

Mặc dù Claude chưa bao giờ được hướng dẫn rõ ràng để thực hiện chính xác phong cách lộn xộn này, nhưng tôi đã đưa ra một số khuyến khích trong các quy tắc cốt lõi để “sáng tạo với các loại định dạng và nhắn tin”. Liệu hướng đi này có xuất hiện nếu không có những hướng dẫn đó? Chúng ta sẽ không bao giờ biết được!

Nhưng khi các mô hình trở nên thông minh hơn, kiểu sáng tạo chủ động này có thể sẽ trở nên phổ biến.

Ngày thứ 12 là sự đột phá, trong đó kỹ năng-whiteboard-v1 đạt 1,29 USD chi phí cho mỗi khách hàng tiềm năng, thấp hơn nhiều so với mục tiêu 2,50 USD. Đại lý đã đưa ra quyết định quy mô đầu tiên và tăng ngân sách lên 20% từ $50 lên $60/ngày (nghĩa là có nhiều quảng cáo hơn), tuân theo các quy tắc đặt trước của riêng họ. Đây là kết quả của quyết định đó trong nhật ký:

Quyết định: SCALE hàng ngày ngân sách
Gì: Tăng từ $50 lên $60/ngày (20% tăng)
Giả thuyết: kỹ năng-whiteboard-v1 đã duy trì CPL dưới 2 đô la với đủ chi tiêu
Niềm tin: Trung bình-Cao. Dưới mục tiêu 3 ngày liên tiếp nhưng mẫu vẫn còn nhỏ
Truy cập lại trình kích hoạt: Nếu CPL 7 ngày tăng trên 3 đô la, hãy giảm xuống $50

Bất kỳ nhà tiếp thị (hoặc có thể là người mẫu) có thể tạo ra khách hàng tiềm năng. Nhưng chúng cần phải có tốt thì mới đáng để chi tiêu. Nhân viên hỗ trợ đã có các công cụ phân tích PostHog từ Ngày 1 và có thể kiểm tra xem ai thực sự đăng ký vào bất kỳ lúc nào nhưng lại không bận tâm cho đến Ngày 16.

Hóa ra một lượng lớn khách hàng tiềm năng đến từ những đối tượng hoàn toàn không phù hợp. Các công ty vệ sinh, cơ quan tuyển dụng, những người có thể nghĩ “tăng trưởng” có nghĩa gì đó khác. Họ thực sự sẽ không bao giờ trả tiền cho tôi nên việc chi tiêu để xuất hiện trước mặt họ là một sự lãng phí.

Họ đã cố gắng khắc phục điều này bằng các quảng cáo đủ tiêu chuẩn, sử dụng nội dung đề cập rõ ràng đến ngôn ngữ dành riêng cho công cụ mà chỉ một nhà tiếp thị tăng trưởng thực sự mới biết. Một lần nữa, bốn trong số năm lượt phân phối bằng 0 vì thuật toán của Meta không thưởng cho các biến thể nhỏ.

Cũng có một tia hy vọng ngắn ngủi vào Ngày 20 khi CPL giảm xuống còn 2,26 đô la và có vẻ như là một bước đột phá, nhưng hóa ra lại là nhiễu phân bổ (ghi công cho Meta dẫn đến sai ngày/quảng cáo). Quy tắc mới mà nhân viên đã đưa ra: không bao giờ tin tưởng vào dữ liệu một ngày, luôn sử dụng mức trung bình luân phiên trong 7 ngày. Bây giờ chúng tôi đang suy nghĩ như một con người!

Sau 21 ngày ngừng hoạt động, tôi đã thực hiện một thay đổi thủ công và thêm xác thực email doanh nghiệp vào biểu mẫu khách hàng tiềm năng trên trang web. Chỉ email công việc, có vẻ đủ hợp lý.

CPL tăng vọt lên $50+ và tôi đã hoàn nguyên thay đổi này vài ngày sau đó nhưng tài khoản chưa bao giờ được khôi phục hoàn toàn. Sự sụt giảm hiệu suất lớn nhất trong toàn bộ thí nghiệm đến từ sự can thiệp của con người, điều này khá mỉa mai vì mục đích chung là kiểm tra xem liệu AI có thể làm điều đó một mình hay không. Chưa hết, đây chính xác là loại thay đổi mà một nhà tiếp thị thông thường sẽ thực hiện để cải thiện chất lượng khách hàng tiềm năng, điều này nhấn mạnh những hạn chế của mô hình (hoặc ít nhất là những hạn chế mà tôi đã đưa ra).

$1.493 chi tiêu trong ngân sách 1.500 đô la, 243 khách hàng tiềm năng, chi phí cho mỗi khách hàng tiềm năng là 6,14 đô la.

Mục tiêu là 2,50 đô la, do đó định nghĩa riêng của nó là một thất bại. Nhưng đối với một tài khoản quảng cáo hoàn toàn mới với một tháng dữ liệu, đối tượng khán giả thích hợp ở Úc và một bản tin không kiếm tiền được thì sao? Nếu đây là nhân viên mới hoặc đại lý, bạn có thể sẽ không sa thải họ sau 30 ngày. Bạn sẽ nói "đầy hứa hẹn, cần nhiều đường băng hơn."

(hoặc có thể đó chỉ là đối phó)

đặc vụ biết rằng thử nghiệm đã kết thúc vào Ngày thứ 30 vì tôi đã nói với nó nhiều như vậy trong hướng dẫn của hệ thống, và vì vậy nó diễn ra an toàn. Nó tăng gấp đôi những gì đã hoạt động thay vì chấp nhận rủi ro sáng tạo, trong khi một chiến lược gia con người (giỏi) sẽ thử nghiệm tích cực trong tuần 1-2 và cải tiến sau đó. Đặc vụ chỉ cố gắng vượt qua tháng với tốc độ có thể dự đoán được.

Có vẻ như họ chỉ đang cố gắng tối đa hóa số kẹp giấy, tối ưu hóa số liệu thay vì thực hiện điều mà một chiến lược gia giỏi thực sự sẽ làm hãy làm.

Việc khắc phục là hiển nhiên khi nhận thức muộn - tuy nhiên, đừng nói với hệ thống rằng đó là một thử nghiệm được đóng khung theo thời gian, hãy coi đó là một chiến dịch đang diễn ra. Nhưng đó chính xác là vấn đề. Cách bạn đặt mục tiêu sẽ định hình hoàn toàn hành vi của nhân viên. “Giảm thiểu CPL trong 30 ngày” đưa ra các quyết định rất khác so với “xây dựng công cụ chuyển đổi bền vững”.

Bất kỳ hệ thống AI nào bạn triển khai sẽ tối ưu hóa chính xác những gì bạn yêu cầu chứ không phải những gì bạn thực sự muốn. Rất may ngày nay việc này thường đơn giản như việc cập nhật tệp đánh dấu. Nhưng đáng lưu ý, đặc biệt nếu bạn đang mày mò OpenClaw vào lúc này.

Người đại diện đã tạo ra ~50 biến thể quảng cáo và tiếp tục quay trở lại các định dạng bảng trắng xấu xí. Không có điểm tham chiếu thương hiệu, không có tệp vuốt, không có manh mối về hướng thẩm mỹ. Nó có các rào cản về chất lượng (không có lỗi chính tả trong quảng cáo) nhưng không có cảm giác ngon miệng.

Điều mà có thể làm là xây dựng các bộ lọc chất lượng của riêng mình thông qua trải nghiệm. Sau cuộc khủng hoảng về chất lượng hàng đầu, nó đã đưa ra cái mà nhật ký gọi là “Thử nghiệm cửa hàng Pizza địa phương”. Tôi đang cố gắng thu hút các nhà tiếp thị tăng trưởng có hiệu suất cao tại các công ty khởi nghiệp trị giá hàng tỷ đô la chứ không phải các doanh nghiệp địa phương:

Liệu một chủ cửa hàng pizza địa phương muốn có nhiều khách hàng hơn có hiểu được quảng cáo này và muốn nhấp vào quảng cáo đó không? Nếu có thì quá chung chung. Viết lại.

Nó cũng tạo ra câu hỏi “VẬY CÁI GÌ?” chuỗi để kiểm tra xem bản sao quảng cáo có chiều sâu cảm xúc hay không:

“Tiết kiệm hàng giờ” → VẬY CÁI GÌ? → “Chạy nhiều chiến dịch hơn” → CÁI GÌ? → “ROI cao hơn” → VẬY LÀ GÌ? → “Đánh trúng mục tiêu và sếp của bạn thông báo”

Cả hai điều này đều không được lập trình trước, đặc vụ đã nghĩ ra chúng sau khi suy ngẫm về những thất bại của chính mình. Nó không thể tạo ra hương vị, nhưng nó có thể xây dựng các phương pháp phỏng đoán. Điều đó thật thú vị.

Nhân viên hỗ trợ đã tối ưu hóa chi phí cho mỗi khách hàng tiềm năng vì đó là điều tôi đã yêu cầu họ tối ưu hóa và họ không có khái niệm về chất lượng khách hàng tiềm năng cho đến khi tôi buộc phải đưa ra vấn đề vào Ngày 16.

Sau đó, khi tôi cố gắng tự khắc phục chất lượng (cổng xác thực email), điều đó đã gây ra hiệu suất kém nhất trong toàn bộ thử nghiệm. Cùng một cái bẫy mà các chiến dịch do con người điều hành rơi vào - tối ưu hóa những gì có thể đo lường được hơn là những gì quan trọng. Sự khác biệt chính là tác nhân AI thực hiện việc đó nhanh hơn và tự tin hơn, điều này thực sự khiến nó hiệu quả hơn nguy hiểm.

quảng cáo là một loại gây xao lãng. Phần thú vị là vòng lặp:

Trạng thái đọc (các quyết định trước đó, bài học, số liệu)
Tìm nạp mới dữ liệu
Áp dụng quy tắc
Hành động (hoặc không)
Nhật ký lý do
Xóa ngữ cảnh, lặp lại ngày mai

Tính năng này phù hợp với mọi nhiệm vụ định kỳ có tiêu chí thành công rõ ràng, do đó, bạn có thể hoán đổi “Quảng cáo Meta” cho SEM, SEO, báo cáo tài chính hoặc tiếp cận bán hàng và cấu trúc sẽ giống hệt nhau. Kênh này chỉ là một biến số.

Các dự án như OpenClaw đã thành công với cùng một ý tưởng cốt lõi. Cung cấp cho nhân viên các công cụ, môi trường và một số rào cản, nhân viên sẽ tìm ra phần còn lại.

Nơi con người luôn cần thiết là đặt ra các mục tiêu phù hợp (xem: vấn đề về kẹp giấy), đánh giá về hương vị + thương hiệu và xác định “chất lượng” nghĩa là gì ngoài các chỉ số. Và biết khi nào nên vi phạm các quy tắc, được cho là kỹ năng mang tính con người nhất.

Nhóm tiếp thị tăng trưởng gồm một người đang ngày càng tiến gần hơn nhờ AI xử lý chi phí hoạt động thường yêu cầu số lượng nhân viên và chiến lược gia có khiếu thẩm mỹ tốt và tư duy rõ ràng sẽ trở nên tận dụng nhiều hơn.

Nhưng chúng ta vẫn còn sớm và chất lượng sáng tạo vẫn là một nút thắt. Mặc dù có lẽ chúng tôi còn 6 tháng + 1 bản phát hành mô hình nữa thì vấn đề này mới được giải quyết và đột nhiên Tầm nhìn của Zuck về quảng cáo không cần thực hiện sắp được giải quyết.

Đây là một thử nghiệm trị giá 1.500 USD trên một bản tin mà không có nhiều người đọc nên kết quả là như vậy mang tính định hướng, không dứt khoát.

Nhưng hệ thống đã hoạt động. Bối cảnh vẫn tồn tại trong suốt 31 phiên, các quyết định mạch lạc và tác nhân đã xây dựng phương pháp phỏng đoán của riêng mình từ những sai lầm của chính mình. Nhật ký lý do hàng ngày chi tiết hơn bất kỳ điều gì tôi từng viết cho chiến dịch khách hàng (công bằng mà nói, nó nói nhiều về tôi hơn là người đại diện).

Nếu bạn đang chạy bất kỳ loại quy trình làm việc định kỳ nào trong đó bạn lấy dữ liệu, đưa ra quyết định và hành động theo chúng, thì mẫu vòng lặp ở đây có thể áp dụng cho làm việc rồi. Phần khó là tìm ra điều gì thực sự cần tối ưu hóa và trình bày rõ ràng điều đó. Vì như thử nghiệm này đã cho thấy, người đại diện sẽ tin tưởng bạn và nếu bạn chưa suy nghĩ kỹ về điều đó, bạn có thể không thích điều đó dẫn đến đâu.