Google ra mắt Song Tử

A photo illustration of Gemini represented as connected tiles showing applications including a camera and photo roll (Google) — (Google)

Tôi.

Sáng nay Google đã công bố triển khai Gemini, mô hình ngôn ngữ lớn lớn nhất và có khả năng nhất cho đến nay. Bắt đầu từ hôm nay, chatbot Bard của công ty sẽ được cung cấp bởi phiên bản Gemini và sẽ có sẵn bằng tiếng Anh tại hơn 170 quốc gia và vùng lãnh thổ. Các nhà phát triển và khách hàng doanh nghiệp sẽ có quyền truy cập vào Gemini thông qua API vào tuần tới, với phiên bản nâng cao hơn sẽ ra mắt vào năm tới.

Song Tử tốt như thế nào? Google cho biết hiệu suất của mô hình có khả năng nhất của họ “vượt quá các kết quả hiện đại nhất trên 30 trong số 32 tiêu chuẩn học thuật được sử dụng rộng rãi trong nghiên cứu và phát triển LLM”. Gemini cũng đạt 90,0% trong bài kiểm tra có tên “ Google cho biết: “Khả năng hiểu ngôn ngữ đa nhiệm trên diện rộng” hay MMLU, đánh giá khả năng của 57 môn học bao gồm toán, vật lý, lịch sử và y học. Đây là LLM đầu tiên hoạt động tốt hơn các chuyên gia con người trong bài kiểm tra.

Song Tử cũng có vẻ là một kỹ sư phần mềm rất giỏi. Năm ngoái, bằng cách sử dụng mô hình ngôn ngữ cũ hơn, DeepMind đã giới thiệu một hệ thống AI có tên AlphaCode vượt trội hơn 54% lập trình viên con người trong các cuộc thi viết mã. Sử dụng Gemini, Google đã xây dựng phiên bản thế hệ tiếp theo có tên AlphaCode 2. Công ty cho biết phần tiếp theo hoạt động tốt hơn con người khoảng 85%.

Mã hóa cạnh tranh khác biệt đáng kể so với công nghệ phần mềm hàng ngày ở một số điểm quan trọng: nó có thể khó hơn hoặc ít khó hơn những gì một kỹ sư thông thường được yêu cầu làm. Tuy nhiên, tốc độ tiến bộ ở đây vẫn rất ấn tượng.

Gemini vốn là đa phương thức, nghĩa là nó có thể phân tích nội dung của một bức ảnh và trả lời các câu hỏi về nó hoặc tạo một hình ảnh từ lời nhắc văn bản. Trong cuộc họp giao ban hôm thứ Ba, một giám đốc điều hành của Google đã tải lên một bức ảnh về một số bài tập toán trong đó học sinh đã đưa ra các phép tính dẫn đến câu trả lời cuối cùng. Gemini đã có thể xác định được bước nào trong quá trình học tập của học sinh mà các em đã sai sót, đồng thời giải thích lỗi sai của mình cũng như cách trả lời câu hỏi một cách chính xác.

“Đa phương thức” có thể đọc như một thuật ngữ khó hiểu, nhưng thuật ngữ này thường xuyên xuất hiện trong các cuộc trò chuyện với các giám đốc điều hành của Google. Khả năng hệ thống AI lấy các loại dữ liệu khác nhau (văn bản, hình ảnh, video, âm thanh), phân tích chúng bằng một công cụ duy nhất và dịch chúng sang và ra các định dạng khác nhau là một loại đổi mới nền tảng giúp tạo ra nhiều tiến bộ khác. (Tất cả đều là một cách nói dài dòng: xin lỗi vì số lần từ “đa phương thức” xuất hiện trong cuộc phỏng vấn bên dưới.)

Theo sở thích của Google về việc xây dựng thương hiệu hỗn loạn, Gemini sẽ có ba “kích cỡ”: Nano, đủ nhỏ để vừa với điện thoại thông minh và sẽ cung cấp các tính năng trong điện thoại thông minh Pixel 8 Pro bắt đầu từ hôm nay; Pro, hiện cung cấp năng lượng cho Bard; và Ultra, sẽ bắt đầu xâm nhập vào các sản phẩm tiếp theo năm.

Nếu chưa từng sử dụng bất kỳ mô hình nào trong số này, thật khó để so sánh chúng với mô hình của các đối thủ như OpenAI và Anthropic. Nhưng ý thức cơ bản của tôi là Gemini Pro được coi là câu trả lời tốt nhất của công ty cho GPT-3.5 của OpenAI: Trong bài đăng trên blog thông báo của mình, công ty lưu ý rằng Pro hoạt động tốt hơn GPT-3.5 trong nhiều nhưng không phải tất cả các thử thách đo điểm chuẩn.

Điều đó giúp Ultra trở thành đối thủ hàng đầu của GPT-4.5 Turbo để giành vương miện LLM đa năng, phổ biến rộng rãi nhất. Và Ultra sẽ không có mặt vào năm tới để Google có thể hoàn tất quá trình kiểm tra độ tin cậy và an toàn.

Google cho biết, từ đó, Gemini sẽ bắt đầu thâm nhập vào hệ sinh thái các sản phẩm tiêu dùng và doanh nghiệp của công ty, bắt đầu với các ứng dụng tìm kiếm, Chrome, quảng cáo và các ứng dụng năng suất.

II.

Vài giờ sau khi nhận được tin tức, tôi có cơ hội gặp trực tuyến với Giám đốc điều hành Google Sundar Pichai và đồng sáng lập kiêm Giám đốc điều hành Google DeepMind, Demis Hassabis.

Đây là cơ hội đầu tiên của tôi để nói về công nghệ AI tiên tiến nhất với Pichai kể từ tháng 3, khi anh ấy tham gia Hard Fork; và cuộc trò chuyện đầu tiên của tôi với Hassabis. Trong hơn 30 phút rất nhanh, chúng tôi đã nói về những khả năng mới lạ của Gemini, AI đang thay đổi tìm kiếm như thế nào và liệu Pichai có nghĩ rằng ông ấy sẽ thuê ít kỹ sư phần mềm hơn vào năm tới do sự phát triển của công ty hay không.

Sau đây là những điểm nổi bật của cuộc trò chuyện; cuộc phỏng vấn này đã được chỉnh sửa để rõ ràng và dài hơn.

Casey Newton: Hôm nay, bạn đã chia sẻ nhiều điểm chuẩn trong ngành cho thấy những tiến bộ bạn đã đạt được với Gemini. Nhưng tôi tò mò về thử nghiệm cá nhân của bạn đối với các mô hình. Bạn nhận thấy điều gì ở họ khiến bạn cảm thấy như mình đã tiến được một bước?

Demis Hassabis: Tôi nghĩ bạn sẽ thấy điều này chỉ bằng cách sử dụng Bard mới — chất lượng tổng thể đã được cải thiện đáng kể so với các mẫu trước đây của chúng tôi. Điều tôi đặc biệt quan tâm là sử dụng nó như một trợ lý khoa học. Thực tế là phân tích các bài báo khoa học, các biểu đồ trong các bài báo đó, diễn giải chúng. Đưa bảng vào biểu đồ, mở rộng biểu đồ. Nó cực kỳ hữu ích và tôi muốn nhân đôi điều đó.

Sundar Pichai: Đa phương thức rất thú vị. Chúng tôi đang nỗ lực kết nối nó với các sản phẩm và giới thiệu nó một cách chu đáo, nhưng tôi nghĩ đó là nơi mà rất nhiều khớp thần kinh mới sẽ xuất hiện.

Đối với tôi, điều thú vị là đây chỉ là phiên bản 1.0 của chúng tôi. Có một lộ trình đổi mới mạnh mẽ khi chúng ta nhìn vào năm 2024. Và một trong những điều mà Demis và nhóm của anh ấy thực sự giỏi là cách không ngừng lặp lại và đưa ra các phiên bản mới.

Đầu ngày hôm nay, tôi đã hỏi Eli Collins, phó chủ tịch sản phẩm tại DeepMind, liệu Gemini có thể hiện được khả năng mới lạ nào không. Về cơ bản anh ấy đã nói với tôi, "hãy theo dõi." Bạn có tin rằng mô hình này sẽ có những khả năng vượt trội so với các LLM trước đây hay bạn thấy nó mang tính tiến hóa hơn?

Hassabis: Tôi nghĩ chúng ta sẽ thấy một số khả năng mới. Đây là một phần mục đích của thử nghiệm Ultra. Chúng tôi gần như đang trong giai đoạn thử nghiệm — để kiểm tra độ an toàn, kiểm tra trách nhiệm nhưng cũng để xem nó có thể được tinh chỉnh theo cách nào khác.

Bài đăng trên blog của bạn mô tả khả năng lý luận của Song Tử tốt hơn như thế nào. Nếu đúng như vậy, tôi tự hỏi việc lập kế hoạch có thể tốt đến mức nào. Bạn có thể hình dung các đại lý xây dựng sử dụng Gemini cho những công việc như đặt chỗ không?

Hassabis: Bạn đã đánh trúng đầu rồi đấy, Casey. Đó là điều chúng tôi đang suy nghĩ rất nhiều. Thực sự, nó nằm trong di sản của chúng tôi, từ thời DeepMind cũ. Chúng tôi là chuyên gia về các loại hệ thống lập kế hoạch và hệ thống dựa trên đại lý này. Vì vậy, hãy quan sát không gian này. Chúng tôi đang nỗ lực hết sức để thực hiện điều đó.

Nhưng đa phương thức là một điều quan trọng — đó là điều cơ bản bạn cần (để xây dựng các tác nhân.) Nếu bạn tưởng tượng về robot hoặc thậm chí chỉ là các tác nhân kỹ thuật số và hiểu giao diện người dùng cũng như cách tương tác với mọi thứ. Bạn phải phân tích môi trường bạn đang ở một cách đa phương thức trước khi bạn có thể hành động với thế giới theo cách hữu ích. Vì vậy, bạn có thể coi đó là điều kiện tiên quyết cho giai đoạn lập kế hoạch và tương tác.

Pichai: Nhưng đó là những đổi mới sắp tới.

Bạn đang nói rằng Song Tử sẽ đến tìm kiếm vào năm tới. Bạn thấy nó thay đổi trải nghiệm tìm kiếm như thế nào?

Pichai: Chúng tôi đã thử nghiệm tính năng này trong trải nghiệm tổng hợp tìm kiếm và khi chúng tôi thử nghiệm tính năng này, nó đang thúc đẩy các cải tiến trên diện rộng. Chúng tôi coi Gemini là nền tảng - nó sẽ hoạt động trên tất cả các sản phẩm của chúng tôi. Tìm kiếm cũng không khác.

Một trong những điều mà tìm kiếm đang nỗ lực phát triển là tính đa phương thức nói chung. Nhưng ngày nay họ đã phải làm tất cả công việc khó khăn để thực hiện tìm kiếm đa phương thức. Song Tử với tư cách là hình mẫu nền tảng đã mang lại cho họ khả năng đó [về bản chất], vì vậy tôi nghĩ đó là lĩnh vực mà họ sẽ đổi mới.

Bạn có nghĩ về trung hạn, Gemini trong tìm kiếm sẽ tăng số lần bạn nhận được thông tin mình cần từ trang kết quả mà không cần phải truy cập trang web không?

Pichai: Tầm nhìn cơ bản của chúng tôi là mọi người đến tìm kiếm để trải nghiệm sự phong phú và đa dạng của web cũng như hệ sinh thái nội dung. Vì vậy, mặc dù với trải nghiệm tổng hợp về tìm kiếm, chúng tôi có thể mở rộng những gì mình làm, nhưng thực tế chúng tôi đang thiết kế sản phẩm theo cách a. để mọi người có thể đi khám phá. Và tôi nghĩ đó là điều người dùng mong muốn. Tôi xem đây là một đề xuất giá trị cơ bản của tìm kiếm, vì vậy đó sẽ là một phần mục tiêu của chúng tôi khi chúng tôi phát triển sản phẩm.

Tôi cũng được biết rằng Gemini sắp có mặt trên Chrome. Bạn có thể làm gì với Gemini trên trình duyệt web?

Pichai: Nó có thể xem nội dung trên trang web và trả lời các câu hỏi cho bạn cũng như trợ giúp bạn thực hiện các công việc liên quan đến điều đó. Bạn có thể tưởng tượng việc nhìn vào thứ gì đó mà bạn muốn hiểu, chẳng hạn như một tập hợp các số liệu trên một trang web và nói “hãy tóm tắt nhanh điều này cho tôi”. Tất cả những điều đó bây giờ đều có thể, phải không? Một lần nữa, ý tưởng trở thành trợ lý cho người dùng là giúp họ thực hiện những gì họ đang làm khi duyệt web. Tất cả đều là khả năng.

Tôi muốn cảm nhận được công nghệ hiện đại. Tôi tưởng tượng rằng bạn có thể dành phần lớn thời gian của năm 2024 chỉ để hoàn thiện Gemini 1.0. Nhưng khi bạn bắt đầu mong muốn được đào tạo một Song Tử 2.0, điều đó có giống như việc chỉ đơn giản là ném thêm dữ liệu và tính toán vào các kỹ thuật bạn đã phát triển không? Hoặc có một số đột phá nghiên cứu cơ bản nào mà bạn cần thực hiện trước tiên không?

Hassabis: Câu hỏi hay. Tôi nghĩ rằng câu trả lời là cả hai - chúng tôi sẽ vượt qua giới hạn của cả hai. Chúng tôi đang xem xét rất nhiều nghiên cứu sâu sắc về những thứ như lập kế hoạch; kéo dài cửa sổ ngữ cảnh; và tất cả những khả năng quan trọng này mà các hệ thống hiện tại không có và chúng ta sẽ cần nếu muốn hướng tới các hệ thống cấp độ AGI. Vì vậy, chúng tôi đang nỗ lực hết sức để giải quyết tất cả những vấn đề đó.

Còn rất nhiều lợi ích có thể thu được từ việc mở rộng quy mô, cải tiến kiến trúc và có thể là nhiều cải tiến gia tăng hơn, bên cạnh những khả năng mới mang tính đột phá lớn này. Và thực sự có rất nhiều lĩnh vực nghiên cứu có vẻ đầy hứa hẹn.

Pichai: Tôi có thể nói rằng điều đó đối với tôi còn rất sớm. Chúng tôi có quan điểm rõ ràng rằng Gemini 2.0 sẽ tốt hơn nhiều. Nếu tôi xem xét tất cả công việc mà Google DeepMind đang thực hiện và bạn nói rằng có 10 đến 15 lĩnh vực - thì hiện tại bạn đang thấy sự tiến bộ nhanh chóng trong một lĩnh vực, phải không? Nhưng cũng sẽ có những đổi mới từ các lĩnh vực khác, điều này sẽ ảnh hưởng đến tất cả những điều này.

Mô hình của bạn dường như đang thực sự giỏi khi giành chiến thắng trong các cuộc thi viết mã. Một năm nữa, bạn có thể tưởng tượng họ đủ tốt để bạn không cần thuê nhiều kỹ sư không?

Pichai: Tôi thực sự nghĩ điều này giống như việc giúp các lập trình viên làm việc hiệu quả hơn rất nhiều và theo thời gian sẽ loại bỏ một số công việc nặng nhọc ra khỏi công việc.

Tôi nghĩ các lập trình viên sẽ có những công cụ tinh vi đến mức nhiều hơn người sẽ có thể trở thành lập trình viên. Chúng ta không nên đánh giá thấp điều đó. Thanh sẽ thay đổi và nó sẽ mở rộng quyền truy cập vào trường.

Sundar, đầu năm nay chúng ta đã nói chuyện và bạn đã đề cập rằng bạn sẽ không phiền nếu tốc độ phát triển trong lĩnh vực AI chậm lại một chút. Bạn cảm thấy thế nào về tốc độ phát triển hiện nay?

Pichai: Tôi sử dụng hai ống kính. Tôi rất lạc quan về tiềm năng. Ví dụ, nếu tôi lùi lại một bước và nói rằng những đột phá ở đây có thể giúp chúng ta đạt được tiến bộ chống lại bệnh ung thư dễ dàng hơn, thì tôi muốn nó tiến triển càng nhanh càng tốt. Tại sao bạn lại không? Nhưng tôi nghĩ rằng khi chúng ta đang hướng tới những mô hình ngày càng có năng lực hơn, chúng ta cần dành thời gian để đảm bảo rằng chúng ta áp dụng các biện pháp bảo vệ.

Tôi nghĩ tốc độ hiện tại đang ở mức rất thú vị. Nhưng sẽ có những lúc chúng ta cảm thấy như tất cả chúng ta đều có thể hít thở và bắt kịp. Tôi nghĩ chúng sẽ song hành cùng nhau.

Hassabis: Tôi đồng ý. Đó là một cuộc hành trình bằng tàu tên lửa cho toàn bộ lĩnh vực này. Tôi đã làm việc này trong 20, 30 năm và đối với tôi, mọi thứ đều hoạt động thật tuyệt vời. Bệnh tật thực sự sẽ được chữa khỏi nhờ công nghệ hỗ trợ AI. Vật liệu mới sẽ giúp chúng ta ứng phó với biến đổi khí hậu. Số lượng những thứ mà tôi nghĩ AI có thể áp dụng để giúp đỡ xã hội là gần như vô hạn. Giờ đây, chúng tôi thực sự đã tiến gần đến những điều thực tế, thiết thực và hữu ích trong thế giới thực, ngoài những trò chơi và những thứ chúng tôi từng làm rất tốt.

Nhưng đồng thời, tôi cũng luôn tin rằng đây sẽ là một trong những công nghệ có tính biến đổi mạnh mẽ nhất mà nhân loại từng phát minh ra. Tôi nghĩ bây giờ nhiều người đang đến với quan điểm đó hơn. Vì vậy chúng ta thực sự cần phải suy nghĩ chín chắn, có trách nhiệm và có tầm nhìn xa nhất có thể về những hậu quả không lường trước được.

Google tiết lộ Gemini