Sách: Điểm chuẩn của khoa học mới nổi về học máy
Book: The Emerging Science of Machine Learning Benchmarks
Điểm chuẩn (benchmarks) trong machine learning, dù đã thúc đẩy những bước tiến vượt bậc như cuộc cách mạng deep learning, về cơ bản lại có những khiếm khuyết chết người. Chúng vô tình khuyến khích việc "lách luật" để đạt điểm cao và tối ưu hóa quá mức cho những tập dữ liệu cụ thể. Điều này dẫn đến các model dù có "điểm cao chót vót" trên benchmark nhưng lại hoạt động kém hiệu quả khi triển khai trong thế giới thực. Các bạn developer nên cẩn trọng khi xem điểm benchmark như thước đo năng lực thực sự của model. Thay vào đó, hãy tập trung vào các phương pháp đánh giá (evaluation methods) mạnh mẽ, phản ánh sát hơn điều kiện triển khai thực tế. Việc hiểu rõ những hạn chế và sai lệch tiềm ẩn của các benchmark hiện tại là vô cùng quan trọng để xây dựng các hệ thống AI đáng tin cậy và có đạo đức hơn.
Học máy sử dụng một thủ thuật đơn giản: Chia dữ liệu của bạn thành tập huấn luyện và tập kiểm tra. Bất cứ điều gì diễn ra trên tập huấn luyện; xếp hạng các mô hình trên tập kiểm tra. Hãy để những người xây dựng mô hình cạnh tranh. ...
Học máy thực hiện một thủ thuật đơn giản: Chia tách dữ liệu của bạn vào tập huấn luyện và tập kiểm tra. Bất cứ điều gì diễn ra trên tập huấn luyện; xếp hạng các mô hình trên tập kiểm tra. Hãy để những người xây dựng mô hình cạnh tranh. Gọi đây là điểm chuẩn.
Các nhà nghiên cứu về máy học trân trọng truyền thống tốt đẹp về than thở về những thiếu sót của điểm chuẩn học máy. Nhà phê bình lập luận rằng các bộ kiểm tra và số liệu tĩnh thúc đẩy nghiên cứu hẹp mục tiêu, cản trở các hoạt động theo đuổi khoa học sáng tạo hơn. Điểm chuẩn cũng khuyến khích việc đánh lừa các số liệu, dẫn đến điểm số tăng cao. Luật Goodhart cảnh báo chống lại việc cạnh tranh về mặt thống kê các phép đo, nhưng việc đo điểm chuẩn sẽ bỏ qua cảnh báo. Theo thời gian, các nhà phê bình cho rằng, các nhà nghiên cứu quá phù hợp với các tập dữ liệu chuẩn, xây dựng các mô hình khai thác hiện vật. Kết quả là, hiệu suất của tập kiểm tra vẽ ra một bức tranh sai lệch về khả năng của mô hình, đánh lừa chúng ta đặc biệt là khi so sánh con người và máy móc. Thêm vào đây một loạt lý do tại sao mọi thứ không chuyển từ điểm chuẩn sang thực tế thế giới.
Những lời phê bình gay gắt này đi đôi với đạo đức sự phản đối. Điểm chuẩn củng cố và duy trì những thành kiến trong đại diện của con người, các mối quan hệ xã hội, văn hóa và xã hội. Tệ hơn nữa, việc tạo ra các bộ dữ liệu khổng lồ có chú thích của con người khai thác lao động từ lực lượng lao động bị gạt ra ngoài lề xã hội lợi ích kinh tế mà nó mang lại.
Tất cả những điều này đều đúng.
Nhiều người đã nói rất hay. Các nhà phê bình đã lập luận rằng một cách thuyết phục. Tôi đặc biệt bị thu hút bởi tuyên bố rằng điểm chuẩn phục vụ các mục tiêu của ngành, mang lại cho các phòng thí nghiệm công nghệ lớn một cấu trúc lợi thế. Theo tôi, trường hợp chống lại điểm chuẩn là rõ ràng xem.
Điều ít rõ ràng hơn là trường hợp khoa học cho điểm chuẩn.
Không thể phủ nhận rằng các tiêu chuẩn đã thành công như một động lực của sự tiến bộ trong lĩnh vực này. ImageNet không thể tách rời khỏi cuộc cách mạng học sâu những năm 2010, với sự cạnh tranh của các công ty quyết liệt về việc phân loại giống chó tốt nhất. Sự khác biệt giữa Blenheim Spaniel và Welsh Springer đã trở thành vấn đề sự cạnh tranh nghiêm trọng. Một thập kỷ sau, tiêu chuẩn mô hình ngôn ngữ đã đạt được ý nghĩa địa chính trị trong cuộc cạnh tranh toàn cầu về trí tuệ nhân tạo. Các CEO công nghệ đọc số của công ty trên MMLU—một bộ câu hỏi trắc nghiệm cấp đại học—trong thuyết trình trước các cổ đông. Tin tức về việc R1 của DeepSeek đã đánh bại O1 của OpenAI về một số tiêu chuẩn lý luận đầy thách thức đã đưa ra một sự điên cuồng làm rung chuyển thị trường chứng khoán toàn cầu.
Các điểm chuẩn đến rồi đi nhưng tầm quan trọng của chúng không thay đổi. Leo lên bảng xếp hạng cạnh tranh đã là cỗ máy chính học tập tiến bộ.
Nếu chúng ta chấp nhận rằng tiến bộ về trí tuệ nhân tạo là có thật, chúng ta cũng phải chấp nhận rằng các tiêu chuẩn, theo một nghĩa nào đó, có đã hoạt động. Nhưng thực tế là điểm chuẩn có hiệu quả hơn quan sát nhận thức muộn màng hơn là một bài học khoa học. Điểm chuẩn xuất hiện trong những ngày đầu của nhận dạng mẫu. Họ theo không nguyên tắc khoa học. Trong phạm vi mà điểm chuẩn có bất kỳ hỗ trợ về mặt lý thuyết, lý thuyết đó đã dễ dàng bị vô hiệu bởi cách người ta đã sử dụng điểm chuẩn trong thực tế. Thống kê quy định khóa bộ bài kiểm tra được cất giữ trong kho, nhưng những người thực hành học máy đã thực hiện ngược lại. Họ đưa chúng lên internet để mọi người sử dụng một cách tự do. Các điểm chuẩn phổ biến thu hút hàng triệu lượt tải xuống và đánh giá khi những người xây dựng mô hình ngày càng cạnh tranh tốt hơn số.
Điểm chuẩn là sai lầm đã tạo nên máy học. Họ lẽ ra không nên có tác dụng nhưng họ đã làm được. Trong cuốn sách này, mục tiêu của tôi là để làm sáng tỏ lý do tại sao điểm chuẩn hoạt động và để làm gì.
Tổng quan
Phần đầu tiên của cuốn sách này đề cập đến các nền tảng, một số toán học, một số thực nghiệm. Hai chương đầu tiên sau giới thiệu thêm vật liệu nền vừa đủ chuẩn để làm cuốn sách khép kín. Ở đây, tôi bám sát quy luật. các Một số chương tiếp theo đề cập đến phần phân chia đào tạo/kiểm tra, được gọi là phương pháp giữ lại. Tôi bắt đầu với những đảm bảo cổ điển cho phương pháp nắm giữ và các công cụ liên quan trong họ các phương pháp xác nhận chéo. Tuy nhiên, những đảm bảo này không áp dụng đến cách mọi người sử dụng phương pháp nắm giữ trong thực tế. Vấn đề là sự thích ứng: Việc sử dụng lặp đi lặp lại sẽ tạo ra một vòng phản hồi giữa mô hình và dữ liệu làm mất hiệu lực của phân tích truyền thống. Cái này vấn đề về khả năng thích ứng là anh em họ với nghịch lý của Freedman, một vấn đề câu hỏi hóc búa đã làm các nhà thống kê bực tức kể từ những năm 1980. Người tự do nhận thấy việc phân tích thống kê phụ thuộc vào dữ liệu có thể diễn ra dễ dàng như thế nào sai rồi.
Quan sát của Freedman báo trước một tiến trình khoa học đang diễn ra khủng hoảng trong khoa học thống kê Rõ ràng là thành công việc sao chép bị hạn chế và việc phát hiện sai sót thường xảy ra khi các nhà nghiên cứu cạnh tranh trên cơ sở số liệu thống kê, chẳng hạn như giá trị p. Nhưng giá trị p không phải là thủ phạm chính. Mức độ tự do của nhà nghiên cứu dường như luôn đánh lừa các nhà nghiên cứu về mặt thống kê đo lường. Thật vậy, định luật Goodhart dự đoán rằng đo lường bị phá vỡ dưới áp lực cạnh tranh. Cái đó làm gì nói về hệ sinh thái điểm chuẩn, nơi các nhà nghiên cứu cạnh tranh qua số liệu thống kê được tính toán trên một tập kiểm tra cố định?
Các điều kiện tiên quyết cho khủng hoảng cũng tồn tại trong học máy. Thứ nhất, nó có chung gót chân Achilles trong đo lường thống kê với các khoa học thực nghiệm khác. Ngoài ra, học máy hoạt động trong một hệ sinh thái có mức độ tự do tối đa của nhà nghiên cứu, xuất bản nhanh chóng, và đánh giá ngang hàng yếu. Nó có thể đến như không ngạc nhiên rằng những con số có độ chính xác tuyệt đối—được coi là số đo về một số khả năng—thật đáng tiếc là không đáng tin cậy, không thể tái tạo ngay cả trong những điều kiện tương tự. Tuy nhiên, tình hình ở học máy có sự khác biệt rõ rệt. Sao chép bảng xếp hạng mô hình đến một mức độ đáng ngạc nhiên. Cụ thể hơn, ba sự thật thực nghiệm nổi lên từ kỷ nguyên ImageNet:
- Độ chính xác của mô hình và các số liệu khác không giống nhau từ một tập dữ liệu này sang tập dữ liệu khác, ngay cả khi các tập dữ liệu tương tự nhau.
- Ngược lại, thứ hạng mô hình được lặp lại một cách đáng tin cậy trong các mô hình tương tự. điều kiện.
- Tiến thêm một bước nữa, bảng xếp hạng người mẫu có dấu hiệu ngoại lực tính giá trị: Chúng thường sao chép trong những điều kiện khác nhau.
Nếu học máy dường như đã ngăn chặn được cuộc khủng hoảng khoa học, câu hỏi là tại sao. Tôi lập luận rằng các chuẩn mực và tập quán xã hội của cộng đồng chứ không chỉ riêng phương pháp thống kê là chìa khóa để hiểu chức năng của điểm chuẩn. Một kết quả cơ bản cho thấy rằng nếu cộng đồng chỉ quan tâm đến việc xác định điều tốt nhất thực hiện mô hình tại bất kỳ thời điểm nào, phương pháp nắm giữ được hưởng Những đảm bảo lý thuyết mạnh mẽ đáng ngạc nhiên.
Tóm tắt những bài học này, xếp hạng mô hình—chứ không phải mô hình đánh giá—là sản phẩm khoa học cơ bản của học máy điểm chuẩn.
Phần đầu tiên của cuốn sách chủ yếu dựa trên những bài học từ Kỷ nguyên ImageNet, tức là khoảng thập kỷ sau năm 2012. Kỷ nguyên ImageNet được đánh dấu bằng một tiêu chuẩn trung tâm duy nhất có cả tập huấn luyện và tập kiểm tra. Những người tạo ra nó đã lấy chăm sóc để làm sạch nhãn kỹ lưỡng thông qua tổng hợp. Một chương về ghi nhãn và chú thích dữ liệu cho thấy lý do tại sao một số cách thực hành phổ biến của việc làm sạch nhãn không hiệu quả khi mục tiêu chính là mô hình xếp hạng.
Phần thứ hai của cuốn sách này (bắt đầu từ Chương 10) là về những phát triển gần đây xung quanh các mô hình sáng tạo, đặc biệt, mô hình ngôn ngữ lớn Tôi trình bày những điều cơ bản của ngôn ngữ lớn mô hình, quy luật mở rộng, khả năng phát sinh và hậu đào tạo phương pháp, cần thiết để đánh giá cao những thách thức của việc so sánh điểm chuẩn trong ngày và tuổi này.
Kỷ nguyên mới khác xa với kỷ nguyên cũ theo một số cách đáng kể.
Đầu tiên, các người mẫu đào tạo trên internet hoặc ít nhất là quy mô lớn thu thập dữ liệu web được quản lý tối thiểu. Tại thời điểm đánh giá, chúng tôi do đó không biết và không thể kiểm soát dữ liệu đào tạo nào cưa mô hình. Điều này hóa ra có ý nghĩa sâu sắc đối với điểm chuẩn. Mức độ mà một mô hình đã gặp phải dữ liệu tương tự như nhiệm vụ kiểm tra trong quá trình đào tạo so sánh mô hình nghiêng và đe dọa tính hợp lệ của bảng xếp hạng mô hình. Một mô hình tồi tệ hơn có thể chỉ đơn giản là đã học nhồi nhét tốt hơn cho bài kiểm tra. Bạn có muốn tệ hơn không học sinh chuẩn bị tốt hơn cho kỳ thi hoặc tốt hơn sinh viên ít chuẩn bị hơn? Nếu bạn thích cái sau thì bạn sẽ cần điều chỉnh để phù hợp với sự khác biệt trong quá trình chuẩn bị bài kiểm tra. Rất may điều này có thể được thực hiện bằng cách tinh chỉnh từng mô hình trên cùng một dữ liệu nhiệm vụ cụ thể trước khi đánh giá mà không cần đào tạo từ đầu.
Thứ hai, các mô hình không còn giải quyết một nhiệm vụ đơn lẻ nữa mà có thể được nhắc nhở để giải quyết khá nhiều nhiệm vụ. Đáp lại, đa nhiệm các tiêu chuẩn đã nổi lên như một tiêu chuẩn thực tế để cung cấp một đánh giá toàn diện các mô hình gần đây bằng cách tổng hợp hiệu suất trên nhiều nhiệm vụ vào một bảng xếp hạng duy nhất. Tổng hợp thứ hạng, Tuy nhiên, đây là một vấn đề hóc búa trong lý thuyết lựa chọn xã hội chưa có giải pháp hoàn hảo. Làm việc từ sự tương tự giữa đa tác vụ tiêu chuẩn và hệ thống bầu cử, ý tưởng từ lý thuyết lựa chọn xã hội tiết lộ những sự đánh đổi cố hữu mà các tiêu chuẩn đa tác vụ phải đối mặt. Cụ thể, sự đa dạng nhiệm vụ lớn hơn nhất thiết phải trả giá bằng nhạy cảm hơn với những thay đổi không liên quan. Ví dụ, thêm mô hình yếu đến điểm chuẩn đa tác vụ phổ biến có thể thay đổi thứ tự của những ứng cử viên hàng đầu. Sự ổn định quen thuộc của bảng xếp hạng người mẫu, đặc trưng của thời đại ImageNet, do đó không mở rộng đến điểm chuẩn đa tác vụ trong kỷ nguyên LLM.
Không giống như các bộ phân loại hình ảnh thời ImageNet, chatbot tương tác với hàng trăm triệu người trên toàn cầu. Tầm ảnh hưởng rộng lớn của AI Việc triển khai có ảnh hưởng đến việc đánh giá. Các mô hình được triển khai tại quy mô luôn ảnh hưởng đến dữ liệu trong tương lai, một hiện tượng được gọi là hiệu suất. Việc đánh giá thách thức hiệu suất, vì có không còn là dữ liệu độc lập với mô hình nữa. Khái niệm về mặt đất sự thật—nền tảng đánh giá lâu đời—làm sáng tỏ khi dữ liệu và mô hình tạo ra một vòng phản hồi khép kín. Nghiên cứu về hiệu suất làm sáng tỏ vấn đề vòng phản hồi dữ liệu mà nhiều người coi là rủi ro cơ bản đối với việc học máy hệ sinh thái. Điểm chuẩn động cố gắng tạo ra ưu điểm từ dữ liệu vòng phản hồi bằng cách tạo điểm chuẩn phát triển dưới dạng mô hình cải thiện.
Vấn đề cuối cùng mà việc đo điểm chuẩn phải đối mặt là một vấn đề mang tính tồn tại. Như khả năng của mô hình vượt quá khả năng của người đánh giá, nhà nghiên cứu đang hết cách để thử nghiệm các mô hình mới. Có hy vọng rằng các mô hình có thể đánh giá lẫn nhau. Nhưng ý tưởng sử dụng người mẫu làm giám khảo gặp phải một số trở ngại nghiêm trọng. Thẩm phán LLM là thiên vị, không có gì đáng ngạc nhiên, theo hướng có lợi cho riêng họ. Hấp dẫn gần đây phương pháp debiasing từ thống kê hứa hẹn đến mô hình debias dự đoán từ một vài nhãn sự thật của con người. Thật không may, ở giới hạn đánh giá—nơi mà các mô hình mới ít nhất cũng tốt với tư cách là thẩm phán—ngay cả phương pháp giảm sai lệch tối ưu cũng không tốt hơn thu thập gấp đôi số nhãn thực tế để đánh giá.
Và vậy… liệu cỗ máy tiến bộ cũ của chúng ta có bị dừng lại không?
Trong thời điểm khủng hoảng, chúng ta có xu hướng tăng tốc. Điều gì sẽ xảy ra nếu thay vào đó chúng tôi lùi lại và hỏi tại sao chúng tôi mong đợi điểm chuẩn sẽ hoạt động vị trí đầu tiên—và để làm gì? Trong thời gian dài nhất, cộng đồng coi điểm chuẩn là đương nhiên và không bận tâm đến việc tìm ra phương pháp đằng sau chúng. Chúng tôi thoát khỏi đó chủ yếu nhờ may mắn, nhưng cuộc khủng hoảng xung quanh việc đánh giá LLM cho thấy rằng chúng ta có thể không như vậy lần này may mắn đấy.
Cuốn sách này đề cập đến một khối lượng công việc ngày càng tăng đã bắt đầu được xây dựng nền tảng của khoa học về điểm chuẩn học máy. cái gì nổi lên là một bối cảnh phong phú về mặt lý thuyết và thực nghiệm những quan sát sẽ cung cấp thông tin cho việc thực hành so sánh điểm chuẩn về phía trước. Vô số vấn đề mở quan trọng đáng được cộng đồng quan tâm chú ý. Nếu điểm chuẩn có ích cho chúng ta trong tương lai, chúng ta phải đặt chúng trên cơ sở khoa học vững chắc. Hỗ trợ điều này mục tiêu của cuốn sách này là sự phát triển.
Cuốn sách này là ai để làm gì?
Có rất nhiều cuốn sách hay về học máy; Tôi nhấn mạnh một vài trong số đó xuyên suốt. Tuy nhiên, cuốn sách này đề cập đến một chủ đề trung tâm cho sự phát triển của học máy mà phần lớn là thiếu từ tất cả chúng. Sách giáo khoa hiện hành chủ yếu tập trung vào về ba trụ cột cổ điển của việc học có giám sát: biểu diễn, tối ưu hóa và khái quát hóa. Những chủ đề này là quan trọng. Nhưng việc so sánh chuẩn cũng quan trọng đối với hoạt động của hệ sinh thái học máy như bất kỳ hệ sinh thái nào trong số này. Không thể làm được học máy mà không sử dụng phương pháp nắm giữ và điểm chuẩn một cách rộng rãi. Trong thời gian dài nhất, chủ đề chủ yếu là ở mục đích của các bài đăng trên blog, chủ đề Reddit và cuộc trò chuyện trong ngành. Các hội nghị học thuật, chẳng hạn như NeurIPS, cuối cùng đã chấp nhận chủ đề như một phần của môn học cốt lõi. Nhưng với tư cách là một nhà khoa học kỷ luật, điểm chuẩn vẫn thiếu nền tảng.
Đây là cuốn sách dành cho tất cả sinh viên và nhà nghiên cứu muốn tìm hiểu về điểm chuẩn của máy học. Như vậy, nó phù hợp để tự học. Cần phải đào tạo một số môn toán, chủ yếu là chút về lý thuyết xác suất và thống kê. Toán học ở trên trình độ đại học. Tuy nhiên, tôi muốn nghĩ rằng rất nhiều khán giả rộng hơn có thể bỏ qua một số phép toán mà vẫn thu được nhiều kết quả của nó bằng cách đọc câu chuyện xung quanh. Một câu chuyện nhất quán xuyên suốt cuốn sách; chỉ số phân tích tóm tắt chính điểm của mỗi chương.
Người hướng dẫn có thể sử dụng cuốn sách này cùng với chiếc máy ưa thích của họ văn bản học tập để kết hợp các tiêu chuẩn vào chương trình giảng dạy của họ. tôi đã áp dụng một cách tiếp cận bảo thủ đối với nền móng bằng cách sử dụng khuôn khổ học tập có giám sát tiêu chuẩn, do đó làm cho cuốn sách dễ dàng tương thích với các sách giáo khoa khác. Trong khi hầu hết các giảng viên có khả năng sẽ tích hợp cuốn sách này với các tài liệu khóa học khác, nó cũng có thể hỗ trợ một lớp độc lập. Tôi đã dạy một học kỳ khóa học hai lần dựa trên tài liệu này, với mỗi chương phù hợp với một Bài giảng 90 phút. Trọn bộ bài tập về nhà bao gồm mã hóa, xử lý dữ liệu và thử nghiệm trong máy Python hệ sinh thái học tập sẽ có sẵn trực tuyến.
Lý thuyết và quan sát hoạt động song song xuyên suốt cuốn sách này. Đây không phải là một cuốn sách lý thuyết hay một hướng dẫn thực hành về máy móc. học tập. Tôi sử dụng lý thuyết nơi nó soi sáng thực nghiệm hiện tượng—nhận ra rằng không phải mọi cốt truyện trong văn học đều một. Và tôi nhấn mạnh những sự thật thực nghiệm chắc chắn, đồng thời tránh những quan sát, suy đoán và chi tiết thực tế đã được xác lập có thể quá phù du đối với một cuốn sách giáo khoa.
Cuốn sách này về cơ bản giải thích lý do hoạt động của việc đo điểm chuẩn. Một câu trả lời cho câu hỏi này nhất thiết cũng tiết lộ tầm quan trọng hạn chế của điểm chuẩn. Tuy nhiên, còn rất nhiều điều nữa vào việc thiết kế thành công một tiêu chuẩn hoặc việc thực hiện một cuộc thi học máy trong thực tế mà tôi không đề cập đến. Tương tự như vậy, có rất nhiều chủ đề rộng hơn về tập dữ liệu cũng như chủ đề đánh giá rộng hơn. tôi cho gợi ý để đọc thêm xuyên suốt.
Lời cảm ơn
Tôi bắt đầu quan tâm đến các điểm chuẩn của máy học hợp tác tại Viện máy tính lý thuyết Simons Khoa học vào mùa thu năm 2013 Những sự hợp tác này đã dẫn đến phát triển phân tích dữ liệu thích ứng, một lĩnh vực lý thuyết khoa học máy tính nghiên cứu những thách thức của việc phụ thuộc vào dữ liệu phân tích thống kê. Tôi mang ơn những cộng tác viên thân thiết của tôi tại thời gian, Cynthia Dwork, Vitaly Feldman, Toni Pitassi, Omer Reingold, Aaron Roth và Jon Ullman, những người đã định hình suy nghĩ của tôi về chủ đề này. Avrim Blum là người đầu tiên tạo ra sự kết nối giữa phân tích dữ liệu thích ứng và điểm chuẩn học máy, phỏng đoán rằng việc sử dụng lại tập dữ liệu ít được quan tâm hơn khi mục tiêu duy nhất là xác định mô hình hoạt động tốt nhất. Cái này sự quan sát đã mang tính hình thành đối với tôi. Chúng tôi đã hợp tác để chính thức hóa và chứng minh phỏng đoán này; kết quả là một phần tốt của một chương trong cuốn sách này.
Nhờ lời mời của Percy Liang, tôi đã có cơ hội tốt may mắn được kiểm duyệt một hội thảo tại NeurIPS 2021 về Vai trò của Điểm chuẩn trong tiến bộ khoa học của học máy . Những người tham gia Lora Aroyo, Sam Bowman, Isabelle Guyon và Joaquin Vanschoren đã đóng góp những quan điểm quan trọng cho chủ đề có ảnh hưởng lâu dài đến tôi. Tôi thường xuyên quay lại với bản ghi 14 trang của tôi từ hội thảo. Tại nhiều điểm khác nhau trên mười năm qua, tôi được hưởng lợi từ những cuộc trò chuyện với Sanjeev Arora và Sham Kakade về các chủ đề liên quan đến cuốn sách này. tôi cảm ơn Ben Recht vì những cuộc thảo luận của chúng ta về các điểm chuẩn trong chuẩn bị cho cuốn sách của chúng tôi Các mô hình, dự đoán và Những hành động đã cho tôi biết quan điểm của tôi về lịch sử của nhận dạng mẫu và điểm chuẩn. Tôi đã học được rất nhiều điều từ Ludwig Schmidt về dữ liệu, độ bền, khả năng nhân rộng và phân phối sự thay đổi trong học máy. Ludwig cũng đưa ra mối liên hệ giữa Máy tri thức của Strevens và học máy nghiên cứu. Bob Williamson đã chia sẻ kiến thức phong phú của mình một cách hào phóng với tôi; Tôi đã lấy đi nhiều hiểu biết sâu sắc và gợi ý, bao gồm cả những tới chi tiêu và Vincenti.
Phần thứ hai của cuốn sách tập trung đáng kể vào đóng góp từ các cộng tác viên gần đây của tôi Rediet Abebe, Nikhil Chandak, Ricardo Dominguez-Olmedo, Florian Dorner, Vivian Nastl, Celestine Mendler-Dünner,Olawale Salaudeen,Ali Shirali,Jiduan Wu, và Guanhua Zhang.
Tôi đã nhận được những ý kiến và phản hồi vô cùng quý giá từ Solon Barocas, Nikhil Chandak, Florian Dorner, Ricardo Dominguez-Olmedo, Jakob Förster, Clémentine Fourrier, Reinhard Heckel, Celestine Mendler-Dünner, Vivian Nastl, Joaquin Vanschoren, Gaël Varoquaux, Laura Weidinger, Bob Williamson, Jiduan Wu và Guanhua Zhang. Hallie Stabbins từ Nhà xuất bản Đại học Princeton đã hào phóng đưa ra lời khuyên tôi có nhiều năng lực về xuất bản. Một số người đánh giá ẩn danh đã cung cấp những nhận xét và đề xuất quan trọng mà tôi rất biết ơn cho. Tôi đã cố gắng hết sức để giải quyết chúng.
Xin cảm ơn những người tham gia lớp học của tôi về chủ đề này trong Mùa thu năm 2024 và 2025 tại Đại học Tübingen. Đặc biệt cảm ơn các giảng viên cao học Nikhil Chandak, Arkadii Bessonov, Ricardo Dominguez-Olmedo, Shashwat Goel, Luca Morlok, Tom Sühr và Guanhua Zhang.
Trong suốt thời gian đó, ChatGPT, Claude và Gemini đã hỗ trợ đánh vần, ngữ pháp, mã hóa, số liệu matplotlib và tikz.
Tác giả: jxmorris12