Giới thiệu trực quan về học máy

ngôn ngữ: :

Trong học máy, máy tính áp dụng các kỹ thuật học thống kê để tự động xác định các mẫu trong dữ liệu. Những kỹ thuật này có thể được sử dụng để đưa ra dự đoán có độ chính xác cao.

Tiếp tục cuộn. Bằng cách sử dụng tập dữ liệu về các ngôi nhà, chúng tôi sẽ tạo một mô hình máy học để phân biệt các ngôi nhà ở New York với các ngôi nhà ở San Francisco.

Đầu tiên, một số trực giác

Giả sử bạn phải xác định xem một ngôi nhà ở San Francisco hay ở New York. Theo thuật ngữ học máy, việc phân loại các điểm dữ liệu là một phân loại nhiệm vụ.

Vì San Francisco tương đối nhiều đồi núi nên độ cao của một ngôi nhà có thể là một cách hay để phân biệt hai thành phố.

Dựa trên dữ liệu độ cao của ngôi nhà ở bên phải, bạn có thể lập luận rằng một ngôi nhà cao trên 240 ft phải được phân loại là một ngôi nhà ở San Francisco.

Thêm sắc thái

Thêm sắc thái khác kích thước cho phép có nhiều sắc thái hơn. Ví dụ: các căn hộ ở New York có thể cực kỳ đắt đỏ trên mỗi foot vuông.

Vì vậy, việc trực quan hóa độ cao và giá mỗi foot vuông trong một biểu đồ phân tán giúp chúng tôi phân biệt những ngôi nhà có độ cao thấp hơn.

Dữ liệu cho thấy rằng, trong số những ngôi nhà có chiều cao hoặc dưới 240 ft, những ngôi nhà có giá cao hơn 1.776 USD mỗi foot vuông là ở Thành phố New York.

Kích thước trong một tập dữ liệu được gọi là các tính năng, dự đoán hoặc biến.

Vẽ ranh giới

Bạn có thể hình dung các quan sát về độ cao (>242 ft) và giá mỗi foot vuông (>$1776) dưới dạng ranh giới của các khu vực trong biểu đồ phân tán của mình. Những ngôi nhà được vẽ trong vùng màu xanh lá cây và xanh lam sẽ lần lượt ở San Francisco và New York.

Xác định ranh giới trong dữ liệu bằng toán học là bản chất của việc học thống kê.

Tất nhiên, bạn sẽ cần thêm thông tin để phân biệt những ngôi nhà có độ cao thấp hơn và giá mỗi foot vuông thấp hơn.

Tập dữ liệu mà chúng tôi đang sử dụng để tạo mô hình có 7 thứ nguyên khác nhau. Tạo một mô hình còn được gọi là đào tạo một mô hình.

Ở bên phải, chúng tôi đang trực quan hóa các biến trong ma trận biểu đồ phân tán để hiển thị mối quan hệ giữa từng cặp thứ nguyên.

Có các mẫu rõ ràng trong dữ liệu nhưng ranh giới để phân định chúng không rõ ràng.

Và bây giờ, học máy

Tìm các mẫu trong dữ liệu là nơi máy học xuất hiện. Phương pháp học máy sử dụng phương pháp học thống kê để xác định ranh giới.

Một ví dụ về phương pháp học máy là cây quyết định. Cây quyết định xem xét từng biến một và là một phương pháp học máy có thể truy cập hợp lý (mặc dù còn thô sơ).

Tìm ranh giới tốt hơn

Hãy xem lại ranh giới độ cao 240 ft được đề xuất trước đó để xem cách chúng ta có thể cải thiện trực giác của mình.

Rõ ràng, điều này đòi hỏi một góc nhìn khác.

Bằng cách chuyển hình ảnh trực quan của chúng ta thành một biểu đồ, chúng ta có thể thấy rõ hơn tần suất các ngôi nhà xuất hiện ở mỗi độ cao.

Mặc dù ngôi nhà cao nhất ở New York có chiều cao ~240 ft nhưng phần lớn trong số chúng dường như có độ cao thấp hơn nhiều.

Ngã ba đầu tiên của bạn

Cây quyết định sử dụng câu lệnh if-then để xác định các mẫu trong dữ liệu.

Ví dụ: nếu độ cao của một ngôi nhà cao hơn một số nào đó, thì ngôi nhà có thể ở San Francisco.

Trong học máy, những câu lệnh này được gọi là các nhánh và chúng chia dữ liệu thành hai nhánh dựa trên một số giá trị.

Giá trị đó giữa các nhánh được gọi là điểm phân tách. Những ngôi nhà ở bên trái điểm đó được phân loại theo một cách, trong khi những ngôi nhà ở bên phải được phân loại theo cách khác. Điểm phân chia là phiên bản của ranh giới của cây quyết định.

Sự đánh đổi

Chọn một điểm phân chia có sự đánh đổi. Phần phân chia ban đầu của chúng tôi (~240 ft) đã phân loại không chính xác một số ngôi nhà ở San Francisco thành những ngôi nhà ở New York.

Hãy nhìn vào phần lớn màu xanh lục trong biểu đồ hình tròn bên trái, đó đều là những ngôi nhà ở San Francisco bị phân loại sai. Đây được gọi là âm tính giả.

Tuy nhiên, điểm phân chia nhằm thu hút mọi ngôi nhà ở San Francisco cũng sẽ bao gồm nhiều ngôi nhà ở New York. Đây được gọi là dương tính giả.

Phần phân chia tốt nhất

Ở phần phân chia tốt nhất, kết quả của mỗi nhánh phải đồng nhất (hoặc thuần túy) nhất có thể. Có một số phương pháp toán học mà bạn có thể chọn để tính toán mức phân chia tốt nhất.

Như chúng ta thấy ở đây, ngay cả cách phân chia tốt nhất trên một đối tượng địa lý cũng không tách biệt hoàn toàn các ngôi nhà ở San Francisco với các ngôi nhà ở New York.

Đệ quy

Để thêm một điểm phân tách khác, thuật toán sẽ lặp lại quy trình trên trên các tập hợp con dữ liệu. Sự lặp lại này được gọi là đệ quy và là khái niệm xuất hiện thường xuyên trong các mô hình đào tạo.

Biểu đồ bên trái hiển thị phân bố của từng tập hợp con, được lặp lại cho từng biến.

Cách phân chia tốt nhất sẽ thay đổi tùy theo nhánh của cây mà bạn đang xem.

Đối với những ngôi nhà có độ cao thấp hơn, giá mỗi foot vuông, ở mức X đô la mỗi ft vuông, là biến số tốt nhất cho câu lệnh nếu-thì tiếp theo. Đối với những ngôi nhà có độ cao hơn, đó là giá, ở mức Y đô la.

Trồng cây

Các nhánh bổ sung sẽ bổ sung thông tin mới có thể tăng độ chính xác dự đoán của cây.

Chia sâu hơn một lớp, độ chính xác của cây được cải thiện lên 84%.

Thêm một số lớp nữa, chúng ta đạt được 96%.

Bạn thậm chí có thể tiếp tục thêm các nhánh cho đến khi dự đoán của cây chính xác 100%, để cuối mỗi nhánh, những ngôi nhà hoàn toàn ở San Francisco hoặc hoàn toàn ở New York.

Những nhánh cuối cùng của cây này được gọi là nút lá. Mô hình cây quyết định của chúng tôi sẽ phân loại các ngôi nhà trong mỗi nút lá theo loại nhà nào chiếm đa số.

Đưa ra dự đoán

Mô hình cây quyết định mới được đào tạo xác định xem một ngôi nhà ở San Francisco hay New York bằng cách chạy từng điểm dữ liệu thông qua các nhánh.

Tại đây, bạn có thể thấy dữ liệu được sử dụng để huấn luyện cây chạy qua cây.

Dữ liệu này được gọi là dữ liệu huấn luyện vì nó được sử dụng để huấn luyện mô hình.

Vì chúng tôi đã phát triển cây cho đến khi chính xác 100% nên cây này ánh xạ từng điểm dữ liệu huấn luyện một cách hoàn hảo tới thành phố mà nó thuộc về.

Kiểm tra thực tế

Tất nhiên, điều quan trọng là hơn nữa là cách cây hoạt động trên dữ liệu chưa từng thấy trước đó.

Để kiểm tra hiệu suất của cây trên dữ liệu mới, chúng ta cần áp dụng nó cho các điểm dữ liệu mà nó chưa từng thấy trước đây. Dữ liệu chưa được sử dụng trước đây này được gọi là dữ liệu thử nghiệm.

Lý tưởng nhất là cây nên hoạt động tương tự trên cả dữ liệu đã biết và chưa biết.

Vì vậy, dữ liệu này kém lý tưởng hơn.

Những lỗi này là do trang bị quá mức. Mô hình của chúng tôi đã học cách coi mọi chi tiết trong dữ liệu đào tạo đều quan trọng, ngay cả những chi tiết hóa ra không liên quan.

Trang bị quá mức là một phần của khái niệm cơ bản trong học máy mà chúng tôi sẽ giải thích trong bài đăng tiếp theo.

Tóm tắt

Học máy xác định các mẫu bằng cách sử dụng học thống kê và máy tính bằng cách khai quật ranh giới trong các tập dữ liệu. Bạn có thể sử dụng nó để đưa ra dự đoán.
Một phương pháp đưa ra dự đoán được gọi là cây quyết định. Phương pháp này sử dụng một loạt câu lệnh if-then để xác định ranh giới và xác định các mẫu trong dữ liệu
Việc trang bị quá mức xảy ra khi một số ranh giới dựa trên sự khác biệt không tạo ra sự khác biệt. Bạn có thể xem liệu một mô hình có phù hợp hay không bằng cách cho luồng dữ liệu thử nghiệm xuyên qua mô hình đó.

Chú thích cuối trang

Các khái niệm máy học đã xuất hiện trong nhiều lĩnh vực (khoa học máy tính, thống kê, kỹ thuật, tâm lý học, v.v.), do đó có các danh pháp khác nhau.
Để tìm hiểu thêm về cách tính toán mức phân chia tối ưu, hãy tìm kiếm 'chỉ số gini' hoặc 'entropy chéo'.
Một lý do khiến máy tính áp dụng rất tốt các kỹ thuật học thống kê là vì chúng có thể thực hiện các tác vụ lặp đi lặp lại rất nhanh chóng và không cảm thấy nhàm chán.
Thuật toán được mô tả ở đây là tham lam vì nó áp dụng cách tiếp cận từ trên xuống để phân tách dữ liệu. Nói cách khác, nó đang tìm kiếm biến làm cho mỗi tập hợp con trở nên đồng nhất nhất tại thời điểm đó.
Di chuột qua các dấu chấm để xem đường đi của nó trong cây.
Cảnh báo spoiler: Đó là sự cân bằng sai lệch/phương sai!