
Toán học giải thích tại sao đường cong hình chuông có ở khắp mọi nơi
The math that explains why bell curves are everywhere
Dù dữ liệu có vẻ ngẫu nhiên thế nào, bạn vẫn thường xuyên thấy phân phối hình chuông (bell curve). Lý do là Định lý Giới hạn Trung tâm (Central Limit Theorem), một nguyên lý toán học cốt lõi. Định lý này nói rằng, khi bạn lấy trung bình của nhiều biến ngẫu nhiên độc lập, dù phân phối ban đầu của chúng thế nào, thì phân phối của các giá trị trung bình đó sẽ có xu hướng tiến về phân phối chuẩn (normal distribution). Với các developer, điều này có nghĩa là trong các hệ thống liên quan đến việc tổng hợp các sự kiện ngẫu nhiên hoặc số đo (ví dụ: hành vi người dùng, tải hệ thống, hay số đọc từ cảm biến), bạn có thể kỳ vọng sẽ thu được các phân phối hình chuông có thể dự đoán được. Hiểu rõ điều này giúp ích rất nhiều trong việc suy luận thống kê (statistical inference), phân tích lỗi (error analysis), và mô hình hóa hệ thống (system modeling) một cách hiệu quả hơn. Nhờ đó, bạn có thể tự tin đưa ra dự đoán chính xác và những quyết định thiết kế sáng suốt hơn dựa trên hành vi có tính xác suất.
Bất kể bạn nhìn ở đâu, đường cong hình chuông vẫn ở gần đó. Đặt cốc đo ở sân sau của bạn mỗi khi trời mưa và ghi lại độ cao của nước khi mưa ngừng: Dữ liệu của bạn sẽ tuân theo đường cong hình chuông. Ghi...
Dù bạn nhìn ở đâu, đường cong hình chuông vẫn ở gần đó.
Đặt cốc đo ở sân sau mỗi khi trời mưa và ghi lại độ cao của nước khi mưa ngừng: Dữ liệu của bạn sẽ tuân theo đường cong hình chuông. Ghi lại 100 dự đoán của mọi người về số lượng hạt thạch trong lọ và họ sẽ đi theo đường cong hình chuông. Đo đủ chiều cao của phụ nữ, cân nặng của nam giới, điểm SAT, thời gian chạy marathon — bạn sẽ luôn nhận được một cái bướu tròn, mịn và thuôn nhọn ở các cạnh.
Tại sao đường cong hình chuông lại xuất hiện trong nhiều tập dữ liệu đến vậy?
Câu trả lời tóm gọn lại là định lý giới hạn trung tâm, một chân lý toán học mạnh mẽ đến mức khiến những người mới tham gia thường cảm thấy không thể thực hiện được, giống như một trò ảo thuật của tự nhiên. Daniela Witten, một nhà thống kê sinh học tại Đại học Washington, cho biết: “Định lý giới hạn trung tâm khá tuyệt vời vì nó quá không trực quan và đáng ngạc nhiên”. Thông qua đó, sự hỗn loạn ngẫu nhiên nhất, không thể tưởng tượng được có thể dẫn đến khả năng dự đoán đáng kinh ngạc.
Bây giờ nó là trụ cột cho phần lớn khoa học thực nghiệm hiện đại. Hầu như mỗi khi một nhà khoa học sử dụng các phép đo để suy ra điều gì đó về thế giới, định lý giới hạn trung tâm đều bị chôn vùi ở đâu đó trong các phương pháp. Nếu không có nó, khoa học sẽ khó có thể nói bất cứ điều gì một cách tự tin về bất cứ điều gì.
“Tôi không nghĩ lĩnh vực thống kê sẽ tồn tại nếu không có định lý giới hạn trung tâm,” Larry Wasserman, một nhà thống kê tại Đại học Carnegie Mellon, cho biết. “Đó là tất cả.”
Sự thuần khiết từ phó tế
Có lẽ không có gì ngạc nhiên khi nỗ lực tìm kiếm sự đều đặn trong tính ngẫu nhiên đến từ việc nghiên cứu cờ bạc.
Trong các quán cà phê ở London đầu thế kỷ 18, tài năng toán học của Abraham de Moivre được thể hiện rõ ràng. Nhiều người cùng thời với ông, trong đó có Isaac Newton và Edmond Halley, đã công nhận tài năng xuất sắc của ông. De Moivre là thành viên của Hiệp hội Hoàng gia, nhưng ông cũng là một người tị nạn, một người Pháp đã trốn khỏi quê hương khi còn trẻ khi đối mặt với cuộc đàn áp chống Tin lành. Là một người nước ngoài, anh ấy không thể đảm bảo được một công việc học tập ổn định phù hợp với tài năng của mình. Vì vậy, để giúp thanh toán các hóa đơn của mình, anh ấy đã trở thành nhà tư vấn cho những người cờ bạc đang tìm kiếm lợi thế toán học.
Lật đồng xu, gieo xúc xắc và rút bài từ bộ bài là những hành động ngẫu nhiên, mọi kết quả đều có khả năng xảy ra như nhau. Điều de Moivre nhận ra là khi bạn kết hợp nhiều hành động ngẫu nhiên, kết quả sẽ tuân theo một khuôn mẫu đáng tin cậy.
Lật đồng xu 100 lần và đếm tần suất nó xuất hiện mặt ngửa. Nó sẽ ở đâu đó khoảng 50, nhưng không chính xác lắm. Chơi trò chơi này 10 lần và bạn có thể nhận được 10 lần đếm khác nhau.
Bây giờ hãy tưởng tượng bạn chơi trò chơi này 1 triệu lần. Phần lớn các kết quả sẽ gần bằng 50. Bạn hầu như sẽ không bao giờ có dưới 10 mặt ngửa hoặc trên 90. Nếu bạn lập biểu đồ về số lần bạn nhìn thấy mỗi số từ 0 đến 100, bạn sẽ thấy hình chuông cổ điển đó, với 50 ở giữa. Bạn càng chơi trò chơi nhiều lần thì tiếng chuông sẽ càng mượt mà và rõ ràng hơn.
De Moivre đã tìm ra hình dạng chính xác của chiếc chuông này, sau này được gọi là phân bố chuẩn. Nó cho anh ta biết, dù không cần phải thực sự chơi trò chơi, cũng biết khả năng xảy ra các kết quả khác nhau như thế nào. Ví dụ: xác suất nhận được từ 45 đến 55 mặt ngửa là khoảng 68%.
De Moivre ngạc nhiên với lòng sùng kính tôn giáo trước “trật tự vững chắc của vũ trụ” mà cuối cùng đã vượt qua mọi sai lệch so với tiếng chuông. Ông viết: “Theo thời gian, những điều bất thường này sẽ không còn tương ứng với việc tái diễn trật tự vốn dĩ là kết quả của thiết kế ban đầu.”
Anh ấy đã sử dụng những hiểu biết sâu sắc này để duy trì một cuộc sống ít ỏi ở London, viết một cuốn sách có tên Học thuyết về sự may rủi đã trở thành kinh thánh của giới cờ bạc và tổ chức những giờ hành chính không chính thức tại Old Slaughter's Coffee House nổi tiếng. Nhưng ngay cả de Moivre cũng không nhận thức được toàn bộ phạm vi khám phá của mình. Chỉ khi Pierre-Simon Laplace thực hiện ý tưởng này vào năm 1810, nhiều thập kỷ sau cái chết của de Moivre, toàn bộ phạm vi của nó mới được phát hiện.
Hãy lấy một ví dụ phức tạp hơn một chút so với việc tung đồng xu: tung xúc xắc. Mỗi lần tung xúc sắc đều có sáu kết quả có khả năng xảy ra như nhau. Nếu bạn liên tục tung xúc xắc và kiểm đếm kết quả, bạn sẽ nhận được một biểu đồ có vẻ phẳng — bạn chắc chắn sẽ thấy số lần tung xúc xắc là 1 cũng như số lần tung 2, 4 hoặc 6.
Bây giờ hãy tung xúc xắc đó 10 lần và lấy số trung bình. Bạn có thể đạt được khoảng 3,5. Lặp lại thí nghiệm nhiều lần nữa và vẽ đồ thị tất cả các kết quả. Bạn sẽ có một đường cong hình chuông đạt đỉnh 3,5 với cấu trúc được xác định chính xác ở hai bên.
Đó là sự kỳ diệu của định lý giới hạn trung tâm. Bạn bắt đầu với việc phân bổ các kết quả có thể xảy ra mà không có cấu trúc nào cả - cơ hội bằng nhau từ 1 đến 6. Nhưng bằng cách lấy giá trị trung bình của nhiều phép đo, sau đó lặp đi lặp lại quá trình đó, bạn sẽ có được cấu trúc toán học chính xác, có thể dự đoán được: đường cong hình chuông.
Laplace đã chắt lọc cấu trúc này thành một công thức đơn giản, công thức mà sau này được gọi là định lý giới hạn trung tâm. Cho dù một quá trình ngẫu nhiên có bất thường đến đâu, ngay cả khi không thể lập mô hình, thì giá trị trung bình của nhiều kết quả vẫn có sự phân bố như nó mô tả. Witten nói: “Nó thực sự mạnh mẽ, bởi vì nó có nghĩa là chúng ta không cần thực sự quan tâm đến việc phân bổ những thứ được tính trung bình là gì”. “Điều quan trọng là bản thân mức trung bình sẽ tuân theo phân phối chuẩn.”
Công cụ có mặt ở khắp mọi nơi
Tính trung bình có vẻ giống như việc mà con người phải làm, nhưng định lý giới hạn trung tâm áp dụng một cách vô hình cho tất cả những thứ chúng ta có thể quan sát được trên thế giới, chẳng hạn như chiều cao của con người. Jeffrey Rosenthal">Jeffrey Rosenthal, nhà thống kê tại Đại học Toronto, cho biết: “Chiều cao của ai đó có thể phụ thuộc vào chiều cao của bố, chiều cao của mẹ, di truyền, dinh dưỡng và tất cả những tác động nhỏ cộng lại”. Những tác động đó không liên quan đến nhau (nói chung chiều cao của bố bạn không liên quan gì đến thực phẩm bạn ăn). Rosenthal cho biết: “Nó giống như tính trung bình một loạt các hiệu ứng nhỏ, đó là lý do tại sao chiều cao gần như tuân theo phân phối chuẩn.
Đây là lý do tại sao tất cả các loại tập dữ liệu dường như đều tuân theo hình dạng đẹp mắt này một cách tự nhiên. Witten nói: “Bất cứ nơi nào có mức trung bình cơ bản, nếu đó là mức trung bình trên đủ mọi thứ, thì bạn sẽ có một phân phối chuẩn”.
Định lý này cũng mang lại cho các nhà thống kê khả năng để biết khi nào có điều gì đó đáng ngờ đang xảy ra. Giả sử bạn đang nhấm nháp cà phê tại Old Slaughter's thì một người bảo trợ đưa cho bạn một đồng xu và đặt cược rằng bạn không thể có được 45 mặt ngửa sau 100 lần tung. Bạn cố gắng và chỉ nhận được 20. Làm thế nào bạn có thể biết liệu anh ta có đưa cho bạn một đồng xu lừa hay không và quá trình này không ngẫu nhiên như lẽ ra phải thế? Nhờ định lý giới hạn trung tâm, bạn biết rằng các con số lên tới 20 chỉ chiếm 0,15% hình chuông, do đó chỉ có 0,15% khả năng một đồng xu công bằng sẽ cho kết quả tồi tệ như vậy. Gần như chắc chắn bạn đã bị bắt.
Đó chính là sức mạnh thực sự của công thức Laplace. Anh ấy biết rằng việc tính trung bình cho bất kỳ quy trình nào sẽ mang lại cho bạn một đường cong hình chuông, cho phép bạn nói điều gì đó về quy trình đó mà không cần biết sâu hơn về cách thức hoạt động của nó.
Xử lý cẩn thận
Mặc dù có vai trò trung tâm đối với khoa học hiện đại, định lý giới hạn trung tâm cũng có những giới hạn riêng. Nó chỉ hoạt động khi bạn kết hợp nhiều mẫu và những mẫu đó cần phải độc lập. Nếu không — ví dụ: nếu bạn chỉ tiến hành một cuộc thăm dò ý kiến tổng thống quốc gia tại một thị trấn nhỏ ở Maine — việc lặp lại thử nghiệm sẽ không giúp bạn tiến gần hơn đến đường cong hình chuông dự kiến.
Và đôi khi trong khoa học, những giá trị ngoại lệ có thể quan trọng hơn mức trung bình. “‘Cơn lũ trăm năm’ đột nhiên xảy ra thường xuyên hơn,” Richard D. De Veaux, một nhà thống kê ứng dụng tại Đại học Williams. “Ngày nay, việc lập mô hình các sự kiện cực đoan có lẽ cũng quan trọng như việc lập mô hình mức trung bình.”
May mắn thay, ý tưởng đằng sau định lý giới hạn trung tâm — sức mạnh và độ tin cậy của số trung bình — đã được sử dụng rộng rãi để mở rộng sức mạnh của thống kê. Các nhà thống kê thường xây dựng một phiên bản của định lý giới hạn trung tâm cho bất kỳ vấn đề cụ thể nào mà họ đang giải quyết. Wasserman nói: “Có rất nhiều thứ phức tạp hơn mà nếu khéo léo, bạn có thể viết nó dưới dạng trung bình mẫu cộng với một số lỗi”. Trong những trường hợp đó, bạn có thể sử dụng một biến thể của định lý để đơn giản hóa bài toán.
Định lý giới hạn trung tâm cuối cùng là trụ cột của khoa học hiện đại bởi vì nó là trụ cột của thế giới xung quanh chúng ta. Khi chúng tôi kết hợp nhiều phép đo độc lập, chúng tôi sẽ có được các cụm. Và nếu đủ thông minh, chúng ta có thể sử dụng các cụm đó để tìm ra điều gì đó thú vị về quá trình tạo ra chúng.
Tác giả: ibobev