Các loại biểu đồ phổ biến trực quan dạng phân phối (Distributions)8 min read

bởi Ng. Minh Trí
0 bình luận
bieu do distribution

Mở đầu

Trực quan hóa dữ liệu là quá trình sử dụng các yếu tố hình ảnh để trình bày dữ liệu. Biểu đồ là một trong những hình thức trực quan hóa dữ liệu phổ biến nhất. Để có được quy trình trực quan hoá dữ liệu hoàn chỉnh, ta có thể sử dụng nhiều loại biểu đồ khác nhau phù hợp với kiểu dữ liệu và mục đích, mỗi loại có ưu điểm và nhược điểm riêng.

Trong thống kê, phân phối là một tập hợp các giá trị có thể xảy ra của một biến, cùng với xác suất của mỗi giá trị. Có nhiều loại phân phối khác nhau, mỗi loại có hình dạng và đặc điểm riêng. Việc hiểu hình dạng phân phối của dữ liệu là rất quan trọng để có thể đưa ra các kết luận thống kê chính xác.

Các phương pháp trực quan hóa được trình bày trong đoạn bao gồm:

  • Biểu đồ tần suất (Histogram): Là một cách trực quan hóa đơn giản và hiệu quả để hiển thị phân phối của dữ liệu.
  • Biểu đồ hộp (Box plot): Là phương pháp trực quan hóa dữ liệu thống kê được sử dụng để hiển thị phân phối của dữ liệu. Box plot có thể được sử dụng để so sánh phân phối của nhiều nhóm dữ liệu khác nhau.

Biểu đồ tần suất (Histogram)

Biểu đồ tần suất là một dạng biểu đồ cột cho thấy bằng hình ảnh sự thay đổi, biến động của một tập hợp các dữ liệu theo những hình dạng nhất định.

Để đánh giá các chỉ tiêu chất lượng cần thu thập rất nhiều dữ liệu khác nhau và các dữ liệu luôn biến động. Nếu nhìn vào những số liệu thu được một cách ngẫu nhiên đó sẽ rất khó đánh giá hết ý nghĩa của những thông tin mà chúng đem lại và rất khó nhận dạng biến động của chúng.

Để có thể phân tích, đánh giá tình hình chất lượng từ những dữ liệu thu thập được, đưa ra những kết luận chính xác, người ta tập hợp, phân loại, sắp xếp lại chúng biểu diễn sự phân bố dưới những dạng biểu đồ cột khác nhau theo đặc điểm của các dữ liệu thu được.

Sử dụng Box plot khi:

1. Có một biến liên tục duy nhất.
2. Khi muốn đặt câu hỏi về hình dạng phân bố của nó.

Ví dụ như sau: Tại nước Anh, để biết được số vị vua và thời gian trị vì tương ứng, ta sử dụng histogram. Có thể hiểu được như sau, có 8 vị vua trị vì từ ~25 đến ~35 năm. image9

Một số vấn đề liên quan khác đến histogram:

1. Modality:

image8

Modality

2. Skewness:

image6

Skewness

Histogram example3. Kurtosis:

image10

Kurtosis

Biểu đồ hộp (Box plot)

Box plot (hộp biểu đồ) là một phương pháp trực quan hóa dữ liệu được sử dụng để hiển thị phân phối của dữ liệu và phát hiện các giá trị ngoại lai. Box plot được tạo thành từ một hộp và hai đường thẳng (được gọi là râu). Hộp biểu diễn các giá trị trung tâm của dữ liệu, bao gồm trung vị (median), tứ phân vị thứ nhất (Q1) và tứ phân vị thứ ba (Q3). Râu biểu diễn các giá trị nằm ngoài tứ phân vị thứ nhất và tứ phân vị thứ ba.

Các thành phần của box plot:

  • Trung vị (Median): Trung vị là giá trị nằm ở giữa dữ liệu khi được sắp xếp theo thứ tự tăng dần. Trung vị được biểu diễn bằng một đường ngang bên trong hộp.
  • Tứ phân vị thứ nhất (Lower quartile or first quartile- Q1): Tứ phân vị thứ nhất là giá trị nằm ở giữa khi dữ liệu được sắp xếp theo thứ tự tăng dần và chia thành hai nửa. Tứ phân vị thứ nhất được biểu diễn bằng cạnh trái của hộp.
  • Tứ phân vị thứ ba (Upper quartile or third quartile- Q3): Tứ phân vị thứ ba là giá trị nằm ở giữa khi dữ liệu được sắp xếp theo thứ tự tăng dần và loại bỏ hai phần tư ở đầu và cuối. Tứ phân vị thứ ba được biểu diễn bằng cạnh phải của hộp.
  • Whisker: Whisker biểu diễn các giá trị nằm ngoài tứ phân vị thứ nhất và tứ phân vị thứ ba. Whisker thường được vẽ dài bằng 1,5 lần khoảng cách giữa tứ phân vị thứ nhất và tứ phân vị thứ ba. Các giá trị nằm ngoài whisker được coi là giá trị ngoại lai (outliers).
box whisker plot

Box whisker plot

Sử dụng Box plot khi: 

1. Khi có một biến liên tục, chia bởi một biến phân loại.
2. Khi muốn so sánh phân bố của biến liên tục cho từng biến phân loại.

Ví dụ như sau: Tại nước Anh, với mỗi nhà (biến phân loại) sẽ có thời gian trị vì khác nhau (biến liên tục), để tổng hợp và biết được các nhà có thời gian như thế nào (so sánh), ta sử dụng box plot. Ví dụ, tại nhà Wessex, thời gian trị vì ngắn nhất là 10 năm và dài nhất là ~40 năm, giá trị giữa số năm trị vì là ~18 năm, đa phần các vị vua trị vì giữa ~15 và ~25 năm. Tại nhà Denmark, giá trị nhỏ nhất là 20 năm, đa phần thời gian trị vì cao nhất là 30 năm, riêng chỉ có 1 vị vua trị vì hơn 50 năm.

Box plot example

Box plot example

Tham khảo thêm tại: https://www.simplypsychology.org/boxplots.html

Kết luận

Khi chọn biểu đồ trực quan dạng phân phối, cần lưu ý các yếu tố như loại dữ liệu, mục đích, đối tượng,….Trực quan hóa dữ liệu dạng phân phối là một kỹ năng quan trọng đối với bất kỳ ai làm việc với dữ liệu. Bằng cách sử dụng các biểu đồ trực quan dạng phân phối phù hợp, chúng ta có thể hiểu rõ hơn về dữ liệu và đưa ra các quyết định sáng suốt hơn.

Để hiểu rõ hơn về các loại biểu đồ trực quan dạng phân phối, bạn có thể tham khảo các tài liệu và khóa học trực tuyến. Bạn cũng có thể thực hành trực tiếp bằng cách sử dụng các phần mềm trực quan hóa dữ liệu như Tableau, Power BI, v.v.

Cảm ơn bạn đã đọc bài viết!

 

Có thể bạn sẽ thích

Để lại Bình luận