Quy trình trực quan hoá dữ liệu17 min read

bởi Ng. Minh Trí
0 bình luận

Giới thiệu về trực quan hoá dữ liệu

Trực quan hoá dữ liệu là quá trình biểu diễn thông tin và dữ liệu bằng cách sử dụng các biểu đồ, đồ thị hoặc hình ảnh để truyền tải ý nghĩa và mối quan hệ trong dữ liệu một cách rõ ràng và dễ hiểu. Thông qua việc biểu diễn dữ liệu bằng hình ảnh, trực quan hoá dữ liệu giúp người sử dụng dễ dàng nhận thức, hiểu và phân tích thông tin một cách hiệu quả.

Mục tiêu của trực quan hoá dữ liệu là làm nổi bật mô hình, xu hướng và mối quan hệ trong dữ liệu, từ đó giúp người sử dụng hiểu và phân tích dữ liệu một cách hiệu quả. Bằng cách sử dụng các biểu đồ phổ biến, như biểu đồ cột, đường, tròn và phân loại, chúng ta có thể trình bày dữ liệu theo cách mà mọi người dễ dàng nắm bắt và tìm ra những thông tin quan trọng.

Cách chọn biểu đồ phù hợp

Khi trực quan hoá dữ liệu, việc lựa chọn biểu đồ phù hợp rất quan trọng để truyền tải thông điệp một cách chính xác và hiệu quả. Để chọn được biểu đồ phù hợp, người dùng cần xác định mục tiêu của trực quan hoá dữ liệu, xem xét kiểu dữ liệu và lựa chọn biểu đồ phù hợp với mục đích của mình.

Mục tiêu của trực quan hoá dữ liệu có thể là phân loại dữ liệu, so sánh giữa các nhóm, biểu diễn xu hướng thời gian, phân phối dữ liệu, v.v. Sau khi xác định mục tiêu, người dùng cần xem xét kiểu dữ liệu mà họ đang làm việc, bao gồm số liệu liên tục, rời rạc, phân loại, và nhiều loại dữ liệu khác. Dựa trên kiểu dữ liệu và mục tiêu, người dùng có thể lựa chọn và sử dụng các biểu đồ phổ biến như biểu đồ cột, biểu đồ đường, biểu đồ tròn, biểu đồ phân loại, biểu đồ thời gian, kết hợp với hình ảnh và sắc độ để trực quan hoá dữ liệu một cách chính xác và dễ hiểu.

Một loạt các dạng trực quan hóa dữ liệu có thể được tạo ra từ các mục đích khác nhau, bao gồm:

  • Dạng Chuỗi thời gian, chẳng hạn như biểu đồ đường và biểu đồ vùng mô tả cách một biến số, hoặc nhiều biến số, thay đổi theo thời gian.
  • Các loại biểu đồ thanh khác nhau dùng để Xếp hạng so sánh, như biểu đồ thanh ngang/dọc, phân nhóm và xếp chồng.
  • Các chế độ xem dữ liệu Từng phần so với toàn bộ tính bằng tỷ lệ phần trăm sử dụng biểu đồ hình tròn.
  • Hệ số tương quan giữa hai hoặc ba biến số có thể được thể hiện rõ ràng qua biểu đồ phân tán và biểu đồ bong bóng.
  • Dạng Bản đồ địa lý như bản đồ choropleth – một loại bản đồ phân biệt các khu vực địa lý theo màu sắc hoặc ký hiệu – rất hữu ích khi cần so sánh hoặc phân đoạn dữ liệu theo khu vực địa lý.

4 bước để trực quan hoá dữ liệu

Bước 1: Xác định mục tiêu

Đầu tiên, xác định mục tiêu của việc trực quan hoá dữ liệu. Bạn cần định rõ thông điệp chính mà bạn muốn truyền tải qua biểu đồ. Mục tiêu có thể là phân loại dữ liệu, so sánh giữa các nhóm, biểu diễn xu hướng thời gian, phân phối dữ liệu, v.v. Từ đó, ta có thể rút ra được hai mục tiêu chính khi trực quan hoá dữ liệu, đó là:

  • Giải thích: Hình ảnh biểu diễn trực quan cung cấp cho người dùng thông tin liên quan để đáp ứng các nhu cầu thông thường hàng ngày (ví dụ: doanh số trong một ngày ở các khu vực)
  • Khám phá: Cung cấp chế độ xem đa chiều về tập dữ liệu để người dùng khám phá, đặt câu hỏi trong khi suy ngẫm và tìm ra thông tin chuyên sâu (ví dụ: Thành tích của doanh nghiệp được đánh giá qua các thông số khác nhau trong một khoảng thời gian nhất định)

Bước 2: Xem xét kiểu dữ liệu

Việc xem xét kiểu dữ liệu là một bước quan trọng trong quá trình chọn loại biểu đồ phù hợp để trực quan hoá dữ liệu. Kiểu dữ liệu xác định cách dữ liệu được tổ chức và bố trí, và từ đó sẽ ảnh hưởng đến lựa chọn biểu đồ thích hợp. Có hai kiểu dữ liệu chính mà bạn có thể gặp trong quá trình trực quan hoá dữ liệu: dữ liệu phân loại (categorical data) và dữ liệu số (numerical data). Dưới đây là phân loại và mô tả ngắn về mỗi kiểu dữ liệu này:

  • Dữ liệu phân loại (Categorical data): Dữ liệu phân loại là một kiểu dữ liệu được phân thành các nhóm hoặc hạng mục riêng biệt. Dữ liệu phân loại không có một mức đo liên tục và thường được mô tả bằng các nhãn hoặc hạng mục. Dữ liệu phân loại có thể được chia thành hai loại chính: Nominal và Ordinal.
      • Định danh (Nominal): Dữ liệu phân loại nominal là các hạng mục không có sự thứ tự hay mức đo. Ví dụ, giới tính (nam, nữ), loại sản phẩm (điện thoại, máy tính, máy ảnh), khu vực địa lý (Bắc, Trung, Nam). Các hạng mục trong dữ liệu phân loại nominal không có sự liên quan về mức độ.
      • Thứ bậc (Ordinal): Dữ liệu phân loại ordinal là các hạng mục có một sự thứ tự hay mức đo. Ví dụ, cấp bậc (cao, trung bình, thấp), đánh giá (rất hài lòng, hài lòng, không hài lòng). Các hạng mục trong dữ liệu phân loại ordinal có thứ tự và có sự liên quan về mức độ.
  • Dữ liệu số (Numerical data): Dữ liệu số là một kiểu dữ liệu được đo và biểu diễn bằng các giá trị số. Dữ liệu số có thể được chia thành hai loại chính: Rời rạc (Discrete) và Liên tục (Continuous).
      • Dữ liệu số rời rạc (Discrete): Dữ liệu số rời rạc là dữ liệu mà giá trị chỉ có thể nhận một tập hợp các giá trị riêng biệt. Ví dụ, số lượng sản phẩm bán ra trong một ngày, số lượng người tham dự một sự kiện. Các giá trị trong dữ liệu số rời rạc không thể được chia thành các giá trị trung gian.
      • Dữ liệu số liên tục (Continuous): Dữ liệu số liên tục là dữ liệu mà giá trị có thể nhận trong một khoảng liên tục. Ví dụ, thời gian (giờ, phút, giây), nhiệt độ. Các giá trị trong dữ liệu số liên tục có thể được chia thành các giá trị trung gian và có sự liên tục giữa chúng.

Ngoài các kiểu dữ liệu cơ bản, bạn cũng có thể xem xét các loại dữ liệu khác như dữ liệu địa lý, dữ liệu hình ảnh hoặc sắc độ. Điều quan trọng là hiểu rõ kiểu dữ liệu bạn đang làm việc và chọn loại biểu đồ phù hợp để tối ưu hóa việc truyền tải thông điệp và giá trị của dữ liệu.

Bước 3: Lựa chọn loại biểu đồ

Bước lựa chọn loại biểu đồ là một phần quan trọng trong quá trình trực quan hoá dữ liệu. Khi đã xác định mục tiêu và hiểu rõ kiểu dữ liệu, bạn cần lựa chọn loại biểu đồ phù hợp để truyền tải thông điệp một cách rõ ràng và hiệu quả.

Việc lựa chọn loại biểu đồ phụ thuộc vào nhiều yếu tố, bao gồm mục tiêu của việc trực quan hoá, kiểu dữ liệu, số lượng và sự phân loại của các biến, cũng như cách bạn muốn khám phá mối quan hệ giữa chúng. Một loại biểu đồ phù hợp có thể làm nổi bật sự khác biệt, xu hướng, phân phối hoặc liên kết trong dữ liệu của bạn. Dưới đây là các mục đích, phân loại khác nhau và các biểu đồ phù hợp.

  • Trực quan hình dạng phân phối: Thể hiện tần suất hiển thị, cách dữ liệu được phân phối hoặc được nhóm lại trong một khoảng thời gian. Để trực quan hình dạng phân phối, ta có thể sử dụng 2 loại biểu đồ phổ biến là Histogram hay Biểu đồ hộp.
  • Trực quan hoá 2 biến: Khám phá mối quan hệ và tương tác giữa hai biến trong một tập dữ liệu, hoặc thể hiện sự so sánh giữa các giá trị của hai biến. Có nhiều biểu đồ để thể hiện mối quan hệ giữa 2 biến khác nhau như biểu đồ phân tán (Scatter plots), biểu đồ đường (Line plots), biểu đồ cột (Bar plots), biểu đồ chấm (Dot plots),…
  • Trực quan hoá nhiều biến trong 1 biểu đồ: Khám phá mối quan hệ và tương tác giữa nhiều biến trong một tập dữ liệu. Khi làm việc với dữ liệu có nhiều biến, việc hiểu được mối quan hệ và sự tương tác giữa chúng giúp ta phát hiện các thông tin ẩn chứa và cung cấp cái nhìn toàn diện hơn về dữ liệu. Một số biểu đồ phổ biến để trực quan hoá nhiều biến cùng trong 1 biểu đồ bao gồm Biểu đồ heatmap (correlation heatmap), Pair plot hay Parallel coordinates plot.
  • Dữ liệu địa lý (Geospatial Data): Chứa thông tin về vị trí và địa lý của các đối tượng, cho phép chúng ta hiểu và khám phá thông tin không gian trong dữ liệu. Các phương pháp trực quan hoá dữ liệu địa lý bao gồm Choropleth Maps, Heat map,…
  • Các biểu đồ phổ biến khác ngoài những mục đích hay phân loại như trên có thể kể đến như Waffle Charts, biểu đồ vùng (Area plots), biểu đồ tròn (Pie charts),…

Qua việc lựa chọn loại biểu đồ phù hợp, bạn có thể tăng tính rõ ràng và truyền tải thông điệp dữ liệu một cách hiệu quả. Hãy chú ý đến mục tiêu và đặc điểm của dữ liệu để tìm ra biểu đồ tốt nhất để trực quan hoá dữ liệu của bạn.

Bước 4: Đánh giá và tinh chỉnh

Sau khi đã trực quan hoá dữ liệu và tạo ra biểu đồ, bước tiếp theo là đánh giá và tinh chỉnh để đảm bảo rằng biểu đồ đáp ứng mục tiêu và truyền tải thông điệp một cách hiệu quả. Bước này đóng vai trò quan trọng để đảm bảo tính chính xác và sự hiểu quả của trực quan hoá dữ liệu. Để thực hiện việc đánh giá và tinh chỉnh, ta có thể thực hiện theo các bước sau:

  • Đánh giá sự phù hợp của biểu đồ với mục tiêu ban đầu: Biểu đồ có truyền tải thông điệp chính một cách rõ ràng và dễ hiểu? Nó phù hợp với kiểu dữ liệu và mục tiêu trực quan hoá mà bạn đã đề ra? Kiểm tra xem biểu đồ có đáp ứng được câu hỏi nghiên cứu hoặc mục tiêu phân tích của bạn hay không.
  • Xem xét tính chính xác của dữ liệu trong biểu đồ: Hãy kiểm tra lại các bước tiền xử lý dữ liệu để đảm bảo rằng không có sai sót hoặc thiếu sót nào. Nếu cần thiết, hãy thực hiện lại các tính toán hoặc xử lý lại dữ liệu để đảm bảo tính chính xác và đáng tin cậy của biểu đồ.
  • Tinh chỉnh các yếu tố thiết kế của biểu đồ: Chú ý đến các yếu tố như tiêu đề, trục, nhãn, màu sắc và kích thước. Hãy đảm bảo rằng chúng hỗ trợ việc truyền tải thông điệp một cách rõ ràng và hấp dẫn. Đồng thời, hãy đảm bảo rằng biểu đồ có thẩm mỹ và dễ nhìn, không gây hiểu lầm hoặc gây nhầm lẫn cho người xem.
  • Kiểm tra và đánh giá sự hiệu quả của biểu đồ dựa trên phản hồi từ người xem: Họ có thể đưa ra ý kiến, đề xuất hoặc nhận xét giúp cải thiện biểu đồ. Sử dụng phản hồi này để thực hiện các điều chỉnh cuối cùng để tạo ra một biểu đồ chất lượng và đáp ứng mục tiêu của bạn.

Sau khi đã hoàn thành các bước trước đó trong quá trình trực quan hoá dữ liệu, bước cuối cùng là thử nghiệm và cải thiện biểu đồ của bạn trong thực tế. Quá trình này giúp đảm bảo rằng biểu đồ của bạn đáp ứng được mục tiêu, truyền tải thông điệp đến người nghe một cách hiệu quả và cung cấp cái nhìn sâu sắc về dữ liệu.

Kết luận

Trực quan hoá dữ liệu là một quá trình quan trọng để hiểu và khám phá thông tin ẩn chứa trong dữ liệu. Qua việc sử dụng các phương pháp và công cụ phù hợp, chúng ta có thể tạo ra các biểu đồ và hình ảnh trực quan để truyền tải thông điệp một cách rõ ràng và hấp dẫn. Đây là một công cụ mạnh mẽ giúp những người làm việc với dữ liệu khám phá, hiểu và tận dụng tri thức từ dữ liệu.

Có thể bạn sẽ thích

Để lại Bình luận