Các bước phân tích dữ liệu

Trong quá khứ, khi bắt đầu nghiên cứu một vấn đề nào đó, ta thường phải tìm kiếm hay thu thập dữ liệu tương ứng với bài toán mà ta đề ra. Nhờ có tiến bộ của internet mà ngày nay ta được tiếp cận với nhiều thông tin hơn, đến nỗi quá nhiều, quá Big khiến cho vấn đề không còn nằm ở chỗ thiếu thông tin nữa mà là làm sao rút trích được những thông tin hữu ích và súc tích nhất cho câu hỏi ban đầu.

Khi đó ta thường đối mặt với những thách thức về dữ liệu như:

  • Làm sao tìm được dữ liệu cho bài toán của mình?
  • Phân tích dữ liệu thu thập được như thế nào?
  • Sau khi phân tích, ta có thể đưa ra được kết luận thú vị nào không cho bài toán đề ra?

Mặc dù mỗi lĩnh vực nghiên cứu khác nhau sẽ có những đòi hỏi và mục tiêu khác nhau, nhưng nhìn chung, ta có thể áp dụng cùng một phương pháp hữu ích như tôi sắp trình bày bên dưới để có thể tiến hành một quy trình phân tích dữ liệu thành công.

Đặt vấn đề

Giống như đi thi Đại học, bước quan trọng trước khi giải bất kỳ một bài toán nào đó là đọc hiểu đề bài. Nếu không hiểu đề bài, bạn sẽ bị lạc đề và tốn rất nhiều thời gian vô ích. Điểm khác biệt khi đi làm thực tế đó là vấn đề đặt ra thường rất mơ hồ. Ví dụ như, tôi muốn áp dụng machine learning vào ứng dụng của mình để khiến cho người dùng luôn “happy”. Trong nghiên cứu, ngoài những chân lý bất biến thì mọi sự việc không thể nào “luôn luôn” xảy ra được, ta cần định lượng rõ một mức độ chấp nhận được để ta có thể nhắm đến. Và “happy” ở đây phải tuỳ theo ngữ cảnh, ví dụ như “happy” đối với game thủ thì như thế nào, “happy” đối với những người nội trợ thì ra sao, “happy” đối với dân công sở thường gồm những gì, …

Người thành công là người biết đặt vấn đề và giải quyết vấn đề. Ví dụ ngày xưa ta đi xe ngựa và không đặt vấn đề có cách nào đi nhanh hơn không thì ta sẽ mãi mãi không có xe hơi.

Do vậy, để có thể đưa ra những câu trả lời đúng, bạn cần đặt ra những câu hỏi đúng. Bạn có thể vận dụng phương pháp 5W1H để đặt câu hỏi (ai, ở đâu, khi nào, tại sao, cái gì, như thế nào).

Thu thập dữ liệu

Nếu bạn đã có sẵn dữ liệu thì việc bạn cần làm là hiểu được dữ liệu đang có. Dữ liệu thường đến từ quá trình ghi chép thử nghiệm, công tác kinh doanh, hay từ các ứng dụng người dùng. Vì vậy, bạn có thể tìm hiểu xem dữ liệu được thu thập từ đâu, bằng phương pháp nào, mức độ tin cậy bao nhiêu. Thêm vào đó, không phải dữ liệu nào cũng dùng được, đây là mấu chốt quan trọng. Bạn thường tự hào khi có Big Data, nhưng không có nghĩa mọi thứ bạn đều có thể sử dụng được. Bạn cần chọn lọc ra những mẫu dữ liệu có ý nghĩa cho bài toán của mình. Ví dụ như, tôi cần những cột dữ liệu nào trong bảng tính 100 cột như vậy, tập dữ liệu này so với tập dữ liệu còn lại có thừa hay thiếu thông tin gì không, những mẫu dữ liệu này có điểm chung là gì, có thể giới hạn mẫu dữ liệu lại không?

Ngược lại, nếu dữ liệu chưa có, bạn phải đi thu thập. Đầu tiên, bạn cần chọn cho mình một phương pháp thu thập dữ liệu như lấy ý kiến người dùng (survey), gọi điện hỏi trực tiếp, trắc nghiệm online, đánh nhãn dữ liệu, đánh nhãn tự động hay tìm kiếm dữ liệu những người đi trước có cùng nghiên cứu với mình. Tiếp theo, bạn cần nghĩ và thiết kế giải thuật tương ứng với dữ liệu thu thập được để có thể đưa ra các câu trả lời thích hợp. Điều quan trọng cuối cùng, bạn cần theo sát các nguyên tắc thống kê trong nghiên cứu để có thể thu thập dữ liệu có độ tin cậy cao.

Phân tích dữ liệu

Sau khi đã có đầy đủ dữ liệu cần thiết, trước khi sử dụng, bạn cần nghĩ đến làm sạch dữ liệu. Làm sạch dữ liệu là một bước quan trọng để cải thiện chất lượng dữ liệu đầu vào “garbage in, garbage out”.

Đồng thời bạn cũng cần thiết kế mô hình dữ liệu liên quan đến dữ liệu mà doanh nghiệp bạn cần đầu ra. Ví dụ, nếu quyết định của doanh nghiệp dựa vào các độ đo về hiệu xuất, bạn cần chọn đúng các số đo (metrics) để định lượng, định tính nhờ vậy có thể dễ dàng giải thích hơn.

Sử dụng công cụ phân tích

Việc lựa chọn và sử dụng công cụ phù hợp cho phân tích dữ liệu giúp bạn giảm tải được các bước xử lý phức tạp cũng như tiết kiệm thời gian trong quá trình phân tích. Ví dụ, bạn có thể sử dụng excel, hay libre calc để xử lý những mẫu dữ liệu nhỏ, những phần mềm này đã tích hợp sẵn nhiều công cụ phân tích giúp bạn kiểm chứng nhanh mô hình hay brainstorming idea cho các bước phân tích tiếp theo. Hay bạn nên sử dụng database với ngôn ngữ SQL để truy vấn và phân tích dữ liệu lớn hơn, hay sử dụng các công cụ phân tích thống kê phức tạp hơn để trả lời các câu hỏi phức tạp như mô hình dự đoán xu hướng phát triển.

Show kết quả

Trước khi trình bày kết quả phân tích của mình, bạn cần hiểu thông điệp mình muốn truyền tải cho người nghe là gì. Ví dụ như các mối quan hệ giữa các lược đồ, so sánh, kết hợp hay phân bố như thế nào?

Các bước show hình minh hoạ cần hướng đến thông điệp ban đầu bạn muốn chứng minh. Ví dụ, scatter plot hay maps dùng để show phân bố của dữ liệu, line charts thì tốt cho biểu diễn quan hệ, pie chart thích hợp khi bạn muốn truyền tải sự kết hợp, và column charts, bar charts hay line charts có thể được dùng để so sánh.

Dưới đây là một số lời khuyên nhỏ

Chúng ta đều biết rằng làm việc với dữ liệu không phải là một việc đơn giản. Nó đòi hỏi thời gian, sự nhẫn nại, sự chính xác, tài năng, óc phân tích cũng như năng lực vốn có trong quá trình rèn luyện của mỗi người. Tuy nhiên, dần dần theo năm tháng bạn sẽ dần rút ra cho mình được nhiều kinh nghiệm hơn và tự tin hơn trong sự nghiệp của mình. Hãy kiên trì bạn nhé, bước đi đầu tiên lúc nào cũng khó khăn nhất.

Đừng cố phân tích tất cả mọi thứ. Lợi ích lớn nhất mà Big Data mang lại cho chúng ta không phải là kích thước dữ liệu khổng lồ của nó mà là sự đa dạng. Bạn không nhất thiết phải phân tích mọi thứ bên trong nó, lời khuyên là bạn chỉ cần đảm bảo dữ liệu bạn rút trích ra liên quan đến bài toán của bạn mà thôi và tập dữ liệu này thường nhỏ hơn tập dữ liệu bạn muốn phân tích ban đầu.

 

Source : Ông Xuân Hồng blog

34 total views, 2 views today

Leave a Reply

Your email address will not be published. Required fields are marked *