Khi còn ngồi trên ghế nhà trường, khoa học dữ liệu đối với mình chỉ gói gọn trong việc lấy dữ liệu có sẵn, áp dụng thuật toán và đánh giá độ chính xác của mô hình. Liệu đi làm có khác biệt với đi học nhiều không? Để trả lời cho câu hỏi này, hãy cùng tìm hiểu về quy trình khai thác dữ liệu trong doanh nghiệp thông qua ví dụ trong bài hôm nay.

Quy trình CRISP-DM

CRISP – DM là viết tắt cho Cross Industry Standard Process for Data Mining, tạm dịch là “quy trình tiêu chuẩn cho khai thác dữ liệu trong nhiều lĩnh vực”. Quy trình này được hình thành từ năm 1996, nhưng cho đến nay có lẽ vẫn là một trong những tiêu chuẩn được sử dụng rộng rãi nhất. Tạm thời không bàn đến chuyện tại sao nó lại thông dụng đến thế (hơn 20 năm vẫn chạy tốt), các bạn cứ tạm hiểu là mình sẽ dùng quy trình này để tham khảo trong bài này nhé.

Quy trình CRISPCRISP - DM (nguồn: wikipedia)

Các bước cơ bản trong quy trình CRISP-DM

Để tiện cho việc giải thích các bước của dự án về khoa học dữ liệu (Data Science), mình đặt ra một tình huống giả thuyết như sau:

Trong doanh nghiệp có một đội ngũ khoa học dữ liệu (team DS) đã thành lập với mục đích khai thác dữ liệu để mang lại giá trị cho doanh nghiệp. Một ngày nọ, đội ngũ bán hàng (team Biz) gặp đội ngũ khoa học dữ liệu để tìm hiểu xem họ có thể giúp được gì cho việc tăng doanh số bán hàng hay không. Sau đó, hai team lên ý tưởng và triển khai dự án vào thực tế qua 6 bước sau đây.

Bước 1: Hiểu về nhu cầu của doanh nghiệp (Business Understanding)

Bước này về cơ bản là để xác định mục tiêu kinh doanh (business objective) của dự án và đánh giá tiềm năng của các giải pháp khoa học dữ liệu.

Ở đây, team DS cần phải hiểu rõ: Mục tiêu của dự án là gì? Làm thế nào để đánh giá sự thành công của dự án? Liệu team DS có thể đưa ra giải pháp nào để thực hiện mục tiêu không?

Về phía team Biz, họ cần phải hiểu rõ: Giải pháp của team DS là gì? Giải pháp đó có yêu cầu thay đổi quy trình hiện có của team Biz không? Thời gian triển khai là bao lâu? Chi phí như thế nào?

Cụ thể trong ví dụ này, team DS sau khi bàn bạc với team Biz thì đã có câu trả lời như sau:

  • Mục tiêu của dự án: Tăng năng suất bán hàng, cụ thể là tăng hiệu quả của việc tiếp thị khách hàng qua điện thoại.
  • Tiêu chí cụ thể để đánh giá sự thành công của dự án: Tỷ lệ chuyển đổi khách hàng tiềm năng trở thành khách hàng thực sự (conversion rate) tăng từ 5% lên 10% (trung bình cứ mỗi 100 khách hàng được gọi, 10 khách hàng sẽ mua sản phẩm thay vì 5 khách hàng như hiện nay).
  • Giải pháp mà team DS đề xuất: Xây dựng mô hình dự đoán khả năng mua sản phẩm của tất cả các khách hàng, từ đó team Biz có thể tham khảo để tập trung vào nhóm khách tiềm năng nhất (nhóm khách hàng được dự đoán có khả năng mua cao nhất).

Bước 2: Hiểu về dữ liệu (Data Understading)

Sau khi đã xác định được mục tiêu của dự án, bước tiếp theo là tìm kiếm và đánh giá xem dữ liệu có phù hợp cho giải pháp được đề ra hay không.

Để làm được điều này, team DS sẽ cần xác định một số dữ liệu cần thiết, ví dụ như:

  • Dữ liệu về những khách hàng được tiếp thị và những khách hàng đã mua sản phẩm
  • Dữ liệu về nhân khẩu học: độ tuổi, ngành nghề, thu nhập,…
  • Dữ liệu về lịch sử tương tác của khách hàng trên website của doanh nghiệp: Khách hàng tương tác với dòng sản phẩm nào? Thời gian bao lâu?
  • Dữ liệu về lịch sử giao dịch của khách hàng đối với những sản phẩm của doanh nghiệp: Khách hàng đã mua sản phẩm gì? Vào thời điểm nào? Giá trị là bao nhiêu?

Nếu đây là những dữ liệu không có sẵn, họ có thể lên kế hoạch tổng hợp những dữ liệu này hoặc sẽ phải xem xét giải pháp khác. Nếu đây là những dữ liệu có sẵn, team DS sẽ cần phân tích qua về dữ liệu để đánh giá xem chất lượng dữ liệu có đủ tốt để thực hiện các bước tiếp theo hay không.

Bước 3: Chuẩn bị dữ liệu (Data Preparation)

Đây là bước chuyển đổi và tổng hợp các dữ liệu liên quan để dùng cho việc xây dựng mô hình ở bước tiếp theo.

Bước chuẩn bị dữ liệu được phụ trách bởi team DS và thông thường sẽ bao gồm các bước nhỏ hơn, ví dụ như sau:

  • Làm sạch dữ liệu, ví dụ như xử lý dữ liệu bị thiếu và các điểm dị biệt
  • Tạo thêm các thuộc tính mới
  • Tổng hợp các nguồn dữ liệu với nhau

Lưu ý là các bước chuẩn bị dữ liệu còn phụ thuộc vào thuật toán được áp dụng (thuật toán khác nhau có thể cần cách xử lý dữ liệu đầu vào khác nhau) nên bước này liên hệ chặt chẽ với bước xây dựng mô hình tiếp theo.

Bước 4: Xây dựng mô hình (Modeling)

Đây là bước áp dụng các thuật toán lên dữ liệu (được chuẩn bị ở bước trước đó) để xây dựng mô hình phục vụ cho mục tiêu đặt ra.

Do mỗi thuật toán lại có ưu nhược điểm khác nhau, team DS sẽ tiến hành thử nghiệm xây dựng mô hình với nhiều thuật toán để tìm ra mô hình phù hợp nhất. Dưới đây là một số tiêu chí hay được áp dụng cho việc lựa chọn mô hình:

  • Độ chính xác
  • Khả năng diễn giải
  • Thời gian huấn luyện mô hình

Bước 5: Đánh giá chất lượng mô hình (Evaluation)

Ở bước này, mô hình được xây dựng sẽ được đánh giá xem có đạt được mục tiêu đề ra ban đầu hay không.

Xin nhắc lại mục tiêu của team Biz là tăng tỷ lệ chuyển đổi khách hàng tiềm năng từ 5% lên 10%. Mục tiêu này đòi hỏi đánh giá hiệu quả kinh doanh từ thực tế, team Biz sẽ thử nghiệm tiếp thị đến những khách hàng tiềm năng nhất (có chỉ số dự đoán khả năng mua sản phẩm cao) và đánh giá tỷ lệ chuyển đổi của phương pháp mới này. Nếu chỉ số này chưa đạt 10%, team DS sẽ quay lại các bước trước đó để tìm cách nâng cao chất lượng mô hình dự đoán cho đến khi đạt được kết quả như mong muốn.

Bước 6: Triển khai giải pháp (Deployment)

Sau khi thực hiện đủ các bước trên và đạt được kết quả khả quan thì mô hình sẽ được coi là sẵn sàng cho việc triển khai vào thực tế.

Team Biz và team DS bàn bạc và đi đến phương án triển khai như sau:

  • Hàng tuần team Biz gửi dữ liệu của tập khách hàng mới cho cho team DS.
  • Team DS dùng mô hình để dự đoán khả năng mua sản phẩm của tập khách hàng này và gửi lại team Biz.
  • Team Biz dùng kết quả từ team DS để tập trung vào tập khách hàng tiềm năng nhất.
  • Cứ 3 tháng một lần, team DS sẽ thử nghiệm xây dựng mô hình mới khi đã có thêm dữ liệu về khách hàng.
  • Sau 1 năm mà kết quả vẫn khả quan, hai team có thể xem xét kết nối trực tiếp mô hình dự đoán với phần mềm quản lý khách hàng mà team Biz đang dùng nhằm giảm thiểu các bước thủ công trên.

Tạm kết

Hy vọng bài viết này sẽ giúp các bạn có một góc nhìn khác (thực tế hơn) về khoa học dữ liệu. Lưu ý rằng, mỗi doanh nghiệp sẽ có cách tiếp cận và triển khai khác nhau, trên đây chỉ là một tình huống mà mình đặt ra để các bạn dễ hình dung mà thôi.

Nếu một lúc nào đó bạn cần triển khai một dự án về khoa học dữ liệu, hãy chú ý đến nhu cầu doanh nghiệp và việc triển khai giải pháp vào thực tế. Đây là hai bước rất quan trọng quyết định đến sự thành công của dự án và mang lại giá trị lâu dài cho doanh nghiệp.

Leave a comment