Gần đây, mình thấy nhiều bạn muốn bắt đầu hoặc chuyển hướng sang làm việc trong ngành khoa học dữ liệu mà chưa biết nên chuẩn bị những kỹ năng gì. Hồi mới ra trường mình cũng từng như vậy. Mình đã thực sự bị ngợp khi có quá nhiều thứ mình chưa biết và mình cũng không biết nên bắt đầu từ đâu. Vì vậy, mình viết bài này với mong muốn chia sẻ một chút hiểu biết của mình về những kỹ năng cần thiết trong ngành khoa học dữ liệu, hy vọng có thể giúp các bạn chuẩn bị bước chân vào ngành này có một định hướng tốt hơn.

Kỹ năng công nghệ

Trong khoa học dữ liệu, mỗi công việc sẽ tập trung vào xây dựng và phát triển một sản phẩm nhất định và đòi hỏi những kỹ năng khác nhau. Dưới đây là bảng tổng hợp những kỹ năng công nghệ (technical skills) cần thiết và mức độ quan trọng của nó cho một số công việc phổ biến để các bạn tham khảo:

Chuyên viên phân tích (Data Analyst)

Chuyên viên phân tích có trách nhiệm phân tích dữ liệu với mục tiêu giúp doanh nghiệp theo dõi tiến độ kinh doanh và chỉ ra những vấn đề cần được cải thiện trong các mảng khác nhau như quảng cáo, bán hàng, vận hành,… Công việc chính sẽ xoay quanh việc lấy dữ liệu, phân tích và vẽ đồ thị hoặc tạo bảng giao diện số (dashboards).

Một số ví dụ về công việc của chuyên viên phân tích:

  • Lập báo cáo về kết quả bán hàng của doanh nghiệp trong 6 tháng đầu năm để tìm ra nhóm sản phẩm bán chạy nhất và kém nhất.
  • Tạo bảng giao diện số để theo dõi hiệu quả của các kênh quảng cáo khác nhau (báo chí, truyền hình, mạng xã hội,…).

Một số công việc tương tự: Business Analyst (chuyên viên phân tích kinh doanh), Business Intelligence (tạm dịch: chuyên viên trí tuệ doanh nghiệp).

Lập trình xử lý dữ liệu (Data Programing)

Đây là khả năng làm việc với dữ liệu như trích xuất, lọc bớt, chuyển đổi dữ liệu,… Công việc nào trong khoa học dữ liệu cũng cần kỹ năng này vì trước khi nghĩ đến chuyện phân tích hay phát triển sản phẩm, bạn phải có dữ liệu đã.

Một số công cụ phổ biến được sử dụng: SQL, Excel, Spark, Python,…

Mô tả dữ liệu bằng hình ảnh (Visualization)

Đây là khả năng biểu diễn số liệu bằng đồ thị trực quan, tạo ra báo cáo và bảng giao diện số. Mình thấy kỹ năng này hay bị đánh giá thấp vì nó không quá phức tạp. Nhưng thực ra nó rất quan trọng trong việc làm báo cáo, phân tích dữ liệu của Data Analyst hay Data Scientist.

Một số công cụ phổ biến được sử dụng: Excel, Python, R, Tableau, Microsoft Power BI,…

Xác suất thống kê (Probability & Statistics)

Đây là khả năng phân tích các mối liên hệ giữa các yếu tố với nhau rồi từ đó đánh giá và tối ưu chiến lược kinh doanh. Ví dụ như ước tính việc giảm giá bán 10% thì doanh thu tăng hay giảm bao nhiêu %? Độ tin cậy như thế nào?

Một số công cụ phổ biến được sử dụng: R, Python,…

Học máy (Machine Learning)

Kỹ năng này là sự hiểu biết về ưu nhược điểm của các thuật toán khác nhau và khả năng xây dựng các mô hình học máy dựa trên các thuật toán đó. Hiện nay thì có rất nhiều thư viện hỗ trợ việc xây dựng mô hình học máy rồi nên sẽ tốt hơn nếu bạn hiểu thuật toán bạn đang dùng và biết khi nào thì dùng thuật toán đó cho phù hợp.

Một số công cụ phổ biến được sử dụng: R, Python,…

Lập trình phần mềm (Software Engineering)

Lập trình phần mềm là khả năng phát triển các phần mềm và ứng dụng. Đây là một kỹ năng rất cần thiết cho Data Engineer và Machine Learning Engineer khi mà họ thường xuyên phải tham gia vào việc triển khai phần mềm trong doanh nghiệp.

Một số công cụ phổ biến được sử dụng: Java, Python,…

Kỹ năng mềm

Bên cạnh kỹ năng công nghệ thì kỹ năng mềm cũng rất quan trọng để làm tốt các công việc trong khoa học dữ liệu. Kỹ năng mềm thường ít được nhắc đến hơn nhưng chắc chắn là một điểm cộng trong mắt các nhà tuyển dụng. Dưới đây là một số kỹ năng mềm mình cho là cần thiết.

Cảm nhận tốt về dữ liệu (Data Intuition)

Cảm nhận tốt về dữ liệu là khả năng đánh giá chất lượng của dữ liệu và đánh giá xem bạn đã có đủ dữ liệu cho vấn đề đang cần được giải quyết hay chưa.

Sự nhạy bén trong kinh doanh (Business Acumen)

Đây là khả năng nắm bắt cách vận hành của doanh nghiệp và đánh giá được tầm ảnh hưởng của các giải pháp/ chiến lược khác nhau đối với công việc kinh doanh.

Khả năng giao tiếp (Communication Skill)

Kỹ năng giao tiếp là khả năng truyền đạt và giải thích mạch lạc kết quả của việc phân tích dữ liệu. Điều này đặc biệt quan trọng khi bạn cần phải trình bày kết quả của những thuật toán phức tạp cho đồng nghiệp, sếp hoặc đối tác.

Bạn nên bắt đầu từ đâu?

Định hướng

Trước hết bạn nên tìm hiểu thêm thông tin để xác định công việc trong khoa học dữ liệu mà bạn thấy hứng thú nhất. Tốt nhất là bạn hỏi trực tiếp những người đã có kinh nghiệm trong mảng này để có cơ hội hỏi sâu hơn. Còn mấy thông tin trên mạng (kể cả blog này) chỉ mang tính tham khảo thôi nhé.

Bổ sung kỹ năng còn thiếu

Sau khi xác định được mục tiêu rồi thì dễ thôi, bạn thiếu kỹ năng gì thì học kỹ năng đấy. Bạn có thể lựa chọn các nguồn tài liệu như sách, forum, blog hay các khóa học online và offline. Khi mới bắt đầu tự học sâu hơn về khoa học dữ liệu, mình học được nhiều nhất từ cuốn sách The element of statistical learning, khóa học online Machine LearningCoursera và forum Kaggle.

Dự án cá nhân

Bên cạnh đó, bạn nên làm một vài dự án cá nhân (side project) để luyện tập và áp dụng kiến thức mình đã học (học đi đôi với hành mà). Bạn có thể chọn một chủ đề nào đấy mà bạn thấy hứng thú, hoặc tham khảo một số ý tưởng dưới đây:

  • Lấy dữ liệu và làm báo cáo về những kỹ năng cần thiết cho vị trí Data Scientist
  • Xây dựng mô hình tính độ phù hợp giữa tin tuyển dụng (job description) và hồ sơ ứng viên (resume)
  • Tạo trợ lý ảo có khả năng nhận diện khuôn mặt và giọng nói cơ bản (cơ bản thôi chứ không cần phức tạp như Jarvis trong Iron Man đâu nhé)

Dù làm dự án nào, bạn cũng nên tóm tắt lại quá trình xây dựng, tìm tòi và kết quả của dự án để phần nào rèn luyện khả năng tổng hợp và diễn đạt. Sau đó, bạn có thể lưu lại trên một dịch vụ lưu trữ trên web nào đó (ví dụ như GitHub) nhằm dễ dàng chia sẻ hoặc tham khảo lại trong tương lai.

Ngoại ngữ

Viết đến đây thì mình nhận ra có một kỹ năng khác rất quan trọng là khả năng sử dụng ngoại ngữ. Dù sao thì khoa học dữ liệu là một ngành mới, các nguồn tài liệu tiếng Việt đã bắt đầu xuất hiện nhưng vẫn còn khá ít. Việc biết ngoại ngữ, đặc biệt là tiếng Anh, sẽ giúp bạn tiếp cận với nguồn kiến thức rộng lớn hơn rất nhiều. Không những thế, thành thạo ngoại ngữ còn có thể mở ra cho bạn rất nhiều cơ hội nghề nghiệp trong tương lai, không chỉ tại Việt Nam mà còn ở nhiều nước khác.

Tạm kết

Về cơ bản, các kỹ năng mình kể trên đều có tầm quan trọng nhất định. Tuy nhiên, tùy vào định hướng của mình mà bạn nên tự sắp xếp để dành ra thời gian, công sức cho phù hợp với từng kỹ năng khác nhau. Nếu bạn mới bắt đầu chuyển sang ngành khoa học dữ liệu, hãy chọn một vị trí gần với kinh nghiệm và kỹ năng của bạn nhất. Ví dụ nếu bạn được đào tạo về công nghệ thông tin hay lập trình thì bạn có thể chọn Data Engineer hoặc Machine Learning Engineer. Còn nếu bạn bắt đầu từ con số không, thì hãy hướng tới Data Analyst đầu tiên, tích lũy thêm kiến thức, kinh nghiệm rồi thử sức với Data Scientist.

Nếu bạn thấy khoa học dữ liệu thú vị thì còn chờ gì nữa, bắt đầu thôi!

Leave a comment