30.4.16

Làm thế nào để trở thành một nhà khoa học dữ liệu


LÀM THẾ NÀO ĐỂ TRỞ THÀNH MỘT NHÀ KHOA HỌC DỮ LIỆU

Bill Vorhies[*]
Tôi bắt đầu bước chân vào lĩnh vực khoa học dữ liệu đã lâu. Tôi đã trở thành người mô hình hóa các dự báo thương mại từ năm 2001, và do xu hướng đặt tên đã thay đổi nên giờ đây tôi xác định bản thân mình như một nhà khoa học dữ liệu. Không ai trao cho tôi danh hiệu này. Nhưng thông qua việc xem xét các tài liệu, các danh sách công việc và các đồng nghiệp của tôi trong lĩnh vực này đã cho thấy rằng tên gọi nhà khoa học dữ liệu truyền đạt rõ ràng nhất những kiến thức và kinh nghiệm gì của tôi đã khiến tôi trở thành nhà khoa học dữ liệu.
Ngày nay, bạn có thể nhận được một bằng cấp về khoa học dữ liệu, do đó bạn đưa bằng cấp của mình ra để xác nhận lĩnh vực chuyên môn của bạn. Nhưng những điều này cũng tương đối mới, với tất cả sự tôn trọng, nếu bạn chỉ mới nhận bằng cấp của mình gần đây thì bạn vẫn là một người mới bắt đầu. Những người trong chúng ta sử dụng danh hiệu này ngày nay rất có thể bắt nguồn từ sự kết hợp giữa những nền tảng kinh doanh, khoa học chính xác, khoa học máy tính, vận trù học, với thống kê.
Bill Vorhies
Bạn tự nhận mình là ai là một chuyện, còn người thuê bạn hay người mà khách hàng của bạn đang tìm kiếm rất có thể là một chuyện khác. Nhiều tài liệu viết về những nhà khoa học dữ liệu, người mà việc tìm thấy cũng khó như tìm thấy các con kì lân. Không thật sự là một con kì lân, tôi muốn nói điều này thiết lập một chuẩn mực khá cao. Bên cạnh đó, tôi đã nghiên cứu kĩ các danh sách công việc và thấy rằng danh hiệu này được sử dụng quá mơ hồ, và với sự hiểu biết hạn hẹp, một mẫu tuyển dụng nhà khoa học dữ liệu lại mô tả công việc như của một nhà phân tích ở mức nhập dữ liệu, ngược lại vài mẫu tuyển dụng các nhà phân tích thì có vẻ như đang tìm kiếm các nhà khoa học dữ liệu uyên bác.
Tất cả sự lộn xộn này vượt qua danh hiệu mà chúng ta được gọi, và những gì chúng tôi thực sự làm có thể khiến cho bạn rơi vào trạng thái tâm thần phân liệt. Điều này khiến cho việc trả lời những câu hỏi mà tôi thường nhận được từ những bạn sinh viên hay từ những người mới vào nghề rằng làm thế nào để trở thành một nhà khoa học dữ liệu càng thêm phức tạp.
Hãy tưởng tượng sự ngạc nhiên và vui sướng của tôi khi chỉ trong vòng một tuần tôi bất ngờ đọc được 2 ấn phẩm. Chúng không chỉ mang đến cho tôi luồng sáng mới và sự hiểu biết về câu hỏi này mà còn giúp tôi hiểu rằng không chỉ có duy nhất một định nghĩa về nhà khoa học dữ liệu, mà  có một luận cứ chặt chẽ (dựa trên phân tích thống kê) rằng trong thực tế có đến 4 kiểu.
Bốn kiểu nhà khoa học dữ liệu
Thông tin ở đây xuất phát từ bài “Phân tích các nhà phân tích” (Analyzing the Analyzers) của Harris, Murphy, and Vaisman (2013) đăng trên trang O’Reilly. Tôi nể phục những đồng nghiệp này về khảo sát sâu của họ và về những kết luận được đưa ra bởi phân tích thống kê của những kết quả đó. Đây là một bài phải đọc. Tôi có thể download miễn phí ở trang  http://www.oreilly.com/data/free/analyzing-the-analyzers.csp.
Phân tích tốt này có 40 trang nên dưới đây cũng chỉ là một bản tóm tắt ở mức độ cao nhất. Tóm lại, họ kết luận rằng có 4 kiểu nhà khoa học dữ liệu, các kiểu nhà khoa học dữ liệu này không khác nhiều về chiều rộng của kiến thức, vốn tương tự nhau, nhưng chiều sâu của lĩnh vực chuyên môn thì khác nhau, và cách mỗi kiểu thích tương tác với những vấn đề khoa học dữ liệu như thế nào cũng khác nhau.
1.   Các nhà kinh doanh dữ liệu.
2.   Các nhà sáng tạo dữ liệu.
3.   Các nhà phát triển dữ liệu.
4.   Các nhà nghiên cứu dữ liệu.
Từ việc đánh giá 22 kĩ năng riêng biệt và những báo cáo tự đánh giá gồm nhiều phần (multi-part self-identification statements) họ đã kết luận và khái quát hóa theo những mô tả này. Tôi dám chắc rằng bạn sẽ nhận ra chính mình thuộc một trong các kiểu này.
Nhà kinh doanh dữ liệu (data businesspeople) là những người tập trung nhất vào tổ chức và làm thế nào để những dự án dữ liệu mang lại lợi nhuận. Họ thường hay đánh giá mình cao như là nhà lãnh đạo và nhà khởi nghiệp, và có nhiều khả năng báo cáo là từng quản lí một nhân viên. Họ cũng khá thường thực hiện hợp đồng hay công việc tư vấn, và một tỉ lệ đáng kể bắt đầu một công việc kinh doanh. Mặc dù trong số những người được khảo sát, họ hiếm khi có một bằng cấp cao, hầu như họ đều có bằng MBA. Nhưng các nhà kinh doanh dữ liệu chắc chắn có kĩ năng kĩ thuật và đặc biệt thường có bằng kĩ sư trình độ đại học. Và họ làm việc với dữ liệu thực - ít nhất khoảng 90% báo cáo thỉnh thoảng họ mới làm việc với các vấn đề ở quy mô gigabyte (GB).
Các nhà sáng tạo dữ liệu (data creatives). Các nhà khoa học dữ liệu có thể thường giải quyết toàn bộ quá trình phân tích từ đầu đến cuối theo cách thức riêng của họ: từ trích dữ liệu, đến tổng hợp và phân lớp dữ liệu, đến trình bày các phân tích dưới dạng thống kê hay các dạng tiên tiến khác, đến tạo ra cách diễn giải và sự hình dung thuyết phục, đến xây dựng các công cụ khiến cho sự phân tích có khả năng phát triển và ứng dụng rộng rãi. Tôi nghĩ các nhà sáng tạo dữ liệu (Data Creatives) là khái quát nhất của các nhà khoa học dữ liệu, họ là những người xuất sắc trong việc ứng dụng một loạt các công cụ và kĩ thuật cho một vấn đề, hay tạo ra các nguyên mẫu sáng tạo tại các cuộc thi lập trình (hackathons ) - một ví dụ hoàn hảo cho câu cái gì cũng biết (Jack of All Trades). Họ có kinh nghiệm học thuật đáng kể, với khoảng ba phần tư có tham gia giảng dạy và các bài báo được báo cáo. Phổ biến là trình độ đại học trong các lĩnh vực như Kinh tế học và Thống kê. Hiếm khi các nhà sáng tạo dữ liệu (Data Creatives) có bằng PhD. Là nhóm thường xác định như một Hacker, họ cũng có kinh nghiệm mã nguồn mở sâu nhất (deepest Open Source experience), với khoảng một nửa đóng góp vào các dự án phần mềm nguồn mở (OSS) và một nửa làm việc trên các dự án dữ liệu mở (Open Data projects).
Nhà phát triển dữ liệu (data developer). Chúng tôi nghĩ rằng các nhà phát triển dữ liệu là những người tập trung vào các vấn đề kỹ thuật của dữ liệu quản lý - làm thế nào để có được nó, lưu nó, và học hỏi từ nó. Các nhà phát triển dữ liệu của chúng ta có xu hướng đánh giá mình khá cao như các nhà khoa học, mặc dù không cao như các nhà nghiên cứu dữ liệu (Data Researchers). Điều này có ý nghĩa đặc biệt đối với những người tích hợp chặt chẽ với Học Máy (Machine Learning) và cộng đồng học thuật có liên quan. Nhà phát triển dữ liệu rõ ràng viết code trong công việc hằng ngày của họ. Khoảng một nửa trong số họ có bằng khoa học máy tính hay kĩ sư máy tính. Các nhà phát triển dữ liệu có nhiều đất sống hơn trong lĩnh vực Học Máy (Machine Learning) / nhóm kĩ năng dữ liệu lớn (big data) so với các kiểu khác của nhà khoa học dữ liệu.
Các nhà nghiên cứu dữ liệu (data researchers). Một trong những con đường nghề nghiệp thú vị dẫn đến danh hiệu “nhà khoa học dữ liệu” bắt đầu với nghiên cứu học thuật trong các ngành khoa học vật lý hay xã hội, hoặc trong ngành thống kê. Nhiều tổ chức đã nhận ra giá trị của việc đào tạo có tính học thuật sâu trong việc sử dụng các dữ liệu để hiểu các quá trình phức tạp, dù là lĩnh vực kinh doanh của họ có thể khác biệt khá nhiều so với các lĩnh vực khoa học cổ điển. Phần lớn những người có nhóm kĩ năng về thống kê tốt nhất trong số những người được khảo sát đều rơi vào hạng mục này. Gần 75% các nhà nghiên cứu dữ liệu đã có công trình công bố trên tạp chí có bình duyệt và hơn một nửa trong số họ có bằng PhD.
Điều này có nghĩa gì đối với những người cố gắng để tham gia lĩnh vực.
Bởi vậy, nếu tôi là một người trẻ tìm cách gia nhập vào khoa học dữ liệu thì những mô tả này sẽ hữu ích đối với tôi như thế nào? Điều đó có thể rằng, bạn có thể đào tạo và phát triển một thế mạnh, cái mà sẽ dẫn bạn đến với vai trò của nhà nghiên cứu, nhà phát triển, hoặc nhà sáng tạo. Thường thì hiếm khi chỉ riêng giáo dục sẽ đưa bạn trở thành nhà kinh doanh dữ liệu, điều này hàm ý phải có kinh nghiệm trong kinh doanh, chứ không chỉ giáo dục. Nhưng đây là điều thú vị. Theo Harris, Murphy và Vaisman, nó không phải là những kỹ năng khác nhau, mà là cách chúng ta lựa chọn để nhấn mạnh chúng trong cách tiếp cận của chúng ta về các vấn đề khoa học dữ liệu. Biểu đồ của họ như bên dưới.
Các kỹ năng đều giống nhau nhưng sự nhấn mạnh chúng ta đặt trên chúng khác nhau. Có lẽ cách tốt hơn để diễn tả điều này là bạn thích trải qua một ngày của mình như thế nào? Lập trình, làm việc trong học máy (machine learning) (thống kê), phân tích và giải quyết các câu hỏi kinh doanh? Câu trả lời của bạn khi bạn mới bước vào khóa học có thể khác với câu trả lời khi bạn đã tham gia khóa học được vài năm, và điều đó là bình thường. Tuy nhiên, bạn biết rằng nếu bây giờ bạn nhận mình là một nhà nghiên cứu dữ liệu thì bạn cần phải tập trung vào các kỹ năng thống kê. Nếu bạn xác định như là một nhà sáng tạo d liệu hoặc nhà phát triển dữ liệu thì lập trình và ML/Big Data là một sự nhấn mạnh thích hợp. Và khi bạn có được kinh nghiệm và hiểu rằng mình hạnh phúc hơn khi là một thành viên trong nhóm hay một nhà lãnh đạo doanh nghiệp, bạn có thể thay đổi quan điểm của bạn đối với khả năng sinh lời của dự án và giải pháp cho các vấn đề kinh doanh.
Ở đâu, dữ liệu lớn phù hợp trong tất cả điều này?
Cá nhân tôi yêu dữ liệu lớn (big data). Nhưng tôi thực sự yêu thích nó vì nó đưa đến những phân tích dự báo. Nếu bạn vẽ một giản đồ Venn của dữ liệu lớn (big data) và những phân tích dự báo thì sẽ có một sự trùng lặp lớn nhưng không hoàn toàn. Có những lĩnh vực của dữ liệu lớn (big Data) thuần túy có tính thao tác và không thuộc phạm vi khoa học dữ liệu. Lấy ví dụ như việc sử dụng các cơ sở dữ liệu NoSQL như các cơ sở dữ liệu hoạt động cấp nguồn cho những trò chơi trực tuyến dành cho rất nhiều người chơi. Không có phân tích gì ở đây. Chỉ vậy là xong. Tương tự như vậy có rất nhiều phạm vi trong phân tích dự báo không dính dáng gì đến dữ liệu lớn (big data).
Tuy nhiên, không có lý do gì mà chúng ta không nên tìm hiểu về dữ liệu lớn (big data) trên con đường trở thành nhà khoa học dữ liệu của chúng ta. Chỉ không mong đợi để thấy nó quá nhiều trong đời sống công việc của bạn, trừ khi bạn đang tham gia sâu vào việc sử dụng những trang web lớn giống như Amazon hay Facebook.
Một lần nữa, nhờ Harris, Murphy, và Vaisman chúng ta có thể thấy được các nhà khoa học dữ liệu ngày nay làm việc ở cấp độ Petabyte (PB)và Terabyte (TB) thường xuyên như thế nào.
Câu trả lời không hề rất thường xuyên tí nào. Cơ sở dữ liệu NoSQL như Mongo đang đạt được sức hút như cách để pha trộn dữ liệu giao dịch và dữ liệu không có cấu trúc và có thể là tương lai. Nhưng thẳng thắn mà nói, về mặt dung lượng, các nhà khoa học dữ liệu thường được làm việc ở quy mô dữ liệu bình thường, chứ không phải dữ liệu lớn (big data).
Những công cụ và ngôn ngữ nào quan trọng nhất?
Tài liệu thứ hai mà tôi bất ngờ đọc là blog của Robert A. Muenchen, The Popularity of Data Analysis Software” (“Sự phổ biến của Phần mềm phân tích dữ liệu”). Bài này có thể được tìm thấy tại r4stats.com và là một bài nữa phải đọc. Cái khác biệt giữa bài viết này với các bài báo so sánh khác là những phân tích rộng và sâu.  Muenchen sử dụng 13 loại phân tích riêng biệt để đánh giá thị phần và mức độ phổ biến và mức tín nhiệm của mình,  không cố gắng để làm tương thích các kết quả mà có thể là khá khác nhau tùy theo nguồn. Như ông nói, đây là danh sách các thước đo “gần đúng theo thứ tự tính hữu ích”.
1. Những mẫu tuyển dụng (Job Advertisements)
2. Những bài báo học thuật (Scholarly Articles)
3. Những cuốn sách (books)
4. Sự phổ biến website (Website Popularity)
5. Các blog (blogs)
6. Các cuộc điều tra sử dụng (Surveys of Use)
7. Hoạt động diễn đàn thảo luận (Discussion Forum Activity)
8. Hoạt động lập trình (Programming Activity)
9. Các thước đo phổ biến (Popularity Measures)
10. Các báo cáo doanh nghiệp nghiên cứu CNTT (IT Research Firm Reports)
11. Doanh thu và thước đo tải về (Sales or Download Measures)
12. Sử dụng cạnh tranh (Competition Use)
13. Tăng trưởng quy mô (Growth in Capability)
Nếu bạn đã là một học viên trong một thời gian thì hộp công cụ của bạn có lẽ đã được xác định khá tốt. Trường hợp này là thực sự hữu ích trong việc trả lời các câu hỏi của những người mới gia nhập vào lĩnh vực khoa học dữ liệu rằng “những gì tôi nên học cho hữu ích?”
Điều này sẽ không can ngăn bạn sử dụng SPSS, SAS, R, hay Python nhưng nó sẽ cho bạn thấy một số xu hướng thú vị. Một lần nữa, bạn sẽ phải đọc blog vì nó quá phong phú về nội dung và nó để cho người đọc đánh giá những kết quả mà đôi khi có vẻ mâu thuẫn. Tuy nhiên, nếu tôi đã cố gắng để trả lời câu hỏi “cái gì tôi nên học” tôi sẽ xem xét ít nhất hai đồ thị những từ blog của Muenchen.
Kể từ khi nhận một công việc, trước khi bạn quan tâm đến việc đầu tư cho giáo dục thì bạn nên nhìn vào toàn bộ danh sách công việc đòi hỏi những kỹ năng phần mềm phân tích cụ thể như là một thứ để mở rộng tầm mắt.
Tương tự như vậy, biểu đồ này dựa trên cuộc điều tra việc sử dụng dữ liệu đưa ra một cái nhìn rất sâu về những gì các nhà khoa học dữ liệu đang sử dụng ngày nay.

Tôi sẽ không cố gắng để trả lời câu hỏi, “tôi nên học cái gì” hay khác hơn là nói rõ Java, R hay Python, SAS hay SPSS? Thành thật mà nói, nhiều khả năng là những gì giáo sư của bạn muốn bạn sử dụng thường là để chứng tỏ một nhà khoa bảng xử lí một phần mềm sẵn có của người bán nó như thế nào.
R hay Python? Tôi không đụng chạm đến vấn đề này ngoại trừ một điều để nói rằng có một biểu đồ thú vị ngụ ý rằng Python đang tăng tốc trước R.
Nếu bạn đang tìm kiếm câu trả lời cho câu hỏi làm thế nào để trở thành một nhà khoa học dữ liệu và những gì bạn nên học, suy nghĩ về điều này như thách thức đầu tiên của bạn. Nghiên cứu tài liệu gốc và rút ra kết luận của riêng bạn. Tôi thấy hạnh phúc khi những tác giả này đã cùng đưa các tài liệu này và hy vọng chúng tiếp tục được cập nhật trong tương lai.
Nguyễn Minh Cao Hoàng dịch
Nguồn: HOW TO BECOME A DATA SCIENTIST, Data-Magnum, August 26, 2014.




[*] Bill Vorhies là Giám đốc kiêm Nhà Khoa học dữ liệu trưởng tại Data-Magnum. Ông đã làm việc như một nhà khoa học dữ liệu và người mô hình hóa các dự báo thương mại từ năm 2001. Chúng ta có thể liên hệ với ông tại: Bill@Data-Magnum.com.

Print Friendly and PDF