PHÂN TÍCH KINH TẾ: Dữ liệu lớn: có phải chúng ta đang lầm to?

19.4.16

Dữ liệu lớn: có phải chúng ta đang lầm to?

Tim Harford

Dữ liệu lớn là thuật ngữ mơ hồ chỉ một hiện tượng có quy mô đồ sộ đã nhanh chóng trở thành mối quan tâm thường trực của các chủ doanh nghiệp, các nhà khoa học, các chính phủ và giới truyền thông.

Cách đây năm năm, một nhóm các nhà nghiên cứu của Google đã công bố một kết quả nghiên cứu đáng chú ý trên tạp chí Nature, một trong các tạp chí khoa học hàng đầu thế giới. Không cần sử dụng đến kết quả của bất cứ chương trình khám sức khỏe nào, ấy vậy mà họ vẫn có thể theo dõi được sự lây lan của dịch cúm trên khắp nước Mỹ. Không chỉ vậy, họ còn có thể làm được điều này nhanh hơn cả các Trung Tâm Kiểm Soát và Phòng Ngừa Dịch Bệnh (Centers for Disease Control and Prevention – CDC). Google lần theo dấu vết và báo cáo kết quả chỉ sau một ngày, trong khi CDC phải mất một tuần hoặc lâu hơn để tổng hợp tình hình dựa trên báo cáo của các phòng mạch. Google đã nhanh hơn vì nó theo dõi sự bùng phát của dịch cúm bằng cách lần ra sự tương quan giữa nội dung người ta tìm kiếm trực tuyến và triệu chứng nhiễm cúm của người tìm.

“Google Flu Trends” (Công cụ dự báo dịch cúm của Google) không những nhanh, chính xác và rẻ tiền, mà lại không bị chi phối bởi lý thuyết nào cả. Các kỹ sư của Google đã không phải bận tâm xây dựng giả thuyết về từ khóa nào – “các triệu chứng cúm” hay “các hiệu thuốc gần nhà” - có thể tương quan với sự lây lan của dịch bệnh. Nhóm kỹ sư của Goolge chỉ chọn ra 50 triệu từ khóa phổ biến nhất và phần việc còn lại do các thuật toán đảm nhiệm.

Sự thành công của Google Flu Trends đã trở thành biểu trưng cho một xu hướng mới nổi bật trong kinh doanh, công nghệ và khoa học: “Dữ liệu lớn”. Các nhà báo phấn khởi hỏi rằng: Giới khoa học có thể học được gì từ Google?

So với nhiều thuật ngữ thời thượng, “dữ liệu lớn” là một thuật ngữ mơ hồ, thường được giới kinh doanh bàn tán đến. Một số người nhấn mạnh quy mô đồ sộ của các bộ dữ liệu hiện hữu – ví dụ như hệ thống máy tính của máy gia tốc hạt lớn (LHC hay Large Hadron Collider) lưu trữ 15 petabytes dữ liệu mỗi năm, tương đương với dung lượng của kho nhạc yêu thích của bạn được tải trong 15.000 năm.

Nhưng loại “dữ liệu lớn” đang thu hút sự quan tâm của nhiều công ty có thể được xem là “dữ liệu tìm được” từ các tập tin kỹ thuật số do các trình duyệt tạo ra chúng ta khi lướt web, từ các giao dịch thanh toán bằng thẻ tín dụng và từ các thiết bị di động kết nối với cột ăngten điện thoại gần nhất. Google Flu Trends được xây dựng trên nền tảng các dữ liệu tìm được và chính loại dữ liệu này mới là loại tôi quan tâm ở đây. Các bộ dữ liệu như vậy thậm chí còn lớn hơn dữ liệu của LHC – dữ liệu của Facebook là dữ liệu lớn – nhưng điều đáng chú ý chính là việc thu thập loại dữ liệu này không mấy tốn kém khi xét trong tương quan với quy mô của chúng. Các bộ dữ liệu lớn là sự chấp nối lộn xộn các đơn vị dữ liệu được thu thập cho nhiều mục đích khác nhau và được cập nhật liên tục theo thời gian thực. Khi hoạt động truyền thông, giải trí và thương mại được đẩy lên internet và internet được tích hợp trên điện thoại, trong xe hơi và thậm chí trên kính đeo mắt của chúng ta, cuộc sống có thể được lưu lại và được phân tích theo cách thức mà chỉ cách đây một thập kỷ thôi con người khó lòng mà hình dung ra.

Những người cổ vũ cho dữ liệu lớn đã đưa ra bốn tuyên bố khẳng định thú vị, tuyên bố nào cũng mang lại thành công của Google Flu Trends: thứ nhất, việc phân tích dữ liệu lớn tạo ra các kết quả chính xác đến kỳ lạ; thứ hai, có thể nắm bắt không sót một đơn vị dữ liệu nào, khả năng này khiến cho kỹ thuật thống kê chọn mẫu truyền thống trở nên lỗi thời; thứ ba, không còn phải băn khoăn đâu là nhân đâu là quả nữa, bởi vì sự tương quan về mặt thống kê sẽ cho chúng ta biết những gì chúng ta cần biết; và thứ tư, các mô hình khoa học hay các mô hình thống kê không còn cần thiết nữa vì “khi có đủ dữ liệu trong tay, các con số sẽ nói lên tất cả” (nội dung trong ngoặc kép được trích trong bài “The End of Theory” (Sự Cáo Chung Của Lý Thuyết), một bài luận đầy khiêu khích đăng trên Wired năm 2008.

Chẳng may, trong tình huống tốt nhất thì bốn tuyên bố khẳng định trên mang lại sự giản tiện hóa cao độ khả quan. Trong hình huống xấu nhất, theo David Spiegelhalter, Giáo Sư Winton nghiên cứu Hiểu Biết của Công Chúng về Rủi Ro tại Đại học Cambridge, thì dữ liệu lớn có thể là “thứ rác rưởi đơn thuần. Hoàn toàn vô nghĩa.”

Dữ liệu tìm được hình thành nên cơ sở vững chắc cho nền kinh tế internet mới khi các công ty như Google, Facebook và Amazon tìm kiếm những phương cách mới nhằm hiểu thấu cuộc sống của chúng ta thông qua các dấu vết được lưu lại khi chúng ta lướt web. Kể từ khi Edward Snowden tiết lộ bí mật về quy mô và phạm vi hành vi theo dõi của Hoa Kỳ bằng các thiết bị điện tử, chúng ta càng thấy rõ các dịch vụ an ninh cũng chỉ quan tâm đến những thông tin mà họ thu thập được từ các dấu vết chúng ta để lại khi lướt web mà thôi.

Edward Snowden (1983-)

Các chuyên gia tư vấn thúc giục những ai thờ ơ với dữ liệu cần phải tỉnh ngộ trước tiềm năng của dữ liệu lớn. Một báo cáo gần đây của Viện McKinsey Toàn Cầu đã ước lượng rằng hệ thống chăm sóc sức khỏe của Hoa Kỳ có thể tiết kiệm 300 tỷ USD mỗi năm – tức 1.000 USD tính bình quân trên mỗi công dân Hoa Kỳ - thông qua việc tích hợp và phân tích dữ liệu được sinh ra từ các thử nghiệm lâm sàng, các giao dịch bảo hiểm y tế cho đến các đôi giày chạy bộ thông minh.

Nhưng trong khi dữ liệu lớn hứa hẹn nhiều triển vọng dành cho các nhà khoa học, các doanh nhân và các chính phủ, thì chính dữ liệu lớn sẽ làm chúng ta thất vọng nếu chúng ta không quan tâm đến những bài học thống kê hết sức quen thuộc.

Spiegelhalter cho rằng: “Có rất nhiều vấn đề của dữ liệu nhỏ mà dữ liệu lớn cũng phải đối mặt”. “Các vấn đề đó không tiêu biến đi vì bạn có trong tay nhiều dữ liệu. Dữ liệu càng lớn, các vấn đề đó càng trầm trọng hơn.”

…

Bốn năm sau khi bài báo nguyên thủy được công bố trên tạp chí Nature, Bản Tin của tạp chí Nature đã loan báo một tin không hay: đợt bùng phát gần nhất của dịch cúm đã tấn công một nạn nhân bất ngờ: Google Flu Trends. Qua nhiều mùa đông cung cấp báo cáo chính xác và nhanh chóng về các đợt bùng phát của dịch cúm một cách đáng tin cậy, thì mô hình không bị chi phối bởi lý thuyết và có nguồn dữ liệu phong phú đã không còn đánh hơi được dịch cúm đang lan tới đâu. Mô hình của Google đã chỉ ra một đợt bùng phát dữ dội, nhưng khi dữ liệu chậm mà chắc của CDC đổ về thì người ta phát hiện ra rằng các ước lượng của Google về sự lây lan của những căn bệnh có vẻ như cúm đã bị khuếch đại lên gần như gấp 2 lần.

Kenneth Cukier

Vấn đề là Google không biết – không thể có sự khởi đầu để biết – điều gì đã tạo ra sự tương quan các từ khóa với sự lây lan của dịch cúm. Các kỹ sư của Google đã không cố gắng tìm hiểu đâu là nhân đâu là quả. Họ hầu như chỉ tìm ra các mô thức mang tính thống kê trong dữ liệu. Họ quan tâm đến tương quan hơn là nhân quả. Điều này khá phổ biến trong các phân tích sử dụng dữ liệu lớn. Xác định đâu là nhân đâu là quả không hề dễ dàng (một số người còn cho là bất khả). Xác định sự tương quan lại ít tốn kém và dễ dàng hơn. Theo nội dung cuốn sách “Big Data” của Viktor Mayer-Schönberger và Kenneth Cukier, đó chính là lý do tại sao “quan hệ nhân quả sẽ không bị vứt bỏ, nhưng lại đang bị hạ bệ, không còn được coi là cội nguồn của ý nghĩa nữa”.

Tuy nhiên, một phân tích chỉ chú trọng sự tương quan không dựa trên nền tảng lý thuyết rõ ràng là không bền vững. Nếu bạn không hiểu điều gì ẩn đằng sau sự tương quan, thì bạn sẽ không biết tại sao sự tương quan đó bị phá vỡ. Một cách lý giải cho sự thất bại của Flu Trends chính là các bản tin đầy rẫy các câu chuyện đáng sợ về dịch cúm vào tháng 12/2012 và những câu chuyện đó đã kích thích những người khỏe mạnh tìm kiếm thông tin trên internet. Một cách lý giải khác chính là thuật toán gợi ý tìm kiếm của Google đã dẫn dắt chệch mục tiêu khi Google bắt đầu đề xuất các chẩn đoán một cách tự động khi người ta nhập các triệu chứng bệnh vào.

Google Flu Trends sẽ phục hồi trở lại, sẽ được hiệu chuẩn lại bằng dữ liệu mới – và phải như vậy. Có nhiều lý do để vui mừng về các cơ hội lớn hơn được tạo ra cho chúng ta khi chúng ta dễ dàng thu thập và phân tích các bộ dữ liệu đồ sộ. Nhưng nếu chúng ta không rút ra được bài học gì từ sự cố này, chúng ta sẽ lại mắc sai lầm.

Các chuyên gia thống kê đã mất 200 năm để phát hiện những cạm bẫy chực chờ khi chúng ta tìm cách thấu hiểu thế giới bằng dữ liệu. Ngày nay, dữ liệu trở nên lớn hơn, nhanh hơn và rẻ hơn – nhưng chúng ta không được huyễn hoặc rằng các cạm bẫy giờ đây đã bị vô hiệu hóa. Cạm bẫy nguy hiểm vẫn chờ chực.

…

Alfred Landon (1887-1987)

F. D. Roosevelt (1882-1945)

Năm 1936, Alfred Landon thuộc Đảng Cộng Hòa đã ra tranh cử cùng Tổng thống Franklin Delano Roosevelt. The Literary Digest, một tạp chí uy tín, nhận lãnh trách nhiệm dự báo kết quả bầu cử. Tạp chí này đã thực hiện một cuộc thăm dò ý kiến dư luận hết sức tham vọng qua đường bưu điện, mục tiêu đặt ra là phải tiếp cận được 10 triệu người, chiếm ¼ toàn bộ lực lượng cử tri. Lượng thư phản hồi đổ về ào ạt ngoài sức tưởng tượng, nhưng Digest dường như thích thú với khối lượng công việc khổng lồ này. Vào cuối tháng 8, tạp chí đã tường thuật rằng: “Tuần sau, những phản hồi đầu tiên trong số 10 triệu thư phản hồi này sẽ khơi dòng cho luồng phiếu được đánh dấu, sẽ được kiểm tra 3 lần, được đối chiếu, được phân loại chéo 5 lần và được tổng hợp.”

Sau khi lập biểu thống kê 2,4 triệu phản hồi được gửi về trong hơn 2 tháng, một con số đáng kinh ngạc, tạp chí The Literary Digest đã công bố kết quả khảo sát của họ: Landon sẽ thắng với tỷ lệ thuyết phục 55% so với 41%, một số ít cử tri còn lại ủng hộ ứng viên thứ ba.

George Gallup (1901-1984)

Kết quả cuối cùng của cuộc bầu cử lại khác hoàn toàn: Roosevelt đã đè bẹp Landon với tỷ lệ 61% so với 37%. Sự đau đớn ê chề của tạp chí The Literary Digest chưa dừng lại ở đó, một cuộc điều tra có quy mô nhỏ hơn rất nhiều do George Gallup, một người tiên phong trong thăm dò dư luận, thực hiện đã có kết luận khá sát với kết quả bầu cử thực tế, dự báo được chiến thắng dễ dàng của Roosevelt. Ông Gallup đã nắm bắt được một số điều mà tạp chí The Literary Digest không biết. Nói đến dữ liệu, kích cỡ không quyết định tất cả.

Các cuộc thăm dò dư luận căn cứ trên các mẫu rút ra từ toàn bộ lực lượng cử tri. Điều này có nghĩa là những người thăm dò dư luận cần phải giải quyết 2 vấn đề: sai số khi lấy mẫu (sample error) và thiên lệch khi chọn mẫu (sample bias).

Sai số khi lấy mẫu thể hiện rủi ro, hoàn toàn ngẫu nhiên, mẫu được chọn ngẫu nhiên không phản ánh quan điểm thực của tổng thể. “Biên độ sai số” được báo cáo trong các cuộc thăm dò dư luận phản ánh rủi ro này và khi mẫu càng lớn thì biên độ sai số càng nhỏ. 1.000 cuộc phỏng vấn là một mẫu đủ lớn phục vụ được nhiều mục đích và ông Gallup cho biết ông đã thực hiện 3.000 cuộc phỏng vấn.

Nhưng nếu 3.000 cuộc phỏng vấn cho ra kết quả tốt, vậy thì tại sao 2,4 triệu cuộc phỏng vấn lại không có được kết quả sát hơn? Câu trả lời là sai số khi lấy mẫu có một người bạn hết sức nguy hiểm: thiên lệch khi chọn mẫu. Sai số khi lấy mẫu xuất hiện khi mẫu được chọn ngẫu nhiên không phản ánh được tổng thể một cách hoàn toàn ngẫu nhiên; thiên lệch khi chọn mẫu xuất hiện khi mẫu hoàn toàn không được chọn một cách ngẫu nhiên. George Gallup đã phải tốn nhiều công sức để tìm mẫu không bị chệch vì ông hiểu rằng có được mẫu không chệch quan trọng hơn mẫu lớn.

Tạp chí The Literary Digest, trong quá trình săn tìm bộ dữ liệu lớn hơn, đã vụng về chọn phải một mẫu bị chệch. Tạp chí này đã gửi biểu mẫu cho những người trong danh sách mà họ tập hợp được từ danh sách đăng kiểm xe hơi và từ danh bạ điện thoại – vào năm 1936 thì mẫu này gồm toàn những người giàu có so với mặt bằng chung. Sự thiên lệch càng trầm trọng hơn khi những người ủng hộ Landon có nhiều khả năng gửi thư phản hồi hơn. Sự cộng hưởng của hai thiên lệch này đủ kết liễu cuộc thăm dò của tạp chí The Literary Digest. Cứ mỗi người mà chuyên gia thăm dò ý kiến dư luận của George Gallup phỏng vấn, thì tạp chí The Literary Digest nhận được 800 thư phản hồi. Điều khiến họ đau đớn ê chề chính là việc họ ước lượng được một kết quả sai lầm cực kỳ chính xác.

V. M.-Schönberger (1966-)

Dữ liệu lớn đã tiếp tục đe dọa tạp chí The Literary Digest hết lần này đến lần khác. Do các bộ dữ liệu được tìm thấy rất lộn xộn, khó lòng mà phát hiện ra các thiên lệch ẩn núp bên trong – và do chúng quá đồ sộ, nên các chuyên gia phân tích dường như đã kết luận rằng vấn đề chọn mẫu không đáng lo. Đáng lo chứ.

Giáo sư Viktor Mayer-Schönberger đến từ Viện Internet của Oxford, đồng tác giả cuốn Big Data, đã nói với tôi rằng định nghĩa về dữ liệu lớn mà ông ưa thích chính là “N = Tất cả” – nghĩa là chúng ta không cần lấy mẫu nữa, chúng ta có toàn bộ tổng thể. Những người kiểm phiếu không ước lượng kết quả bầu cử bằng cách kiểm đếm đại diện: họ đếm phiếu bầu – tất cả phiếu bầu. Và khi “N = Tất cả” thì thực sự không hề có vấn đề thiên lệch khi chọn mẫu do mẫu bao gồm mọi quan sát.

Patrick J. Wolfe

Nhưng có phải “N = Tất cả” là mô tả phù hợp dành cho các bộ dữ liệu được tìm thấy mà chúng ta đang xét đến? Có lẽ là không. “Tôi sẽ thách thức quan niệm cho rằng người ta có thể có tất cả các dữ liệu”, lời của Patrick Wolfe, nhà khoa học máy tính và là giáo sư thống kê của trường Đại Học College London.

Lấy ví dụ trường hợp của Twitter. Về mặt nguyên tắc, mỗi một tin nhắn trên Twitter có thể được lưu lại và phân tích, và được sử dụng để rút ra kết luận về tâm tư nguyện vọng của công chúng. (Trong thực tế, hầu hết các nhà nghiên cứu chỉ sử dụng một tập con của cái “vòi rồng” dữ liệu khổng lồ đó mà thôi). Nhưng trong khi chúng ta có thể xem xét tất cả các dòng trạng thái, thì những người dùng Twitter lại không đại điện cho toàn bộ tổng thể. (Theo Dự Án Nghiên Cứu Internet của Pew, vào năm 2013, những người dùng Twitter cư trú ở Hoa Kì đa phần là người trẻ tuổi, sống ở thành thị hay ngoại ô, và da đen.)

Kaiser Fung

Phải luôn luôn đặt câu hỏi ai và cái gì còn thiếu sót, đặc biệt là khi sử dụng một đống lộn xộn dữ liệu được tìm thấy. Kaiser Fung, chuyên gia phân tích dữ liệu và là tác giả cuốn Numbersense (Ý Nghĩa Của Con Số), đưa ra cảnh báo khi chúng ta giả định một cách đơn giản rằng chúng ta có trong tay tất mọi thứ cần thiết. Ông cho rằng: “N = Tất cả” thường là một giả định chứ không là một sự kiện về dữ liệu”.

Xét trường hợp ứng dụng Street Bump của thành phố Boston trên điện thoại thông minh, ứng dụng này sử dụng gia tốc kế của điện thoại để phát hiện ra ổ gà mà không cần lực lượng nhân công của thành phố đi tuần tra các tuyến đường. Khi người dân Boston tải ứng dụng và lái xe lòng vòng, điện thoại của họ sẽ tự động báo cho Tòa Thị Chính biết liệu có cần phải tu sửa mặt đường hay không. Việc giải quyết các thách thức về mặt kỹ thuật có liên quan đã tạo ra các dấu vết giàu thông tin giúp khắc phục vấn đề một cách đẹp mắt mà người ta không thể mường tượng được ở thời điểm cách đây một vài thập kỷ. Thành phố Boston tự hào tuyên bố rằng “dữ liệu cung cấp cho thành phố thông tin được cập nhật mới liên tục, thành phố sử dụng thông tin này để khắc phục những bất ổn và hoạch định các dự án đầu tư dài hạn”.

Kate Crawford

Tuy nhiên, dữ liệu mà ứng dụng Street Bump thực sự tạo ra, được lưu lại trên các thiết bị có cài ứng dụng này, là sơ đồ ổ gà tập trung một cách có hệ thống ở những khu vực trẻ, giàu có, là nơi có nhiều người sở hữu điện thoại thông minh. Ứng dụng Street Bump cho chúng ta bộ dữ liệu lớn “N = Tất cả” theo nghĩa là ghi nhận lại từng cái xóc nảy của từng chiếc điện thoại có cài đặt ứng dụng. Việc này không giống như việc ghi nhận lại từng cái ổ gà. Kate Crawford, nghiên cứu viên của Microsoft, chỉ rõ rằng dữ liệu được tìm thấy ẩn chứa những thiên lệch mang tính hệ thống và phải thật cẩn trọng mới có thể phát hiện và khắc phục chúng. Các bộ dữ liệu lớn dường như có tính bao hàm nhưng “N = Tất cả” thường chỉ là sự huyễn hoặc quyến rũ.

…

Charles Duhigg (1974-)

Tuy nhiên, ai bận tâm đến quan hệ nhân quả hay sự thiên lệch khi chọn mẫu trong khi người ta có thể kiếm tiền từ dữ liệu lớn? Các tập đoàn trên khắp thế giới ắt hẳn là thèm nhỏ dãi khi họ chiêm ngắm thành công thần kỳ của chuỗi cửa hàng bách hóa Target của Mỹ, Charles Duhigg đã tường thuật thành công của Target bằng một bài viết đình đám đăng trên tờ The New York Times vào năm 2012. Duhigg lý giải rằng Target đã thu thập rất nhiều dữ liệu về khách hàng của họ, và Target rất tài tình khi phân tích bộ dữ liệu đó, và Target cực kỳ thấu hiểu khách hàng.

Giai thoại chết người của Duhigg là về một người đàn ông đã xông vào cửa hàng Target gần Minneapolis và phàn nàn với người quản lý về việc công ty gửi phiếu giảm giá mặt hàng quần áo trẻ sơ sinh và thời trang thai sản cho cô con gái tuổi teen của ông. Người quản lý đã xin lỗi rối rít và sau đó còn gọi điện xin lỗi thêm lần nữa – mục đích chỉ là muốn nghe người cha thú nhận rằng cô gái tuổi teen thực sự đang mang thai. Cha cô gái không biết con mình có thai. Target thì biết sau khi họ phân tích các giao dịch mua khăn giấy ướt không mùi và thuốc bổ sung magiê của cô gái.

Huyền thuật thống kê ư? Có một cách lý giải thực tế hơn.

Theo Kaiser Fung, người đã bỏ ra nhiều năm nghiên cứu phát triển các phương pháp tượng tự cho những nhà bán lẻ và các công ty quảng cáo, thì “Có rất nhiều vấn đề tưởng thật nhưng là sai lầm”. Ý Fung muốn nói là người ta đã không nhắc đến vô số các câu chuyện về những phụ nữ nhận phiếu giảm giá mặt hàng quần áo trẻ sơ sinh nhưng lại không đang mang thai.

Căn cứ vào các giai thoại, người ta dễ ngộ nhận rằng các thuật toán của Target không bao giờ sai – bất cứ ai nhận được phiếu giảm giá mặt hàng áo liền quần của trẻ sơ sinh và khăn giấy ướt đều đang mang thai. Rõ ràng không đúng. Thực tế, những phụ nữ đang mang thai nhận được phiếu giảm giá chỉ đơn giản vì Target đã gửi phiếu giảm giá đến toàn bộ khách hàng trong danh sách của họ. Trước tiên, chúng ta không nên đồng tình với suy nghĩ cho rằng Target sử dụng những nhân viên đọc được suy nghĩ của khách hàng rồi mới ngồi đếm xem mỗi lần trúng thì có mấy lần trật.

Theo cách lý giải của Charles Duhigg, Target xáo trộn các phiếu giảm giá ngẫu nhiên, ví dụ như phiếu giảm giá mặt hàng ly uống rượu, vì các khách hàng đang mang thai sẽ cảm thấy kinh sợ nếu họ nhận ra máy tính của công ty hiểu họ tường tận như thế nào.

Fung còn có một cách lý giải khác: Target xáo trộn các phiếu giảm giá không phải vì họ sợ gửi tập phiếu giảm giá toàn mặt hàng trẻ sơ sinh cho một phụ nữ đang mang thai nào đó mà vì công ty biết rằng trong số các tập phiếu giảm giá đó rốt cuộc sẽ có nhiều tập đến tay những người phụ nữ không đang mang thai.

Những cách lý giải trên không có ý phủ nhận giá trị của việc phân tích dữ liệu khách hàng: các phân tích kiểu như vậy có thể sinh ra lợi nhuận rất đáng kể. Thậm chí khi mức độ chính xác của việc gửi phiếu giảm giá đặc biệt có mục tiêu xác định gia tăng lên chút ít cũng là một thành tựu đáng để phấn đấu. Tuy nhiên, không nên kết hợp khả năng sinh lời với sự toàn tri.

John Ioannidis (1965-)

Năm 2005, John Ioannidis, chuyên gia dịch tễ học, đã công bố một bài nghiên cứu có tiêu đề rõ ràng đến mức không cần giải thích gì thêm, “Why Most Published Research Findings Are False” (“Tại sao hầu hết các kết quả nghiên cứu đều sai”). Bài nghiên cứu nổi đình nổi đám vì đã lột tả một vấn đề hệ trọng một cách đầy khiêu khích. Một trong các ý tưởng chủ chốt đằng sau công trình của Ioannidis chính là “vấn đề kiểm định nhiều giả thuyết” theo ngôn ngữ của các chuyên gia thống kê.

Khi khảo sát một mô thức trong dữ liệu, người ta thường đặt câu hỏi về khả năng mô thức đó xuất hiện một cách ngẫu nhiên. Nếu mô thức được quan sát ít có khả năng xảy ra một cách ngẫu nhiên, thì mô thức đó “có ý nghĩa thống kê”.

Vấn đề kiểm định nhiều giả thuyết xuất hiện khi một nhà nghiên cứu xem xét nhiều mô thức khả dĩ cùng một lúc. Xét một ví dụ về thực nghiệm ngẫu nhiên, theo đó người ta phát viatmin cho một số học sinh tiểu học, số khác được phát cho giả dược. Liệu rằng vitamin có tác dụng không? Câu trả lời hoàn toàn phụ thuộc vào việc chúng ta hiểu “tác dụng” là như thế nào. Các nhà nghiên cứu có thể nhìn vào chiều cao, cân nặng của trẻ, tỷ lệ sâu răng, hành vi trong lớp học, điểm kiểm tra, thậm chí là lý lịch tư pháp hoặc thu nhập khi 25 tuổi (chờ đến khi trẻ trưởng thành). Sau đó, có nhiều cách kết hợp để kiểm tra xem: vitamin có tác dụng đối với trẻ nghèo, trẻ giàu, trẻ trai, trẻ gái hay không? Việc kiểm định đầy đủ các tương quan khác nhau và các kết quả may ra mới trúng sẽ nhấn chìm mọi khám phá thực sự.

Có nhiều cách giải quyết nhưng vấn đề lại càng trầm trọng hơn đối với các bộ dữ liệu lớn, vì có nhiều giả thuyết để kiểm định hơn là có nhiều dữ liệu để kiểm định. Nếu không phân tích cẩn thận, tỷ lệ mô thức thực so với mô thức giả tạo – một dấu hiệu của nhiễu – sẽ nhanh chóng tiến về 0.

Tệ hại hơn nữa, một trong các liều thuốc giải đối với vấn đề nhiều giả thuyết là sự minh bạch, cho phép những nhà nghiên cứu khác xác định số lượng giả thuyết được kiểm định và số lượng kết quả trái ngược đang mòn mỏi đợi chờ trong các ngăn kéo vì chúng có vẻ không hấp dẫn để công bố rộng rãi. Nhưng, dữ liệu được tìm thấy hiếm khi được bạch hóa. Amazon và Google, Facebook và Twitter, Target và Tesco – những công ty này không sẵn sàng chia sẻ thông tin với bạn hay với bất kỳ ai khác.

David Spiegelhalter (1953-)

Các bộ dữ liệu mới, đồ sộ, rẻ tiền và các công cụ phân tích mạnh mẽ sẽ tạo ra tiền cổ tức – không ai nghi ngờ điều này. Và có một vài trường hợp việc phân tích dữ liệu lớn đã mang lại kết quả thần kỳ. David Spiegelhalter đến từ Cambridge đề cập đến Google Translate, một công cụ vận hành bằng cách phân tích thống kê hàng trăm triệu tài liệu đã được con người chuyển ngữ và tìm kiếm mô thức mà nó có thể sao chép. Đây là ví dụ về “máy học người” (machine learning) theo ngôn ngữ của các nhà khoa học máy tính, và công cụ dịch có thể cho ra các kết quả đáng kinh ngạc mà không cần đến những nguyên tắc ngữ pháp được lập trình sẵn. Công cụ dịch này của Google gần giống chiếc hộp đen chứa các thuật toán vận hành dựa vào dữ liệu và không bị chi phối bởi lý thuyết – và theo Spiegelhalter thì đó là “một thành tựu tuyệt vời”. Thành tựu đó được tạo ra trên nền tảng xử lý khéo léo các bộ dữ liệu khổng lồ.

Nhưng dữ liệu lớn không giúp giải quyết vấn đề đã ám ảnh các chuyên gia thống kê và các nhà khoa học trong nhiều thể kỷ qua: vấn đề thấu hiểu, vấn đề suy diễn điều gì đang xảy ra, và vấn đề xác định cách thức chúng ta có thể can thiệp nhằm cải thiện hệ thống.

David Hand (1950-)

Giáo sư David Hand đến từ trường Imperial College London nói rằng: “Chúng ta có một nguồn lực mới ở đây”. “Nhưng không ai muốn có ‘dữ liệu’ đơn thuần cả. Cái họ muốn là các câu trả lời”.

Các phương pháp thống kê cần phải có những bước tiến dài để có thể làm được điều ấy.

Patrick Wolfe đến từ trường Đại Học College London phát biểu rằng: “Hiện trạng còn rất hoang sơ”. “Những người khôn ngoan và có động cơ sẽ xoay xở và tận dụng mọi công cụ khiến cho các bộ dữ liệu này lên tiếng, và quả là tuyệt vời. Nhưng trước mắt, chúng ta vẫn đang mò mẫm”.

Các chuyên gia thống kê đang vật lộn để phát triển các phương pháp mới nhằm đón bắt cơ hội của dữ liệu lớn. Chúng ta cần những phương pháp mới đó, nhưng chúng ta không được bỏ qua mà phải lấy các bài học thống kê truyền thống làm nền tảng phát triển các phương pháp mới để chúng có thể phát huy tác dụng.

Nhắc lại tuyên bố khẳng định của dữ liệu lớn. Độ chính xác kỳ lạ dễ thổi phồng kết quả nếu chúng ta lờ đi các trường hợp tưởng thật nhưng là sai lầm, như trường hợp dự báo về thai kỳ của Target. Tuyên bố cho rằng quan hệ nhân quả “đã bị hạ bệ” là đúng nếu chúng ta dự báo trong môi trường ổn định, nhưng lại là sai nếu thế giới biến động không ngừng (như trường hợp Dịch Cúm) hay khi bản thân chúng ta muốn thay đổi thế giới. Sự hứa hẹn “N = Tất cả”, và do đó mà vấn đề thiên lệch khi lấy mẫu không còn nữa, lại không đúng trong hầu hết các trường hợp được nhắc đến. Quan điểm cho rằng “khi có đủ dữ liệu trong tay, các con số sẽ nói lên tất cả” có vẻ chất phác một cách tuyệt vọng khi gặp phải những bộ dữ liệu mà các mô thức giả tạo lấn át các khám phá thực sự.

Tim Harford (1973-)

Thời đại “dữ liệu lớn” đã đến, nhưng thời đại của nhận thức sâu sắc thì chưa. Thách thức hiện tại là giải quyết các vấn đề mới và tìm được các câu trả lời mới mà không lặp lại những sai lầm về mặt thống kê trên một quy mô lớn hơn bao giờ hết.

----------------------------------------------

Cuốn sách mới nhất của Tim Harford nhan đề ‘The Undercover Economist Strikes Back’ (Nhà Kinh Tế Nằm Vùng Trở Lại).

---------------------------------------------------------------------------------------------

Trần Thị Minh Ngọc dịch

Nguồn: “Big data: are we making a big mistake?”, FT Magazine, 28/3/2014.

Trang

19.4.16

Dữ liệu lớn: có phải chúng ta đang lầm to?

Dữ liệu lớn: có phải chúng ta đang lầm to?