22.1.16

Sự cáo chung của lý thuyết: Dòng thác dữ liệu làm cho phương pháp khoa học trở nên lỗi thời


Sự cáo chung của lý thuyết: Dòng thác dữ liệu làm cho phương pháp khoa học trở nên lỗi thời

Chris Anderson[1]
Minh họa của Marian Bantjes
"Tất cả các mô hình đều sai, nhưng cũng có một số hữu ích."
Đó là tuyên bố của nhà thống kê George Box 30 năm trước, và ông đã đúng. Nhưng chúng ta có những lựa chọn nào? Chỉ có các mô hình, từ các phương trình về vũ trụ đến các lý thuyết về hành vi con người, dường như có thể luôn giải thích, nếu không hoàn hảo, thế giới xung quanh chúng ta. Cho đến bây giờ. Ngày nay các công ty như Google, đã phát triển trong một kỷ nguyên dồi dào dữ liệu, không chấp nhận các mô hình sai. Thật vậy, họ không hề chấp nhận các mô hình.
George Box (1919-2013)
Sáu mươi năm trước, các máy tính kỹ thuật số làm cho con người có thể đọc được thông tin. Hai mươi năm trước, mạng Internet làm cho con người có thể truy cập được thông tin. Mười năm trước, công cụ tìm kiếm đầu tiên làm cho thông tin trở thành một cơ sở dữ liệu duy nhất. Ngày nay, Google và các công ty tương tự được chọn lọc kỹ lưỡng qua một kỷ nguyên được đo lường nhiều nhất trong lịch sử, xử lý khối lượng thông tin khổng lồ này như là một phòng thí nghiệm của thân phận con người. Họ là con cái của kỷ nguyên Petabyte.
Kỷ nguyên Petabyte khác biệt, bởi vì có nhiều thứ khác biệt. Kilobyte được lưu trữ trên đĩa mềm. Megabyte được lưu trữ trên đĩa cứng. Terabyte được lưu trữ trên mảng đĩa. Petabyte được lưu trữ trên đám mây. Khi lần theo tiến trình đó, chúng ta đi từ sự tương đồng của thư mục đến sự tương đồng của tập tin, đến sự tương đồng của thư viện — và, đến petabytes thì chúng ta thoát khỏi sự tương đồng của tổ chức.
Ở quy mô petabyte, thông tin không còn là vấn đề của một phép phân loại và trật tự đơn giản thuộc ba và bốn chiều, mà là các số liệu thống kê bất khả tri mang tính chiều kích. Nó đòi hỏi một cách tiếp cận hoàn toàn khác, một cách tiếp cận đòi hỏi chúng ta phải loại bỏ sự dây dắt dữ liệu như là một cái gì đó có thể được hình dung trong tính toàn thể của nó. Nó buộc chúng ta trước hết phải xem dữ liệu ở góc độ toán học và sau đó thiết lập một bối cảnh cho dữ liệu. Ví dụ, Google chinh phục thế giới quảng cáo không gì khác bằng toán học ứng dụng. Họ không cho rằng họ biết mọi thứ về văn hóa và các quy ước quảng cáo — họ chỉ giả định rằng dữ liệu tốt hơn, với các công cụ phân tích tốt hơn, sẽ thắng cuộc. Và Google đã đúng.
Triết lý nền tảng của Google là chúng ta không biết vì sao trang này tốt hơn trang kia: Nếu số liệu thống kê của các liên kết nói như vậy, thế là trang đủ tốt rồi. Không cần phải phân tích ngữ nghĩa hay phân tích nhân quả. Đó là lý do vì sao Google có thể phiên dịch ngôn ngữ mà không cần thực sự "biết" chúng là gì (với khối lượng dữ liệu bằng nhau, Google có thể dễ dàng dịch tiếng Klingon sang tiếng Farsi cũng giống như nó có thể dịch tiếng Pháp sang tiếng Đức). Và là cách họ có thể kết hợp quảng cáo với nội dung mà không cần đến bất kỳ kiến ​​thức hay giả định nào về quảng cáo hay nội dung.
Peter Norvig (1956-)
Phát biểu tại Hội nghị Công nghệ mới nổi O'Reilly vào tháng Ba vừa qua, Peter Norvig, Giám đốc nghiên cứu của Google, đã cập nhật câu châm ngôn của George Box như sau: "Tất cả các mô hình đều sai, và bạn có thể ngày càng thành công mà không cần đến chúng."
Đây là một thế giới mà các khối lượng dữ liệu khổng lồ và toán học ứng dụng thay thế mọi công cụ khác có thể được đưa ra. Bỏ ra ngoài mọi lý thuyết về hành vi con người, từ ngôn ngữ học đến xã hội học. Hãy quên đi phép phân loại, bản thể luận, và tâm lý học. Ai biết được vì sao con người làm những gì họ cần làm? Vấn đề là họ đã làm điều đó, và chúng ta có thể theo dõi và đo lường nó với độ trung thực chưa từng có. Với số lượng dữ liệu cần thiết đủ, các con số tự nó sẽ phơi bày rành rành.
Tuy nhiên mục tiêu lớn ở đây không phải quảng cáo. Đó là khoa học. Phương pháp khoa học được xây dựng xung quanh những giả thuyết có thể kiểm chứng được. Những mô hình này, đa phần, là những hệ thống được các nhà khoa học hình dung trong tâm trí. Các mô hình này sau đó được thử nghiệm, và các thí nghiệm sẽ chứng thực các mô hình lý thuyết đúng hay sai về cách thức vận hành của thế giới. Đây là cách mà khoa học đã vận hành trong hàng trăm năm.
Các nhà khoa học được đào tạo để nhận ra rằng sự tương quan không phải là nguyên nhân, rằng không có kết luận nào được rút ra đơn giản dựa trên cơ sở của sự tương quan giữa X và Y (đó có thể chỉ là một sự trùng hợp). Thay vào đó, bạn phải hiểu được các cơ chế cơ bản kết nối hai điểm nói trên. Một khi đã có một mô hình, bạn có thể kết nối các tập hợp dữ liệu một cách đáng tin. Dữ liệu mà không có mô hình thì chỉ là tiếng ồn.
Nhưng trước những dữ liệu khổng lồ, cách tiếp cận theo khoa học này — đưa ra giả thuyết, mô hình, thử nghiệm — trở nên lỗi thời. Hãy xem xét vật lý học: các mô hình theo thuyết Newton là những xấp xỉ thô của sự thật (sai ở cấp độ nguyên tử, nhưng vẫn còn hữu ích). Một trăm năm trước, cơ học lượng tử dựa trên thống kê đã cho ra một bức tranh tốt hơn — nhưng cơ học lượng tử ấy vẫn là một mô hình khác, và chưa hoàn thiện, không nghi ngờ gì đó là một biếm họa của một thực tế cơ bản phức tạp hơn. Lý do mà vật lý học trôi theo hướng tư biện lý thuyết về các mô hình lớn thống nhất theo n-chiều trong vài thập kỷ qua (giai đoạn về một "câu chuyện đẹp" của một ngành học thiếu dữ liệu) là vì chúng ta không biết cách thức vận hành các thí nghiệm để kiểm sai các giả thuyết — năng lượng quá cao, các máy gia tốc quá đắt, v.v..
Gregor J. Mendel (1822-1884)
Ngày nay sinh học cũng đi theo một hướng tương tự. Các mô hình mà chúng ta được học ở trường về các gen "thống trị" và gen "lặn" theo một quá trình nghiêm ngặt theo thuyết Mendel đã biến thành một sự đơn giản hóa thực tại thậm chí lớn hơn sự đơn giản hóa của các định luật Newton. Việc phát hiện ra các tương tác giữa gen và protein và các khía cạnh khác của di truyền ngoài DNA đã thách thức quan niệm về DNA như là một số phận và thậm chí đưa ra một chứng cứ cho rằng môi trường có thể gây ảnh hưởng đến các đặc điểm tính cách mang tính di truyền, một cái gì đó từng được coi là một điều bất khả về di truyền.
Nói tóm lại, càng tìm hiểu về sinh học, chúng ta càng thấy mình xa lánh với một mô hình có thể giải thích được môn này.
Ngày nay đã có một cách tốt hơn. Petabytes cho phép chúng ta nói rằng: "Có tương quan là đủ". Chúng ta có thể ngừng tìm kiếm các mô hình. Chúng ta có thể phân tích dữ liệu mà không cần có giả thuyết về những gì nó có thể hiển thị. Chúng ta có thể ném những con số vào các cụm máy tính lớn nhất mà thế giới đã từng thấy và để cho các thuật toán thống kê tìm ra các mô thức mà khoa học không thể làm được.
Craig Venter (1946-)
Ví dụ thực tiễn tốt nhất về vấn đề này là việc xác định trình tự đoạn nhỏ (shotgun gene sequencing) của J. Craig Venter. Được kích hoạt bởi các máy trình tự hóa tốc độ cao và các siêu máy tính cho phép phân tích theo thống kê các dữ liệu được tạo ra, Venter đã đi từ việc trình tự hóa các cơ quan của cá nhân đến việc trình tự hóa toàn bộ các hệ sinh thái. Năm 2003, ông bắt đầu trình tự hóa nhiều đại dương, vẽ lại chuyến đi của thuyền trưởng Cook. Và vào năm 2005, ông bắt đầu trình tự hóa không khí. Trong quá trình đó, ông đã phát hiện hàng ngàn loài vi khuẩn và các hình thức khác của sự sống chưa từng được biết.
Nếu thuật ngữ "khám phá một loài mới" gợi nhớ đến Darwin và các bản vẽ của chim sẻ, bạn có thể bị kẹt trong lối cũ làm khoa học. Venter không nói được bất cứ điều gì về những loài ông tìm thấy. Ông không biết chúng trông ra sao, cách chúng sinh sống, hay nhiều thứ khác về hình thái của chúng. Ông thậm chí còn không có toàn bộ gen của chúng. Tất cả những gì ông có là một đốm sáng thống kê — một trình tự duy nhất, không giống bất kỳ trình tự nào khác trong cơ sở dữ liệu, phải đại diện cho một loài mới.
Trình tự này có thể có tương quan với các trình tự khác, cũng giống với trình tự của những loài mà chúng ta đã biết nhiều. Trong trường hợp đó, Venter có thể phỏng đoán về loài vật — rằng chúng chuyển đổi ánh sáng mặt trời thành năng lượng theo một cách riêng biệt, hoặc rằng chúng có nguồn gốc từ một tổ tiên chung. Nhưng bên cạnh đó, ông không có một mô hình nào tốt hơn về các loài này so với mô hình của Google về trang MySpace của bạn. Đó chỉ là dữ liệu. Bằng cách phân tích nó với các nguồn lực điện toán chất lượng cao của Google, Venter đã đưa sinh học tiến bộ nhiều hơn bất cứ ai khác thuộc thế hệ của ông.
Kiểu tư duy này đã sẵn sàng để trở thành xu thế chủ đạo. Vào tháng hai, Quỹ Khoa học Quốc gia công bố dự án thám hiểm Cluster Exploratory, một chương trình tài trợ cho các nghiên cứu được thiết kế để vận hành trên một nền tảng điện toán được phân tán ở diện rộng do Google và IBM phát triển cùng với sáu trường đại học thí điểm. Cụm sẽ bao gồm 1.600 nhân xử lý, nhiều terabyte bộ nhớ, và hàng trăm terabyte bộ lưu trữ, cùng với các phần mềm, bao gồm phần mềm Tivoli của IBM và các phiên bản mã nguồn mở của hệ thống tập tin Google và MapReduce.[2] Các dự án CluE ban đầu sẽ bao gồm các mô phỏng bộ não và hệ thống thần kinh và các nghiên cứu khác về sinh học nằm đâu đó giữa phần kết nối máy tính với não và phần mềm.
Tìm hiểu cách sử dụng một "máy tính" thuộc quy mô này có thể mang tính thử thách. Nhưng đây là một cơ hội tuyệt vời: một lượng dữ liệu khổng lồ mới và có sẵn, cùng với các công cụ thống kê để xử lí những con số này, tạo ra một cách thức hoàn toàn mới để hiểu biết thế giới. Sự tương quan thay thế nguyên nhân, và khoa học có thể tiến bộ mà thậm chí không cần có những mô hình mạch lạc, lý thuyết thống nhất, hay bất kỳ lời giải thích máy móc thực sự nào cả.
Không có lý do gì để bám víu vào những cách cũ. Đã đến lúc để hỏi: khoa học có thể học được gì từ Google?
Huỳnh Thiện Quốc Việt dịch




[1] Chris Anderson (canderson@wired.com) là tổng biên tập của trang Wired.

[2] Mô hình này ban đầu đã tuyên bố rằng phần mềm cụm bao gồm các tập tin hệ thống của Google hiện hành. 06.27.08

Print Friendly and PDF