Những hứa hẹn của dữ liệu lớn
Ngày nay, thông tin phong phú hơn bao
giờ hết và sự tăng trưởng của nó mỗi ngày càng nhanh hơn. Cách đây hai mươi
năm, sự hơn thua chính nằm ở vấn đề kiểm soát thông tin, cả về chính trị cũng
như trong các doanh nghiệp. Ngày nay, đó là khả năng khai thác thông tin, biến
đổi những khối lượng dữ liệu khổng lồ được tạo ra theo thời gian thực thành giá
trị.
Dòng thác dữ liệu kỹ thuật số, được George
Day và David Reibstein đề cập trong các cột báo của chúng tôi (ParisTech Review), không chỉ ảnh hưởng đến
các ngành nghề tiếp thị. Toàn bộ các tổ chức sản xuất đều bị tác động, và xa
hơn các thách thức về năng lực cạnh tranh, liên quan đến các nền kinh tế quốc
gia. Những ai có khả năng sử dụng những dữ liệu này sẽ có một lợi thế lớn không
những để biết được ý kiến của công chúng và phát hiện ra những động thái văn hóa, mà
còn hiểu được những gì đang diễn ra trong chính tổ chức của họ, để cải tiến quy
trình và có thông tin tốt hơn trong quá trình ra quyết định. Tất nhiên cần phải
có những phương tiện thỏa đáng: đó là khó khăn lớn nhất cho những ai phải đương
đầu với thách thức "dữ liệu lớn", vừa là một hứa hẹn và là một
thách thức. Thách thức về kỹ thuật, đồng thời còn là thách thức về trí tuệ, bởi
vì các công cụ tin học giúp khai thác các cơ sở dữ liệu ấy rõ ràng chỉ là một
phần của giải pháp mà thôi.
Kỷ nguyên thông tin
Peter Lyman (1940-2007) |
Vấn đề trên lần đầu tiên xuất hiện trong giới học thuật, khi một nhóm
nghiên cứu của Peter Lyman và Hal R. Varian thuộc Đại học California tại
Berkeley, tiến hành đo lường khối lượng thông tin được tạo ra và lưu trữ trên các
phương tiện truyền thông, dĩ nhiên là trên các phương tiện truyền
thông kỹ thuật số. Họ công bố một báo cáo đầu tiên vào năm 2000 và cập nhật nó
vào năm 2003, How Much Information (Cần bao nhiêu thông tin).
Báo cáo làm nổi bật một hiện tượng từng được dự cảm: khối lượng thông tin không
những thường xuyên tăng lên gấp đôi, mà còn gia tăng trong những khoảng thời
gian ngày càng ngắn hơn. Các nhà nghiên cứu viện dẫn rất nhiều nguyên nhân. Họ
đặc biệt dẫn ra sự phát triển nhanh của các nội dung được số hóa, do năng lực
sáng tạo, mà còn do việc số hóa các tài liệu và đặc biệt hơn là việc số hóa các
hình ảnh. Việc nhiều tổ chức lưu trữ điện tử các dữ liệu vật chất của họ, cũng
góp phần đáng kể vào xu hướng này, đồng thời với phong trào số hóa rộng rãi các
dữ liệu in ấn được các thư viện lớn nhất thế giới khởi xướng từ những năm 1990.
Hal Ronald Varian (1947-) |
Lyman và Varian cũng gợi lên sự tăng trưởng chóng mặt của những trao đổi
trực tuyến, với phiên bản Web 2.0 nổi tiếng, khi mà mọi người đều là một nhà xuất
bản tiềm tàng. Sự bùng nổ của các mạng xã hội, trong nửa sau của những năm
2000, càng làm tăng tốc xu hướng này.
Trong bối cảnh này, các công cụ tìm kiếm như Google đóng một vai trò ngày
càng mang tính quyết định... và chính chúng cũng đã tiến hành tạo ra thông tin,
bởi vì siêu dữ liệu (phân loại, lập chỉ mục, lập từ khóa) cũng là thông tin. Và
như vậy khối lượng cơ sở dữ liệu khổng lồ đã được cấu thành, và việc khai thác
dữ liệu đã tạo ra những dữ liệu mới.
Ngày nay, các siêu dữ liệu, được phát triển từ các dữ liệu thô, chiếm một
phần ngày càng tăng trong dòng chảy dữ liệu. Dữ liệu thô có thể là một dòng
thông tin trên tài khoản ngân hàng của bạn hay một tấm hình mà bạn chia sẻ trên
một trang mạng. Siêu dữ liệu là, chẳng hạn hồ sơ tài khoản ngân hàng của bạn,
được hình thành từ nhiều dữ liệu khác nhau về bạn, đó cũng là mạng lưới những
người có thể thấy được tấm hình của bạn, những người thực sự thấy nó, nhận xét
về nó, cũng như lộ trình số của những người truy cập để đến tấm hình của bạn.
Có lẽ ngoại trừ một số người bản địa sống biệt lập trong các
khu rừng nhiệt đới Amazon, mỗi người chúng ta đều để lại dấu vết kỹ thuật số
ngày càng nhiều. Người dân ở các nước phát triển để lại vô số dấu vết kỹ thuật
số, từ các ý kiến được đăng trên blog đến các giao dịch trực tuyến qua điện
thoại thông minh được định vị địa lý. Rất nhanh, một số tác nhân đã thấy được
giá trị của những dấu vết kỹ thuật số ấy và học được cách để khai thác chúng,
đặc biệt là Google hay Facebook, sử dụng chúng để xác định các mục tiêu quảng
cáo mà ta thấy xuất hiện trên màn hình của chúng ta. Một số các tác nhân khác,
chẳng hạn như các công ty bảo hiểm, ở các nước mà luật pháp cho phép, thu thập
các dữ liệu cá nhân để làm phong phú và tinh chỉnh kỹ năng của các nhân viên tính
toán bảo hiểm của họ.
Siêu dữ liệu được cập nhật liên tục, và thông tin có thể được nhận thức
như một thế giới phù du luôn thay đổi. Các dòng thông tin ấy tiếp liệu cho các
kho dữ liệu, các ngân hàng dữ liệu, nhưng cũng có thể được lọc theo thời gian
thực, nếu coi chúng như là một khối lượng thông tin khổng lồ đang chuyển động
chớ không phải là một khối lượng thông tin trơ ì. Chính các dữ liệu lớn này là trung tâm của sự chú
ý ngày nay.
Một cuộc cách mạng tin học
George S. Day |
Tin học của ngày hôm qua đã được xây dựng xung quanh việc quản lý các cơ
sở dữ liệu tương đối ổn định, tương đối đóng và, có thể nói thêm rằng, tương
đối hạn chế. Cuộc cách mạng đang diễn ra cả về quy mô, với khối lượng dữ liệu
khổng lồ theo nghĩa đen, lẫn việc cập nhật thông tin liên tục, do việc mở cửa
các cơ sở dữ liệu vào các dòng thông tin. Thêm vào đó là sự phức tạp của các
định dạng và sự kết nối giữa các cơ sở dữ liệu, không bao gồm việc sử dụng các
công cụ quản lý truyền thống.
Tất nhiên, chi phí lưu trữ ngày nay có xu hướng giảm, cũng nhanh gần như
khi gia tăng dung lượng lưu trữ. Hơn nữa, các công cụ đã được phát triển, đặc
biệt là các siêu
máy tính, cho phép quản lý những khối lượng cơ sở dữ liệu khổng lồ.
Ngoài phần cứng, chính bản chất của các công cụ phân tích, trong lĩnh vực
phần mềm, giờ đây là một thách thức. Các công cụ truyền thống, ví dụ như các
thuật toán phân tích việc ra quyết định, đơn giản bị quá tải bởi khối lượng các
dữ liệu được xem xét và bởi sự phân mảnh của chúng. Thông tin của dữ liệu lớn không phải được chứa hoàn
toàn trong "cơ sở dữ liệu": trước hết chúng nằm ở bên ngoài,
và cơ sở dữ liệu, nói đúng ra, mang tính ảo.
David Reibstein |
Sự phát triển của Internet và sự xuất hiện của các dịch vụ công chúng là
một thách thức đối với các hệ thống quản lý cơ sở dữ liệu. Ngay cả ý tưởng về
những cơ sở dữ liệu có tính quan hệ (một khối lượng thông tin được phân tách và
sắp xếp lại trong những ma trận được gọi là quan hệ hay bảng) cũng đều quá tải
bởi dòng chảy của dữ liệu và bản chất thay đổi của chúng. Và cùng với cơ sở dữ
liệu, những ngôn ngữ truy vấn có cấu trúc (Structured Query Language,
SQL) theo kiểu cũ bị cuốn phăng, bởi vì chức năng của chúng (một cách thô thiển
là: xác định dữ liệu, phân loại dữ liệu) chỉ có tính thao tác bên trong một cơ
sở dữ liệu đóng, nhưng lại không hiệu quả trong một hệ thống mở.
Các hệ thống quản lý mới đã buộc phải từ bỏ một số tính năng để đạt được
khả năng tính toán cao. Vì vậy, người ta thấy xuất hiện các công cụ mới: những
cơ sở dữ liệu định hướng theo hàng cột đứng chớ không phải theo hàng ngang, hay
những cơ sở dữ liệu "bên trong bộ nhớ", hoạt động chủ yếu trên
cơ sở bộ nhớ trung tâm hơn là bộ lưu trữ trên đĩa cứng. Cơ sở dữ liệu “bên
trong bộ nhớ" nhanh hơn so với các kiểu cơ sở dữ liệu khác, bởi vì
việc truy cập dữ liệu và các thuật toán tối ưu hóa nội bộ hoạt động đơn giản
hơn: do đó việc đọc dữ liệu cũng nhanh hơn.
Nhưng sự đổi mới lớn, một thay đổi mang tính đột phá, chính là những công
cụ được cung cấp theo thời gian thực, mà thao tác không còn dựa trên những dữ
liệu được lưu trữ mà dựa trên những dòng dữ liệu đầu vào, mà việc xử lý dữ liệu
không cần phải tập trung. Đó là trường hợp của Streambase hay Hadoop, một nền tảng (plateforme) máy tính
mở cho phép xử lý dữ liệu song song trên nhiều máy tính khác nhau. Việc xử lý
dữ liệu về thực chất được chia thành hai kiểu thao tác: lập bản đồ (mapping)
là việc xử lý một tập hợp dữ liệu con, thu gọn (reducing) là việc tổng
gộp lại kết quả công việc của những người lập bản đồ.
Kỹ thuật điện toán đám mây này đặc biệt đã được các mạng xã hội lớn
ứng dụng, và tham vọng của kỹ thuật này là phân tán đến vô tân việc xử lý dữ
liệu: mỗi người dùng tích cực không chỉ đại diện cho một tập hợp dữ liệu, mà
còn là một máy tính sẵn có.
Henri Verdier (1968-) |
Phải làm gì với các dữ liệu ấy? Trong số các công cụ phân tích đặc biệt
mang tính sáng tạo có các đồ
thị, cho phép lập bản đồ những tương tác giữa các tác nhân trong một
mạng. Như Henri Verdier giải thích, Google+, một mạng xã hội mới của Google, được xây dựng
hoàn toàn xung quanh các "câu lạc bộ" quan hệ, được người sử
dụng quản lý, nhưng cung cấp cho Google một kiến thức vô song về
các động thái của xã hội, vừa mang tính tổng thể (xu hướng, truyền bá ý kiến, v.v.)
vừa mang tính cá nhân (thực hành, thói quen, sự thân thiết). Các đồ thị cho
phép mô hình hóa những động thái của các nhóm nhỏ được tạo ra trong thời gian
thực và theo cách tự động hoá, để đáp ứng mục tiêu quảng cáo, nhưng ta còn có
thể tổng gộp các động thái này lại để phát hiện những xu hướng, những diễn biến
quan điểm, những cách dùng mới nổi. Điều này cung cấp cho Google, không chỉ là
một ý tưởng rõ ràng về các thực hành tiêu dùng, mà còn là những thông tin cực
kỳ chính xác về các đối tác kinh doanh của họ, để từ đó cho họ một thế mạnh
thương lượng vô đối.
Một thách thức cạnh tranh?
Nếu các đại gia Internet thấy được lợi ích của các công nghệ mới ấy, thì
vấn đề này cũng thu hút sự quan tâm của rất nhiều doanh nghiệp và các tác nhân
công cộng. Bởi vì các dữ liệu ấy vẫn còn là một mỏ chưa được khai thác. Tất
nhiên thách thức then chốt là khả năng phân tích chúng. Một phần của câu trả
lời mang tính kỹ thuật, phần kia là khả năng huy động các nguồn lực và năng
lực, để vừa thiết lập các công cụ, quản lý chúng, và rút ra những thông tin hữu
ích.
Một nghiên
cứu của McKinsey đã nỗ lực đo lường tiềm năng kinh tế của biên giới
công nghệ mới này, và kết quả rất hứa hẹn. Theo các chuyên gia tư vấn của
McKinsey, không chỉ tất cả các thành phần kinh tế, mà còn cả các cơ quan hành
chính công, sẽ có thể hưởng lợi từ phát minh mới này.
Điều này có vẻ hiển nhiên ví dụ trong các lĩnh vực như tiếp thị và quản lý
hàng tồn kho, đối với các đại gia về phân phối và bán lẻ. Những năng lực tăng
lên trong các lĩnh vực này sẽ tác động trực tiếp đến lợi nhuận ròng của họ.
Nhưng những cơ quan hành chánh công lớn (thuế, y tế cộng đồng), quản lí dữ liệu
của hàng chục triệu công dân hay đối tượng được bảo hiểm xã hội, cũng có thể
cải thiện đáng kể các phương pháp quản lý của họ, qua việc dự báo các xu hướng
và đặc biệt là các biến động chi phí, qua việc phát hiện tốt hơn những vụ việc
bất thường (và như vậy, những vụ gian lận tiềm tàng), và nói chung sẽ hiểu tốt
hơn việc sử dụng và thực hành của các đối tượng họ quản lí. McKinsey cũng gợi
lên những lợi ích về năng suất trong lĩnh vực sản xuất công nghiệp.
Điều này đòi hỏi phải có những năng lực, và do đó không chỉ đòi hỏi một nỗ
lực đào tạo nội bộ trong các tổ chức có liên quan, mà còn trong giới đại học.
Xây dựng một môi trường thuận lợi cho việc phát triển các năng lực ấy là một
quá trình lâu dài và khó khăn, nơi chắc chắn sẽ diễn ra một phần cuộc cạnh
tranh trong tương lai.
Một cuộc cách mạng khoa học?
Jannis Kallinikos (1954-) |
Ngoài những thách thức kinh tế, dữ liệu lớn cũng làm thay đổi đáng
kể cách thức làm việc của các nhà khoa học. Theo giải thích
của Jannis Kallinikos, giáo sư về quản trị tại Trường Kinh tế học London
(London School of Economics), "việc phát triển kiến thức và rộng hơn là
việc xây dựng ý nghĩa, ngày càng xuất phát từ sự giao hoán và sự hoán vị được
thực thi trên cơ sở những khối lượng dữ liệu khổng lồ". Đây là một xu
hướng xưa trong các ngành khoa học xã hội, nhưng giờ đây nó mở rộng ra cho toàn
bộ các ngành khác.
Cách thức các dữ liệu được nắm bắt và tổng gộp vượt xa khả năng ghi nhớ và
sự tập trung của các chuyên gia giỏi nhất. Jannis Kallinikos lấy một ví dụ từ
một bài viết trên tạp chí Wired, về
một nhà nghiên cứu thuộc trường Đại học California nỗ lực tìm hiểu quá trình
lão hóa của xương. Công cụ của ông là một tập hợp các thiết bị quét, chụp các
bức ảnh bằng tia X ở độ phân giải siêu cao và kết hợp các bức ảnh ấy thành một
cấu trúc ba chiều. Kết quả sau đó được tổng gộp lại. Theo nhận xét của Jannis
Kallinikos, mục đích chính của việc chụp quét xương không còn là cung cấp chứng
cứ cho các chuyên gia: kiến thức y khoa, cuối cùng nổi lên từ những dữ liệu ấy, sẽ là kết
quả của những tương quan thống kê từ hàng đống teraoctet dữ liệu được thu thập
qua hàng triệu bức ảnh chụp quét. Chúng ta không còn chứng kiến sự đối đầu giữa
lý thuyết với thực tế, mà là một quá trình hoàn toàn mới: mô hình, nếu tồn tại,
sẽ nổi lên từ các quá trình xử lý dữ liệu thống kê từ dưới lên trên.
Chris Anderson (1961-) |
Vì vậy Chris Anderson, chuyên gia nổi tiếng về web, dự báo
sự cáo chung của lý thuyết, có nghĩa là sự cáo chung của khoa học theo cách mà
chúng ta đã biết: một sự phát triển mang tính suy diễn khái niệm dựa trên những
chứng cứ thực nghiệm. Ông giải thích rằng, kiến thức ngày càng
được sản sinh theo cách quy nạp, từ những tương quan được trích xuất từ các khối lượng dữ
liệu khổng lồ. Đây có lẽ là một vấn đề còn tranh cãi; nhưng cuộc tranh luận mở
cửa cho mọi người.
Huỳnh Thiện Quốc Việt dịch
Nguồn: Les
promesses du Big Data, ParisTech Review, December 19th, 2011.
------