12.12.15

Những hứa hẹn của dữ liệu lớn



Những hứa hẹn của dữ liệu lớn

Ngày nay, thông tin phong phú hơn bao giờ hết và sự tăng trưởng của nó mỗi ngày càng nhanh hơn. Cách đây hai mươi năm, sự hơn thua chính nằm ở vấn đề kiểm soát thông tin, cả về chính trị cũng như trong các doanh nghiệp. Ngày nay, đó là khả năng khai thác thông tin, biến đổi những khối lượng dữ liệu khổng lồ được tạo ra theo thời gian thực thành giá trị.
Dòng thác dữ liệu kỹ thuật số, được George Day và David Reibstein đề cập trong các cột báo của chúng tôi (ParisTech Review), không chỉ ảnh hưởng đến các ngành nghề tiếp thị. Toàn bộ các tổ chức sản xuất đều bị tác động, và xa hơn các thách thức về năng lực cạnh tranh, liên quan đến các nền kinh tế quốc gia. Những ai có khả năng sử dụng những dữ liệu này sẽ có một lợi thế lớn không những để biết được ý kiến ​​của công chúng và phát hiện ra những động thái văn hóa, mà còn hiểu được những gì đang diễn ra trong chính tổ chức của họ, để cải tiến quy trình và có thông tin tốt hơn trong quá trình ra quyết định. Tất nhiên cần phải có những phương tiện thỏa đáng: đó là khó khăn lớn nhất cho những ai phải đương đầu với thách thức "dữ liệu lớn", vừa là một hứa hẹn và là một thách thức. Thách thức về kỹ thuật, đồng thời còn là thách thức về trí tuệ, bởi vì các công cụ tin học giúp khai thác các cơ sở dữ liệu ấy rõ ràng chỉ là một phần của giải pháp mà thôi.
Kỷ nguyên thông tin
Peter Lyman (1940-2007)
Vấn đề trên lần đầu tiên xuất hiện trong giới học thuật, khi một nhóm nghiên cứu của Peter Lyman và Hal R. Varian thuộc Đại học California tại Berkeley, tiến hành đo lường khối lượng thông tin được tạo ra và lưu trữ trên các phương tiện truyền thông, d nhiên là trên các phương tiện truyền thông kỹ thuật số. Họ công bố một báo cáo đầu tiên vào năm 2000 và cập nhật nó vào năm 2003, How Much Information (Cần bao nhiêu thông tin). Báo cáo làm nổi bật một hiện tượng từng được dự cảm: khối lượng thông tin không những thường xuyên tăng lên gấp đôi, mà còn gia tăng trong những khoảng thời gian ngày càng ngắn hơn. Các nhà nghiên cứu viện dẫn rất nhiều nguyên nhân. Họ đặc biệt dẫn ra sự phát triển nhanh của các nội dung được số hóa, do năng lực sáng tạo, mà còn do việc số hóa các tài liệu và đặc biệt hơn là việc số hóa các hình ảnh. Việc nhiều tổ chức lưu trữ điện tử các dữ liệu vật chất của họ, cũng góp phần đáng kể vào xu hướng này, đồng thời với phong trào số hóa rộng rãi các dữ liệu in ấn được các thư viện lớn nhất thế giới khởi xướng từ những năm 1990.
Hal Ronald Varian (1947-)
Lyman và Varian cũng gợi lên sự tăng trưởng chóng mặt của những trao đổi trực tuyến, với phiên bản Web 2.0 nổi tiếng, khi mà mọi người đều là một nhà xuất bản tiềm tàng. Sự bùng nổ của các mạng xã hội, trong nửa sau của những năm 2000, càng làm tăng tốc xu hướng này.
Trong bối cảnh này, các công cụ tìm kiếm như Google đóng một vai trò ngày càng mang tính quyết định... và chính chúng cũng đã tiến hành tạo ra thông tin, bởi vì siêu dữ liệu (phân loại, lập chỉ mục, lập từ khóa) cũng là thông tin. Và như vậy khối lượng cơ sở dữ liệu khổng lồ đã được cấu thành, và việc khai thác dữ liệu đã tạo ra những dữ liệu mới.
Ngày nay, các siêu dữ liệu, được phát triển từ các dữ liệu thô, chiếm một phần ngày càng tăng trong dòng chảy dữ liệu. Dữ liệu thô có thể là một dòng thông tin trên tài khoản ngân hàng của bạn hay một tấm hình mà bạn chia sẻ trên một trang mạng. Siêu dữ liệu là, chẳng hạn hồ sơ tài khoản ngân hàng của bạn, được hình thành từ nhiều dữ liệu khác nhau về bạn, đó cũng là mạng lưới những người có thể thấy được tấm hình của bạn, những người thực sự thấy nó, nhận xét về nó, cũng như lộ trình số của những người truy cập để đến tấm hình của bạn.
Có lẽ ngoại trừ một số người bản địa sống biệt lập trong các khu rừng nhiệt đới Amazon, mỗi người chúng ta đều để lại dấu vết kỹ thuật số ngày càng nhiều. Người dân ở các nước phát triển để lại vô số dấu vết kỹ thuật số, từ các ý kiến ​​được đăng trên blog đến các giao dịch trực tuyến qua điện thoại thông minh được định vị địa lý. Rất nhanh, một số tác nhân đã thấy được giá trị của những dấu vết kỹ thuật số ấy và học được cách để khai thác chúng, đặc biệt là Google hay Facebook, sử dụng chúng để xác định các mục tiêu quảng cáo mà ta thấy xuất hiện trên màn hình của chúng ta. Một số các tác nhân khác, chẳng hạn như các công ty bảo hiểm, ở các nước mà luật pháp cho phép, thu thập các dữ liệu cá nhân để làm phong phú và tinh chỉnh kỹ năng của các nhân viên tính toán bảo hiểm của họ.
Siêu dữ liệu được cập nhật liên tục, và thông tin có thể được nhận thức như một thế giới phù du luôn thay đổi. Các dòng thông tin ấy tiếp liệu cho các kho dữ liệu, các ngân hàng dữ liệu, nhưng cũng có thể được lọc theo thời gian thực, nếu coi chúng như là một khối lượng thông tin khổng lồ đang chuyển động chớ không phải là một khối lượng thông tin trơ ì. Chính các dữ liệu lớn này là trung tâm của sự chú ý ngày nay.
Một cuộc cách mạng tin học
George S. Day
Tin học của ngày hôm qua đã được xây dựng xung quanh việc quản lý các cơ sở dữ liệu tương đối ổn định, tương đối đóng và, có thể nói thêm rằng, tương đối hạn chế. Cuộc cách mạng đang diễn ra cả về quy mô, với khối lượng dữ liệu khổng lồ theo nghĩa đen, lẫn việc cập nhật thông tin liên tục, do việc mở cửa các cơ sở dữ liệu vào các dòng thông tin. Thêm vào đó là sự phức tạp của các định dạng và sự kết nối giữa các cơ sở dữ liệu, không bao gồm việc sử dụng các công cụ quản lý truyền thống.
Tất nhiên, chi phí lưu trữ ngày nay có xu hướng giảm, cũng nhanh gần như khi gia tăng dung lượng lưu trữ. Hơn nữa, các công cụ đã được phát triển, đặc biệt là các siêu máy tính, cho phép quản lý những khối lượng cơ sở dữ liệu khổng lồ.
Ngoài phần cứng, chính bản chất của các công cụ phân tích, trong lĩnh vực phần mềm, giờ đây là một thách thức. Các công cụ truyền thống, ví dụ như các thuật toán phân tích việc ra quyết định, đơn giản bị quá tải bởi khối lượng các dữ liệu được xem xét và bởi sự phân mảnh của chúng. Thông tin của dữ liệu lớn không phải được chứa hoàn toàn trong "cơ sở dữ liệu": trước hết chúng nằm ở bên ngoài, và cơ sở dữ liệu, nói đúng ra, mang tính ảo.
David Reibstein
Sự phát triển của Internet và sự xuất hiện của các dịch vụ công chúng là một thách thức đối với các hệ thống quản lý cơ sở dữ liệu. Ngay cả ý tưởng về những cơ sở dữ liệu có tính quan hệ (một khối lượng thông tin được phân tách và sắp xếp lại trong những ma trận được gọi là quan hệ hay bảng) cũng đều quá tải bởi dòng chảy của dữ liệu và bản chất thay đổi của chúng. Và cùng với cơ sở dữ liệu, những ngôn ngữ truy vấn có cấu trúc (Structured Query Language, SQL) theo kiểu cũ bị cuốn phăng, bởi vì chức năng của chúng (một cách thô thiển là: xác định dữ liệu, phân loại dữ liệu) chỉ có tính thao tác bên trong một cơ sở dữ liệu đóng, nhưng lại không hiệu quả trong một hệ thống mở.
Các hệ thống quản lý mới đã buộc phải từ bỏ một số tính năng để đạt được khả năng tính toán cao. Vì vậy, người ta thấy xuất hiện các công cụ mới: những cơ sở dữ liệu định hướng theo hàng cột đứng chớ không phải theo hàng ngang, hay những cơ sở dữ liệu "bên trong bộ nhớ", hoạt động chủ yếu trên cơ sở bộ nhớ trung tâm hơn là bộ lưu trữ trên đĩa cứng. Cơ sở dữ liệu “bên trong bộ nhớ" nhanh hơn so với các kiểu cơ sở dữ liệu khác, bởi vì việc truy cập dữ liệu và các thuật toán tối ưu hóa nội bộ hoạt động đơn giản hơn: do đó việc đọc dữ liệu cũng nhanh hơn.
Nhưng sự đổi mới lớn, một thay đổi mang tính đột phá, chính là những công cụ được cung cấp theo thời gian thực, mà thao tác không còn dựa trên những dữ liệu được lưu trữ mà dựa trên những dòng dữ liệu đầu vào, mà việc xử lý dữ liệu không cần phải tập trung. Đó là trường hợp của Streambase hay Hadoop, một nền tảng (plateforme) máy tính mở cho phép xử lý dữ liệu song song trên nhiều máy tính khác nhau. Việc xử lý dữ liệu về thực chất được chia thành hai kiểu thao tác: lập bản đồ (mapping) là việc xử lý một tập hợp dữ liệu con, thu gọn (reducing) là việc tổng gộp lại kết quả công việc của những người lập bản đồ.
Kỹ thuật điện toán đám mây này đặc biệt đã được các mạng xã hội lớn ứng dụng, và tham vọng của kỹ thuật này là phân tán đến vô tân việc xử lý dữ liệu: mỗi người dùng tích cực không chỉ đại diện cho một tập hợp dữ liệu, mà còn là một máy tính sẵn có.
Henri Verdier (1968-)
Phải làm gì với các dữ liệu ấy? Trong số các công cụ phân tích đặc biệt mang tính sáng tạo có các đồ thị, cho phép lập bản đồ những tương tác giữa các tác nhân trong một mạng. Như Henri Verdier giải thích, Google+, một mạng xã hội mới của Google, được xây dựng hoàn toàn xung quanh các "câu lạc bộ" quan hệ, được người sử dụng quản lý, nhưng cung cấp cho Google một kiến ​​thức vô song về các động thái của xã hội, vừa mang tính tổng thể (xu hướng, truyền bá ý kiến, v.v.) vừa mang tính cá nhân (thực hành, thói quen, sự thân thiết). Các đồ thị cho phép mô hình hóa những động thái của các nhóm nhỏ được tạo ra trong thời gian thực và theo cách tự động hoá, để đáp ứng mục tiêu quảng cáo, nhưng ta còn có thể tổng gộp các động thái này lại để phát hiện những xu hướng, những diễn biến quan điểm, những cách dùng mới nổi. Điều này cung cấp cho Google, không chỉ là một ý tưởng rõ ràng về các thực hành tiêu dùng, mà còn là những thông tin cực kỳ chính xác về các đối tác kinh doanh của họ, để từ đó cho họ một thế mạnh thương lượng vô đối.
Một thách thức cạnh tranh?
Nếu các đại gia Internet thấy được lợi ích của các công nghệ mới ấy, thì vấn đề này cũng thu hút sự quan tâm của rất nhiều doanh nghiệp và các tác nhân công cộng. Bởi vì các dữ liệu ấy vẫn còn là một mỏ chưa được khai thác. Tất nhiên thách thức then chốt là khả năng phân tích chúng. Một phần của câu trả lời mang tính kỹ thuật, phần kia là khả năng huy động các nguồn lực và năng lực, để vừa thiết lập các công cụ, quản lý chúng, và rút ra những thông tin hữu ích.
Một nghiên cứu của McKinsey đã nỗ lực đo lường tiềm năng kinh tế của biên giới công nghệ mới này, và kết quả rất hứa hẹn. Theo các chuyên gia tư vấn của McKinsey, không chỉ tất cả các thành phần kinh tế, mà còn cả các cơ quan hành chính công, sẽ có thể hưởng lợi từ phát minh mới này.
Điều này có vẻ hiển nhiên ví dụ trong các lĩnh vực như tiếp thị và quản lý hàng tồn kho, đối với các đại gia về phân phối và bán lẻ. Những năng lực tăng lên trong các lĩnh vực này sẽ tác động trực tiếp đến lợi nhuận ròng của họ. Nhưng những cơ quan hành chánh công lớn (thuế, y tế cộng đồng), quản lí dữ liệu của hàng chục triệu công dân hay đối tượng được bảo hiểm xã hội, cũng có thể cải thiện đáng kể các phương pháp quản lý của họ, qua việc dự báo các xu hướng và đặc biệt là các biến động chi phí, qua việc phát hiện tốt hơn những vụ việc bất thường (và như vậy, những vụ gian lận tiềm tàng), và nói chung sẽ hiểu tốt hơn việc sử dụng và thực hành của các đối tượng họ quản lí. McKinsey cũng gợi lên những lợi ích về năng suất trong lĩnh vực sản xuất công nghiệp.
Điều này đòi hỏi phải có những năng lực, và do đó không chỉ đòi hỏi một nỗ lực đào tạo nội bộ trong các tổ chức có liên quan, mà còn trong giới đại học. Xây dựng một môi trường thuận lợi cho việc phát triển các năng lực ấy là một quá trình lâu dài và khó khăn, nơi chắc chắn sẽ diễn ra một phần cuộc cạnh tranh trong tương lai.
Một cuộc cách mạng khoa học?
Jannis Kallinikos (1954-)
Ngoài những thách thức kinh tế, dữ liệu lớn cũng làm thay đổi đáng kể cách thức làm việc của các nhà khoa học. Theo giải thích của Jannis Kallinikos, giáo sư về quản trị tại Trường Kinh tế học London (London School of Economics), "việc phát triển kiến thức và rộng hơn là việc xây dựng ý nghĩa, ngày càng xuất phát từ sự giao hoán và sự hoán vị được thực thi trên cơ sở những khối lượng dữ liệu khổng lồ". Đây là một xu hướng xưa trong các ngành khoa học xã hội, nhưng giờ đây nó mở rộng ra cho toàn bộ các ngành khác.
Cách thức các dữ liệu được nắm bắt và tổng gộp vượt xa khả năng ghi nhớ và sự tập trung của các chuyên gia giỏi nhất. Jannis Kallinikos lấy một ví dụ từ một bài viết trên tạp chí Wired, về một nhà nghiên cứu thuộc trường Đại học California nỗ lực tìm hiểu quá trình lão hóa của xương. Công cụ của ông là một tập hợp các thiết bị quét, chụp các bức ảnh bằng tia X ở độ phân giải siêu cao và kết hợp các bức ảnh ấy thành một cấu trúc ba chiều. Kết quả sau đó được tổng gộp lại. Theo nhận xét của Jannis Kallinikos, mục đích chính của việc chụp quét xương không còn là cung cấp chứng cứ cho các chuyên gia: kiến ​​thức y khoa, cuối cùng nổi lên từ những dữ liệu ấy, sẽ là kết quả của những tương quan thống kê từ hàng đống teraoctet dữ liệu được thu thập qua hàng triệu bức ảnh chụp quét. Chúng ta không còn chứng kiến sự đối đầu giữa lý thuyết với thực tế, mà là một quá trình hoàn toàn mới: mô hình, nếu tồn tại, sẽ nổi lên từ các quá trình xử lý dữ liệu thống kê từ dưới lên trên.
Chris Anderson (1961-)
Vì vậy Chris Anderson, chuyên gia nổi tiếng về web, dự báo sự cáo chung của lý thuyết, có nghĩa là sự cáo chung của khoa học theo cách mà chúng ta đã biết: một sự phát triển mang tính suy diễn khái niệm dựa trên những chứng cứ thực nghiệm. Ông giải thích rằng, kiến ​​thức ngày càng được sản sinh theo cách quy nạp, từ những tương quan được trích xuất từ ​​các khối lượng dữ liệu khổng lồ. Đây có lẽ là một vấn đề còn tranh cãi; nhưng cuộc tranh luận mở cửa cho mọi người.
Huỳnh Thiện Quốc Việt dịch
Nguồn: Les promesses du Big Data, ParisTech Review, December 19th, 2011.
------

Bài có liên quan trên PTKT:


Print Friendly and PDF