PHÂN TÍCH KINH TẾ: Dữ liệu lớn từ A đến Z

14.3.16

Dữ liệu lớn từ A đến Z

Henri Verdier

Big Data (Dữ liệu lớn) ở khắp mọi nơi. Một số người lo ngại về một Big Brother^[*] (Đại Ca) mới, một số người khác thì ca tụng những khả năng tuyệt vời mở ra trong các lĩnh vực khá đa dạng như tiếp thị, dịch tễ học, hoặc quản lý đô thị, và Chris Anderson, một chuyên gia về web, tiên đoán sự xuất hiện của một khoa học phi lý thuyết. Một cuộc nổi dậy chăng? Không, thưa ngài: một cuộc cách mạng. Nhưng, thực tế thì chúng ta đang nói về những gì?

ParisTech Review – Trong khoảng thời gian hai hoặc ba năm nay, chủ đề Big Data (Dữ liệu lớn) chiếm ưu thế trong không gian công cộng, tạo ra sự phấn khởi và sự dè dặt ... mà không phải bao giờ ai cũng biết chính xác đó là gì. Ông có thể giải thích nhanh về điều ấy?

Henri Verdier (1968-)

Chris Anderson (1961-)

Henri Verdier – Sự lộn xộn này không có điều gì ngạc nhiên, bởi vì đó không những là một chủ đề mới, mà đặc biệt, đó là một cuộc đối đầu chính trị và kinh tế xung quanh định nghĩa của nó. Thuật ngữ "Big Data (Dữ liệu lớn)" dẫn đến ít nhất ba hiện tượng. Theo nghĩa hẹp, nó đề cập đến những công nghệ tin học mới trong lĩnh vực xử lý những dữ liệu cực lớn. Trong nghĩa rộng hơn, nó đề cập đến sự chuyển đổi kinh tế và xã hội mà các công nghệ này kéo theo. Cuối cùng, một số nhà phân tích từ đó tạo nên một sự đoạn tuyệt mang tính khoa học luận, với sự chuyển tiếp từ các phương pháp giả thuyết và suy diễn mà dựa trên đó khoa học hiện đại đã được xây dựng đến một logic quy nạp, rất khác biệt.

Hơn nữa, và điều này có lẻ làm tăng thêm sự lộn xộn, sự thịnh hành của Big Data mang lại những lợi ích to lớn. Ví dụ, chính trong lĩnh vực này mà IBM đã xây dựng sự hồi sinh của họ, và những gã khổng lồ khác như Google và Facebook cũng đang tích cực tham gia. Đây là một lĩnh vực gây được sự chú ý của các chuyên gia tư vấn và các nhà cung cấp dịch vụ, và tất cả những người đó đều có xu hướng đánh giá cao hiệu quả của công nghệ mà họ đang cố gắng chào bán.

Liệu ta có thể nói rằng chúng ta chỉ đối mặt với một bong bóng, một mốt nhất thời?

Chắc chắn là không. Nhưng, chính vì nó là một sự tiến hóa đáng kể, nên chúng ta phải thật bình tĩnh, và xem xét với tất cả sự tĩnh táo những gì được bày ra trước mắt chúng ta. Hãy bắt đầu từ điểm khởi đầu: sự nhập cuộc của công nghệ.

Hiện tượng đầu tiên là sự bùng nổ hàng loạt các dữ liệu được tạo ra, với các máy chủ ngày nay lưu trữ một lượng thông tin không tưởng chỉ cách đây vài năm (thông tin có sẵn dưới dạng kỹ thuật số tăng từ 193 petabytes vào năm 1996, tương đương với tất cả những cuốn sách được nhân loại in ra cho đến lúc bấy giờ, lên đến 2,7 zetabytes, tức khoảng một triệu lần lớn hơn vào năm 2012). Sự bùng nổ này có được điều kiện diễn ra bởi những tiến bộ của kỹ thuật, mà còn được thúc đẩy bởi những ứng dụng mới. Bạn và tôi, mỗi người, mỗi ngày, tạo ra và trao đổi ngày càng nhiều thông tin: tweets, bài viết, bình luận, tin nhắn SMS, email, v.v.. Với sự thịnh hành của công cụ "tự định lượng bản thân", giúp thu thập và chia sẻ các dữ liệu cá nhân, thì bản thân việc tạo ra dữ liệu thô cũng là một cách thức mới để tồn tại trên đời. Nhưng chúng ta cũng tạo ra dữ liệu mà bản thân chúng ta cũng không biết, khi mua một món hàng trong siêu thị, khi bấm chuột vào một bài báo trên mạng, và làm cho chúng ta bị định vị về mặt địa lý bởi chiếc điện thoại thông minh của chúng ta. Và, ngày càng nhiều, Internet sẽ giúp chúng ta tạo ra, hoặc làm cho chúng ta tạo ra, hàng khối dữ liệu mới: những thiết bị cảm biến tiếng ồn, tốc độ, sẽ giúp chuyển đổi dấu ấn của cơ thể chúng ta – giống như các cuộc trò chuyện của chúng ta trên Facebook ngày nay – thành dữ liệu thô.

Điều mới lạ thứ hai là khả năng mới để xử lý các dữ liệu nói trên. Theo một nghĩa nào đó, số lượng không xác định nên Big Data, mà đúng hơn là xác định một quan hệ nhất định với dữ liệu, một cách nào đó để chơi với dữ liệu. Chúng ta ngày càng biết nhiều cách tốt hơn để quản lý dữ liệu, đo lường chúng, diễn giải chúng, và theo một cách ngày càng ít tốn kém hơn. Công nghệ tin học "giá rẻ" này cho phép những tác nhân mới xuất hiện: không cần phải là CEA (Ủy ban năng lượng hạt nhân - ND) để thao tác với các terabytes.

Thậm chí ngày nay chúng ta chứng kiến sự phát triển, ở Thung lũng Silicon, một tin học (phần cứng) của Big Data (Dữ liệu lớn): một số tác nhân như Facebook, SAP, IBM, hay Goldman Sachs đã tự tổ chức và tài trợ những chương trình tập huấn cách thức để quản lý những khối lượng lớn dữ liệu. Một trong những thách thức, đối với họ, tất nhiên là đối phó với Google, tự cho mình là tác nhân xuất sắc trong việc xử lý Big Data. Những chương trình nói trên là chẳng hạn như chương trình MapReduce, trong đó Google cũng có tham gia. Đây là việc thực hiện những bài tính song song bắt đầu từ những khối lượng lớn dữ liệu. Ở đó, theo thuật ngữ về lập trình và kiến trúc hệ thống, có một triết lý mới: chúng ta không nhất thiết phải tìm cách phát triển những thuật toán tinh vi và phức tạp hoặc sử dụng những cỗ máy mạnh mẽ, mà đơn giản chỉ là tận dụng lợi thế sức mạnh của các thuật toán có sẵn, tiến hành một phép tính tương tự hàng triệu lần bằng những cỗ máy được lập trình song song. Ví dụ, sử dụng một ngàn máy chủ hiện diện trong đám mây (cloud) của Amazon. Về mặt phần mềm mạng máy tính, thì không ấn tượng cho lắm, nhưng kết quả thì có đó.

Những tiến bộ công nghệ nói trên không chỉ liên quan đến phép đo khối lượng. Chúng ta thường nói chúng hoạt động dựa trên "ba chữ V": Vélocité (tốc độ cập nhật cao), Variété (đa dạng) và Volume (khối lượng). Tin học về Big Data được đổi mới hàng ngày để xử lý những khối lượng lớn dữ liệu, thường ít được cấu trúc, trong thời gian kỷ lục (như đã thấy, ví dụ, với các giao dịch tài chính với tần suất cao).

Do đó, hiệu suất vừa liên quan đến số lượng các dữ liệu được xử lý, lẫn sự đa dạng của các nguồn dữ liệu và việc tìm một đáp số theo thời gian thực. Sức mạnh mới và có sẵn để dùng này làm nẩy sinh những chiến lược mới để xử lý dữ liệu. Chúng ta học cách thao tác các phân phối đầy đủ, các xác suất, thể hiện các vấn đề thành những hệ thống đưa ra quyết định tự động, xây dựng những cách hiển thị mới thành những quy tắc tương tác mới với dữ liệu.

Vì thế chúng ta thấy xuất hiện một trường phái tin học mới, một cách lập trình mới, một phần lấy cảm hứng từ văn hóa tin tặc. Trường phái này tập trung vào phần cứng máy tính trong những năm 1970, vào phần mềm máy tính trong những năm 1980–1990 với mã nguồn mở, vào nội dung mạng máy tính trong những năm 2000 với các lôgic phân chia, và từ bây giờ quan tâm đến dữ liệu. Vì vậy, chúng ta có thể tuyên bố rằng "Dữ liệu là mã mới", để nhấn mạnh rằng từ nay, dữ liệu không phải là một biến ngẫu nhiên, mà là chính mã phải tự tổ chức xung quanh dữ liệu...

Một tin học mới, hay chính xác hơn một triết lý tin học mới, liệu điều này có đòi hỏi các chuyên gia phải được đào tạo theo một cách khác không?

Vâng đúng, ngày nay chúng ta thấy xuất hiện một nghề: nhà khoa học dữ liệu, có thể được định nghĩa như sau: trước tiên đó là những nhà toán học giỏi và tất nhiên là những nhà thống kê; sau đó họ là những nhà tin học giỏi và nếu có thể là những "người tháo vát", ví dụ như có khả năng cài đặt ba máy tính ảo trên cùng một máy chủ; cuối cùng, và đây là một điểm then chốt, họ có thể cung cấp những ý kiến tư vấn mang tính chiến lược, bởi vì hầu hết các tổ chức ngày nay đều bị bất ngờ bởi Big Data (Dữ liệu lớn). Có khả năng là các chức năng trên sẽ được tách biệt một lần nữa trong tương lai, nhưng ngày nay, thì chúng ta cần đến ba năng lực nói trên.

Với ba năng lực cơ bản nói trên, có thể tôi sẽ bổ sung thêm khả năng hiển thị dữ liệu: có khả năng định hình, dưới một dạng thức có thể đọc được, các tính toán là điều vô cùng quan trọng nếu muốn Big Data được sử dụng cho một cái gì đó.

Vậy nói một cách chính xác, thì nó được dùng vào việc gì? Đâu là những ứng dụng của các kỹ năng mới này?

Nhìn chung, việc tạo ra và nắm bắt dữ liệu đã tạo ra giá trị. Tất nhiên câu hỏi được đặt ra là làm thế nào để biết ở đâu và như thế nào.

Chúng ta đã có những ứng dụng trong một số lĩnh vực: chúng ta nghĩ đến tiếp thị, tất nhiên, với việc quảng cáo đúng mục tiêu có thể thực hiện được bằng việc xử lý các dữ liệu đám mây do mỗi người lướt Internet tạo ra, hoặc nghĩ đến việc cá nhân hóa được Amazon tiến hành, có khả năng cung cấp cho bạn những cuốn sách hay những bộ phim gần với nguyện vọng của bạn một cách lạ lùng. Trong một tương lai xa hơn, chúng ta có thể hình dung, như trong bộ phim Minority Report, sự cá nhân hóa theo thời gian thực của sự hiển thị các bảng quảng cáo sẽ cho phép nhận ra các kiểu người khi họ đến gần chúng. Nói cho cùng, bộ phim Minority Report đã đưa những đổi mới được phát triển tại phòng lab truyền thông (Medialab) của trường MIT lên màn hình.

Nhưng đây mới chỉ là những ví dụ hiển nhiên, và Big Data (Dữ liệu lớn) còn liên quan đến nhiều tiến bộ khác. Ví dụ, chúng cho phép nhiều tác nhân phân tích các vấn đề phức tạp và có tính đến khả năng biến đổi của các trường hợp, thay vì lý luận về "khách hàng trung bình", "bệnh nhân trung bình" hay "cử tri trung bình" ...

Một tiến bộ khác, tất cả những gì có quan hệ với thời gian thực, liên quan đến sự tái đồng bộ hóa/tối ưu hóa các hệ thống. Đó là ví dụ về giao thông đường bộ, với ứng dụng tốt nhất mà tôi được biết là Waze (từ thuật ngữ tiếng Anh ways). Đây là một ứng dụng lưu thông di động, cho phép người lái xe ôtô xây dựng và sử dụng bản đồ, cập nhật lưu lượng giao thông theo thời gian thực và chọn hướng giao thông theo từng đoạn đường để cải thiện quãng đường đi hàng ngày của họ. Trong một lĩnh vực khác, giao dịch tài chính tần số cao cũng là một ứng dụng của Big Data. Đó không chỉ là nhân bội các hoạt động tài chính, mà còn là qua mặt các nhà giao dịch khác, bằng cách phản ứng lại và đáp lại các hoạt động nghiệp vụ của họ trong các kênh truyền thông hiệu quả hơn.

Chúng ta cũng có thể kể đến lĩnh vực đang nổi lên của nền kinh tế có sự phản hồi (feedback economy), dựa trên cơ sở sự lặp lại không ngừng cho phép tối ưu hóa mức cung – về mặt số lượng sẵn có lẫn giá. Hay các công cụ trợ lý cá nhân như SIRI, mà bạn tự tạo cho mình. Hay các ứng dụng như Dr. Watson, cung cấp các ý kiến trợ giúp chẩn đoán cho các đội ngũ y tế mũi nhọn.

Cụ thể, một ứng dụng như Dr. Watson đặt ra vấn đề về mức độ tin cậy của những diễn giải được xây dựng từ Big Data (Dữ liệu lớn).

Chúng tôi đồng ý với điều ấy, trong trường hợp này đó chỉ là một ý kiến trợ giúp chẩn đoán, không thay thế cho việc bác sĩ khám bệnh. Nhưng sẽ là điều sai lầm nếu chỉ dừng lại ở hành vi ghi nhận này. Có những tình huống mà chúng ta không có được dữ liệu đáng tin cậy. Liên Hợp Quốc, ví dụ, nhận những dữ liệu kinh tế đã có từ nhiều năm, và đôi khi thậm chí bị bóp méo. Trong ngành dịch tễ học, chúng ta làm việc dựa trên những dữ liệu đắt tiền và tốn nhiều thời gian để tạo ra. Thế mà chúng ta có thể theo dõi một dịch cúm hoặc sốt xuất huyết, với các truy vấn trên Google. Theo dõi một bệnh dịch theo thời gian thực với các dữ liệu miễn phí, thì quả thực là điều hữu ích! Những gì Big Data tạo ra, từ các nguồn dữ liệu thường không hoàn hảo hoặc không đầy đủ, thì đó không phải là một thông tin hoàn toàn chắc chắn, có bảo đảm, đáng tin cậy. Nhưng kỳ lạ thay, với định luật số lớn, thì đó lại thường là một thông tin hiệu quả.

Nhưng việc diễn giải các hiện tượng trên có ý nghĩa gì? Trong các cuộc tranh luận lặp đi lặp lại về Big Data (Dữ liệu lớn), có ý cho rằng đó là một cuộc cách mạng khoa học, tất nhiên với triển vọng của "khoa học phi lý thuyết" được Chris Anderson tiên doán.

Một lần nữa, chúng ta phải phân tích một số khác biệt. Có một điều gì đó hiển nhiên trong lĩnh vực các khoa học nhân văn và đặc biệt là khoa học tiếp thị và xã hội học, những khoa học chưa bao giờ có tham vọng làm hợp trội những định luật không thể thay đổi. Trong các bộ môn nói trên, Big Data không chỉ mang lại một khả năng xử lý dữ liệu lớn hơn, mà còn là một hình thức giải phóng dữ liệu trong cách gộp lại thành nhóm các dữ liệu ấy. Ví dụ, khi lập bản đồ 30 triệu blog (nhật ký web), thì xuất hiện những phạm trù xã hội học, những phạm trù mà các nhà xã hội học không hề nghĩ đến. Nói ngắn gọn, những phạm trù xã hội học phát sinh từ sự quan sát thực nghiệm có thể mang tính xác đáng rộng lớn hơn so với một số phạm trù có trước đó.

Chính điều ấy đã dẫn Chris Anderson, người viết xã luận của tạp chí Wired, xây dựng ý tưởng về một khoa học "phi lý thuyết", sử dụng phương pháp logic mang tính quy nạp chứ không còn mang tính suy diễn, theo đó người ta sẽ thấy sự thật xuất hiện gần như tự phát từ các dữ liệu. Đúng là với "cỗ máy học tập" (machine learning), chúng ta đi đến những tình huống mà chúng ta biết dự đoán, bằng những phương trình mà chúng ta không thực sự biết, ... những kết quả mà chúng ta không thể giải thích! Ví dụ tôi nghĩ đến một nghiên cứu được IBM thực hiện trong một bệnh viện phụ sản ở Toronto, cho phép họ dự đoán, dựa trên các thông số sinh học trong quá khứ của hàng ngàn hoặc hàng chục ngàn trẻ nhỏ, 24 giờ trước bất kỳ bác sĩ nhi khoa nào, trường hợp đứa trẻ nào sẽ bị nhiễm trùng sơ sinh. Trong ví dụ này, có một dự báo rất hữu ích, thậm chí mang tính sống còn, nhưng không hề có một lý thuyết cơ bản nào. Điều này không có ý muốn nói là không cần thiết phải tìm hiểu: các nhà thống kê nhấn mạnh rằng một nghiên cứu nghiêm túc về Big Data buộc chúng ta phải hiểu các quá trình tạo ra dữ liệu và diễn biến của chúng, và rằng những thao tác trên dữ liệu luôn dựa trên những suy diễn mang tính nhân quả cần phải được làm rõ.

Các cơ quan công quyền, thường sở hữu những dữ liệu thống kê nền tảng rộng lớn, có nắm bắt vấn đề không?

Có điều chắc chắn là có sự quan tâm, và những sáng kiến đáng chú ý. Một thành phố như New York, ví dụ, đã thành lập và đưa vào hoạt động một nhóm công tác nhỏ các nhà khoa học dữ liệu (data scientist), và họ đã chứng minh có khả năng rút ra những chỉ dẫn chính xác từ một lượng khổng lồ các dữ liệu công cộng của thành phố. Ví dụ, họ đã phát hiện những khu phố và đường phố có nhiều nguy cơ xảy ra hỏa hoạn hơn, giúp cắm các biển để lên lịch kiểm tra an toàn và làm giảm số vụ hỏa hoạn. Họ cũng phát triển một thuật toán giúp phát hiện hành vi trốn thuế, từ những tờ khai thuế – hay chính xác hơn, xác suất cao nhất, đối với một tờ khai nhất định, là tờ khai ấy có tính gian lận. Và điều đó tỏ ra có hiệu quả!

Tổ chức Liên Hiệp Quốc, với chương trình Global Pulse, nỗ lực sử dụng Big Data phục vụ cho việc phát triển con người: việc phân tích dữ liệu từ các mạng truyền thông di động và các mạng xã hội cho phép phát hiện, một cách nhanh chóng hơn các chỉ số thông thường, những áp lực về giá cả thực phẩm, sự khởi phát và diễn biến của dịch bệnh, những biến động của thị trường việc làm, v.v..

Từ đâu mà đôi khi chúng ta gắn khía cạnh "Big Brother (Đại Ca)" với Big Data (Dữ liệu lớn)?

Douglas Klein

Những ví dụ trước đây sử dụng các dữ liệu mang tính thống kê, chứ không mang tính cá nhân. Nhưng có điều chắc chắn là những phát triển của Big Data phải được đối chiếu với nỗi ám ảnh đương đại về tính minh bạch, và sự ngây ngô thường đi kèm, điều có thể cho thấy xuất hiện sự lo lắng. Douglas Klein, thuộc chuỗi các nhà sách Barnes & Noble, khẳng định rằng "riêng tư là con voi trong phòng", cho thấy có nhiều người Mỹ mong đợi một làn sóng điều tiết tất yếu, kết quả của một cuộc nổi dậy của quyền công dân.

Về phần mình, tôi nghĩ rằng chúng ta có một số thách thức nghiêm trọng hơn nhiều so với cuộc sống riêng tư trong nghĩa hẹp, vốn sẽ được bảo vệ bằng cách này hay cách khác. Vì vậy, theo sau Daniel Kaplan, tôi quan sát và thấy rằng nếu chúng ta thường quan tâm đến những khía cạnh gắn với vấn đề bảo mật dữ liệu, thì còn có một vấn đề khác cũng không kém phần quan trọng, mà chúng ta lại ít quan tâm đến, đó là quyết định tự động. Ví dụ, đó là toàn thể các thao tác qua đó, trong một tương lai không xa, một người bán trực tuyến có thể ấn định giá một vật phẩm hay một dịch vụ, không phải dựa vào toàn thể những người mua, mà dựa vào mức giá mà bạn, và chính xác chỉ có bạn, sẵn sàng trả. Chúng ta hoàn toàn có thể tưởng tượng rằng trang web có khả năng phác họa hồ sơ của người mua, và chào một mức giá dựa trên hồ sơ của người mua ấy. Tất nhiên không phải là bất cứ giá nào, mà là giá cao nhất mà người mua sẵn sàng trả. Kiểu phác họa nói trên hoàn toàn có khả năng trở thành nền tảng của mối quan hệ, trong nhiều môi trường. Và đó là điều đáng lo ngại.

Để trở lại với các dữ liệu công cộng và cách sử dụng chúng, nó không chỉ giới hạn trong mục đích quản lý hành chính. Những phát triển thú vị nhất đôi khi xảy ra khi khu vực công cộng từ bỏ thế độc quyền trên một số dữ liệu và tạo ra khả năng cho các tác nhân khác sử dụng chúng. GPS (hệ thống định vị toàn cầu), ban đầu được quân đội Mỹ phát triển, từ nay là một ví dụ kinh điển của chiến lược này.

Sự chuyển động của dữ liệu mở, sự thả lỏng của dữ liệu công cộng, cũng là một thách thức lớn. Nó vận động theo hai hướng: Hội nghị thượng đỉnh mở rộng được tổ chức từ năm 2009 đã chỉ ra rằng chúng ta có thể đưa vào khu vực công cộng những quy định và phương pháp cho phép phát triển những dịch vụ mới, bằng cách tạo ra giá trị kinh tế và xã hội; một cách đối xứng, để đẩy nhanh sự phát triển của các dịch vụ này, khu vực công cộng có mọi lợi ích khi tạo điều kiện cho công chúng sử dụng một số dữ liệu mà họ sở hữu. Thành phố Paris, cũng như những thành phố khác trên thế giới, đã hiểu được điều trên.

Blue Button

Nhưng chúng ta có thể đi xa hơn. Một phát triển gần đây mà người ta gọi là "sự phơi bày thông minh": một chiến lược đề cập đến việc "trả lại dữ liệu" cho những người tạo ra chúng, để họ được hưởng lợi. Ví dụ tốt nhất theo quan điểm của tôi là nút Blue Button của các cựu chiến binh người Mỹ. Khi sử dụng một số dịch vụ trực tuyến, họ nhấn vào nút nói trên và dịch vụ sẽ được cá thể hóa, trở nên hiệu quả hơn. Trong ví dụ này, chúng ta cũng ghi nhận rằng người ta không thực sự "trả lại" dữ liệu cho công dân, mà cho phép công dân truyền dữ liệu cho bất cứ ai mình muốn.

Có một nghị trình chính trị khả thi, mà chúng ta có thể xác định nhanh vấn đề. Trước hết là sử dụng các khả năng của Big Data để nhanh chóng đo lường hiệu quả của các chính sách công, và cải thiện chúng. Tiếp theo, là mở cho công chúng tiếp cận những dữ liệu công cộng xác đáng nhất, thậm chí nhắm đến chúng sao cho có thể huy động được các tác nhân tư nhân và xã hội tham gia vào các chiến lược công. Và cuối cùng là tạo điều kiện cho “sự phơi bày thông minh” cung cấp những dịch vụ mới cho người dân.

Henri Verdier

Giám đốc điều hành, Etalab

Georges Charpak (1924-2010)

Sinh năm 1968, Henri Verdier tốt nghiệp ngành sinh học từ trường Ecole Normale Supérieure. Ông cũng có bằng triết học và xã hội học chính trị. Năm 1995 ông thành lập công ty Cred-M (sau này là Odile Jacob Multimédia), quản lý nó cho đến năm 2007. Công ty Cred-M chuyên về các dự án giáo dục kỹ thuật số, hoạt động cùng với các nhà khoa học, như Georges Charpak, người đoạt giải Nobel. Năm 2007, Henri được công ty Lagardère Active thuê làm giám đốc phụ trách về cải tiến và đổi mới, trước khi được Viện Institut Telecom tuyển làm giám đốc phụ trách về triển vọng phát triển. Năm 2010, ông trở lại thế giới khởi nghiệp với việc đồng sáng lập công ty MFG-R&D. Kể từ năm 2009, ông cũng là chủ tịch của Cap Digital, một cụm kinh doanh về nội dung số hóa. Ông là thành viên của Hội đồng Khoa học của Viện Institut Télécom và của nhiều ủy ban về triển vọng phát triển (ARCEP, CNIL, Ecole des Gobelins).

Ông là tác giả, cùng với Nicolas Colin, của cuốn L'Age de la multitude (Armand Colin, 2012). Một bài phỏng vấn với Nicolas và Henri đã được đăng trên tạp chí ParisTech Review: "The Economics of the Multitude".

Huỳnh Thiện Quốc Việt dịch

Nguồn: “Les Big Data de A à Z”, ParisTech Review, November 16th, 2012.

[*] Big Brother ("Đại ca") là một nhân vật hư cấu trong cuốn tiểu thuyết của George Orwell năm 1984. Thuật ngữ "Big Brother" được sử dụng để mô tả tất cả các thể chế toàn trị hay thực hành vi phạm các quyền tự do cơ bản và sự riêng tư của người dân hay của cá nhân. (ND) (https://fr.wikipedia.org/wiki/Big_Brother)^↩

Trang

14.3.16

Dữ liệu lớn từ A đến Z

Dữ liệu lớn từ A đến Z

Giám đốc điều hành, Etalab