PHÂN TÍCH KINH TẾ: Dữ liệu lớn và dữ liệu cá nhân: hướng tới việc quản trị có tính đạo đức các thuật toán

2.9.16

Dữ liệu lớn và dữ liệu cá nhân: hướng tới việc quản trị có tính đạo đức các thuật toán

Dữ liệu lớn và dữ liệu cá nhân: hướng tới việc quản trị có tính đạo đức các thuật toán

Gần như khó có thể tưởng tượng được cuộc sống đương đại nếu không bàn đến việc chúng ta sử dụng hàng ngày các hệ thống thông tin được triển khai trên các máy tính, điện thoại thông minh, máy tính bảng, GPS, và từ nay còn thêm các thiết bị kết nối khác. Chúng ta đắm mình trong một thực tế kỹ thuật số được kiểm soát và cá nhân hóa, hội tụ vô số các dòng chảy thông tin. Việc khai thác các dữ liệu này trở thành một chủ đề nhạy cảm, bởi vì chúng ảnh hưởng trực tiếp đến sự riêng tư của chúng ta. Tất nhiên mỗi người đều có những công cụ cho phép điều chỉnh một số các thông số – ví dụ, chấp nhận hay không việc định vị địa lý. Nhưng sự kiểm soát cá nhân này chỉ mang tính cục bộ và hầu như chưa ai có khả năng thực hiện nó một cách nghiêm túc. Vì vậy câu hỏi được đặt ra ở một cấp độ kiểm soát khác, ở cấp độ quản lý Dữ liệu lớn. Bằng cách nào? Bên cạnh những giải pháp thể chế được xây dựng dựa trên các cơ quan kiểm soát, còn nổi lên một hướng là khai phá dữ liệu có đạo đức (ethical data mining).

Với sự phát triển của các công nghệ về Dữ liệu lớn, các thuật toán khai thác các dòng chảy dữ liệu đóng một vai trò ngày càng mang tính quyết định đối với sự lựa chọn của cá nhân. Có lẽ quá đáng khi nói rằng các thuật toán ấy kiểm soát chúng ta, nhưng chúng định hướng chúng ta trong rất nhiều quyết định, từ việc lựa chọn một khách sạn hay một vé máy bay đến việc lựa chọn một lộ trình, một cuốn sách trên Internet, hay việc gặp gỡ bạn bè mới trên các mạng xã hội.

Khi tạo điều kiện dễ dàng để chúng ta lựa chọn, khi tạo các thói quen lựa chọn của chúng ta, các thuật toán ấy tham gia vào cách thức tổ chức đời sống xã hội. Vì vậy, chúng ta đang chứng kiến sự nổi lên kín đáo của một "quyền lực" thuật toán được chủ yếu tiếp liệu bởi các dữ liệu thô. Năng lực của quyền lực này trong việc can thiệp vào đời sống riêng tư nhất của chúng ta là điều hoàn toàn mới: ngay cả các chế độ toàn trị, cùng với đội quân gián điệp và chỉ điểm của các chế độ ấy, cũng không dám mơ ước điều này. Việc khai thác trên quy mô lớn và diện rộng các dữ liệu này cho phép tạo ra các thông tin được cá nhân hóa, dựa trên một sự tiên đoán về điều khả thi và nhắm đến việc "tạo điều kiện" cho chúng ta ra quyết định, và cách làm này có những điểm không rõ ràng. Những tổ chức mà chúng có tiếp xúc dưới dạng số đều quan tâm đến những lựa chọn của chúng ta, tìm cách tiên đoán chúng, định hướng chúng. Chúng ta hầu như không có khả năng kiểm soát, và thậm chí hầu như không có cách để hiểu được những tiêu chí được các thuật toán vận dụng để tìm hiểu và tác động đến bản thân chúng ta.

Làm thế nào để nắm lại khả năng kiểm soát? Một trong những hướng thú vị nhất là thông qua việc xây dựng và thiết lập một mô hình hóa phù hợp để phân tích, tìm hiểu và xử lý những khối lượng lớn các dữ liệu phức tạp ấy. Có thể gọi đó là một mô hình hóa "đạo đức".

Mô hình hóa đạo đức các dữ liệu phức tạp

Chúng ta hãy thống nhất một điều. Vấn đề không phải là kìm hãm sự phát triển của Dữ liệu lớn, càng không phải là quay lùi lại, mà là làm sao cho đời sống chúng ta không bị điều khiển bởi một sự duy lý mù quáng hay chỉ phục tùng những mệnh lệnh duy nhất nào đó của sự tiếp thị. Ngược lại, thách thức là xây dựng một mô hình hóa tương thích vừa với yêu cầu về ý nghĩa và vừa với tiềm năng to lớn của Dữ liệu lớn.

Vì vậy, chúng ta hoàn toàn có thể hình dung một mô hình hóa có tính đạo đức các dữ liệu phức tạp, vì một lý do thuộc về chính ngay chức năng vận hành của việc khai phá dữ liệu. Bởi vì các thuật toán quy nạp nằm ở trung tâm của Dữ liệu lớn được thúc đẩy bởi một lôgic gần gũi một cách lạ lùng với "minh triết thực tiễn" vốn ở trung tâm của đạo đức học.

Trong đời sống hàng ngày, con người cảm nhận dữ liệu, diễn giải thông tin, kết nối với các kiến thức khác đã được ghi nhớ trước đây và như vậy có được những năng lực cần thiết để vận dụng sau này theo cách lặp đi lặp lại. Như vậy, con người có được một "minh triết thực tiễn", có thể hình thức hóa và tinh chỉnh hóa theo một "minh triết", có nghĩa là một nghệ thuật ứng xử.

Các thuật toán khai phá dữ liệu được thúc đẩy bởi một lôgic rất gần với lôgic được con người vận dụng trong hành vi ứng xử hàng ngày của họ: một lôgic không mang tính diễn dịch, mà mang tính quy nạp. Các thuật toán của dữ liệu lớn không được thiết kế để đưa ra những chứng minh, để tạo ra những kết quả không thể chối cãi, được chứng minh bằng a + b. Chúng vận dụng những dữ liệu cục bộ, không đầy đủ, ít có cấu trúc, những dữ liệu không cho phép kiểu suy luận nói trên. Chức năng của chúng đúng hơn là nhận ra những sự lặp đi lặp lại, nhận diện các sơ đồ, các mô hình ứng xử: chẳng hạn như, trên Amazon, chúng nhận ra một đọc giả của một cuốn sách nào đó có nhiều khả năng sẽ quan tâm đến một cuốn sách khác. Chúng thu thập dữ liệu, tổng gộp chúng thành thông tin, diễn giải những thông tin ấy, kết nối với các kiến thức khác đã được ghi nhớ trước và từ đó đưa ra những lựa chọn có giới hạn, hướng tới một mục đích thực tiễn. Tính mục đích này nằm ở ngã ba đường giữa lợi ích của chúng ta và lợi ích của tổ chức sở hữu các hệ thống thông tin, theo nhiều cấu hình khác nhau, từ một tính gần như trung lập đến một định hướng bắt buộc theo một một sản phẩm nào đó, theo một lộ trình nào đó, theo một lựa chọn nào đó.

Thời điểm then chốt, đối với con người cũng như đối với các thuật toán, là vấn đề đơn giản hóa, có nghĩa là việc chuyển đổi một tập hợp phức tạp các dữ liệu thô thành một thông tin thực tế. Đặc biệt là sự đơn giản hóa này, trong trường hợp của các công nghệ thông tin, nhắm đến việc ưu tiên cho một entropi rất thấp, có nghĩa là một mức độ hỗn độn gần như bằng không. Để lấy lại ví dụ của Amazon, điều này có nghĩa là không nên đề nghị cho một người thích khoa học viễn tưởng một cuốn sách về dân tộc học. Chính vào thời điểm then chốt của sự đơn giản hóa này mà việc mô hình hóa đạo đức các dữ liệu phức tạp cần phải nỗ lực đi cùng và nuôi dưỡng ý nghĩa.

Có hai nguyên tắc bắt buộc.

Thứ nhất, "thông tin" mà chúng ta đang nói phải nằm trong một khuôn khổ hệ thống kết nối nó với hành động thông qua kiến thức. Thông tin được tổng gộp thành kiến thức, nhưng kiến thức này là một kiến thức thực tế, được đúc kết trong hành động. Nó không phải là một kiến thức hiểu biết mà là một kiến thức biết để sử dụng.

Nguyên tắc thứ hai bắt nguồn trực tiếp từ lý thuyết thông tin. Chúng ta có thể trình bày nó như thế này: thay vì mô tả quá trình, chúng ta chuộng mô tả trạng thái hơn. Thách thức của đạo đức, cũng như thách thức của các Dữ liệu lớn, là bước chuyển từ một trạng thái các hiểu biết phức tạp, vô tổ chức và không rõ ràng sang một trạng thái các hiểu biết đơn giản, có cấu trúc và hướng tới một đích.

Một vấn đề then chốt: thứ bậc hóa dữ liệu

Một giai đoạn mang tính quyết định của việc đơn giản hóa dữ liệu là việc thứ bậc hóa dữ liệu. Chính sự thứ bậc hóa mới cho phép "điều chỉnh" các thuật toán, làm cho chúng tạo ra một kết quả có thể dùng được. Sự thứ bậc hóa này trước tiên đòi hỏi chúng ta phải suy nghĩ về giá trị của dữ liệu, mở ra cả một loạt các câu hỏi: Vì sao phải đánh giá dữ liệu, với mục đích gì và theo những mục tiêu gì? Chúng ta ước tính giá trị của một dữ liệu và một thông tin theo những tiêu chí nào? Và, đặc biệt, chúng ta phải đánh giá những gì?

Giá trị của một dữ liệu có thể được đánh giá dưới góc độ của nội dung: ví dụ, một nhấp chuột có nghĩa là bạn thích, là bạn tiến lên theo một hướng nào đó hay là bạn quay trở lại, hay là bạn hoàn tất một giao dịch thanh toán. Giá trị của dữ liệu cũng có thể được ước tính dưới góc độ của tính rườm rà, tính đa dạng và số lượng. Nó cũng phụ thuộc vào kiến thức tổng hợp: một số dữ liệu tạo ra ít kiến thức, một số dữ liệu khác thì có ý nghĩa nhiều hơn. Cuối cùng, chúng ta có thể đánh giá giá trị của dữ liệu theo mức độ chia sẻ, theo chất lượng và số lượng trao đổi.

Nhưng giá trị của dữ liệu cũng chuyển biến theo dịch vụ cung cấp cho người sử dụng. Đánh giá một thông tin, do đó cũng là xác định chiến lược truyền tải: truy cập vào những thông tin đúng vào đúng thời điểm, chọn lọc việc truyền tải thông tin theo các mối quan tâm và theo nhu cầu của người sử dụng, để đấu tranh chống lại thông tin sai lạc và dư thừa thông tin.

Do đó, điều cần thiết là xác định những dữ liệu nào và lượng thông tin nào cần thiết để nhà thiết kế một hệ thống sẽ cung cấp cho người sử dụng. Những dữ liệu nào là cần thiết cho người sử dụng để quyết định "đúng" hay để hành động "đúng"? Để đạt được một sự cân bằng thực tế trong các hệ thống thông tin giữa sự cải thiện và sự quá tải các dữ liệu được truyền, có hai biến có thể giúp tối ưu hóa chức năng thứ bậc hóa và lựa chọn.

Biến đầu tiên, là việc đánh giá lại sự phân bổ dữ liệu trên nhiều mức độ khác nhau của hệ thống. Nếu việc đánh giá lại này mang tính tuần hoàn, thì sự quá tải kết hợp với sự di chuyển dữ liệu theo hướng này và hướng khác có nguy cơ làm mất các kết quả thu được nhờ vào sự di chuyển của dữ liệu trên các đĩa lưu trữ.

Biến thứ hai, là số lượng các dữ liệu cần đưa vào trong đơn vị lưu trữ tối thiểu, kế đến là quản lý và di chuyển trong hệ thống thông tin. Một lần nữa, một lượng dữ liệu quá lớn sẽ làm phức tạp và làm chậm chức năng thứ bậc hóa và lựa chọn của hệ thống.

Công việc thứ bậc hóa và đánh giá dữ liệu này là điều rất quan trọng. Bởi vì, chính tại nơi đây mà một chiều kích đạo đức có thể được đưa vào. Hãy xem xét một trường hợp thực tế, đặc biệt nhạy cảm: các dữ liệu y tế.

Một ví dụ về phân tích đạo đức: dữ liệu y tế

Tom Beauchamp (1939-)

James Childress (1940-)

Dữ liệu y tế tồn tại ở ranh giới của hai thế giới: sự riêng tư của bệnh nhân cần được bảo vệ, và dữ liệu thống kê về dịch tễ học, có một mức độ hữu dụng nhất định đối với toàn thể dân chúng (mà còn đối với các thầy thuốc, bảo hiểm xã hội, ngành công nghiệp dược phẩm, các công ty bảo hiểm, các nhà thuốc, các bệnh viện ...). Làm thế nào để nối khớp hai chiều kích này?

Một cách tiếp cận về đạo đức có thể dựa vào bốn nguyên tắc được Tom Beauchamp và James Childress xác định trong công trình tham chiếu về vấn đề này, Principles of Biomedical Ethics – Các nguyên tắc của đạo đức y sinh (2001).

Nguyên tắc thứ nhất là làm điều đúng, được định nghĩa như là một đóng góp cho phúc lợi của người khác. Hành động "làm điều đúng" phải đáp ứng hai quy tắc rõ ràng: nó phải mang tính có lợi, và nó phải mang tính có ích, có nghĩa là có một quan hệ tích cực về chi phí và lợi ích.

Ÿ Nguyên tắc thứ hai, quyền tự chủ: việc một người tự đề ra cho bản thân một quy tắc ứng xử. Nguyên tắc này nhắm đến sự tham gia của bệnh nhân vào quá trình ra quyết định.

Ÿ Nguyên tắc thứ ba, "không làm điều xấu": tránh làm điều xấu đối với người mà chúng ta có trách nhiệm, tránh làm những điều tổn hại hay đau khổ, không có ý nghĩa gì đối với người ấy.

Ÿ Cuối cùng, nguyên tắc thứ tư, công lý, có thiên hướng chia sẻ các nguồn lực có sẵn cho tất cả các bệnh nhân (thời gian, tiền bạc, năng lượng). Nguyên tắc này gắn chặt với các khái niệm về bình đẳng và công bằng, có tác động trong quá trình đưa ra một quyết định về công lý. Lý tưởng nhất thì mọi hành động cần phải nhắm đến một sự bình đẳng hoàn hảo, nhưng tùy theo hoàn cảnh và con người, thường thì sự công bằng sẽ thắng thế để thiết lập các vấn đề ưu tiên và một hệ thống thứ bậc nào đó trong hành động.

Dựa vào các dữ liệu y tế, ta có thể đưa ra một lựa chọn đúng đáp ứng ba trong bốn nguyên tắc đạo đức sau:

Ÿ Nguyên tắc của hành động đúng, khi sự truyền tải kiến thức một cách thích đáng đến người sử dụng (các chuyên gia y tế và các công dân) đảm bảo tính có căn cứ và tính chính đáng của hành động. Việc truyền thông sẽ trở nên hiệu quả hơn.

Ÿ Nguyên tắc tự chủ, khi một thông tin rõ ràng, chính xác, phù hợp và dễ hiểu, thì nó đảm bảo sự ưng thuận sáng suốt của con người. Bệnh nhân luôn có khả năng cân nhắc, đưa ra quyết định và hành động.

Ÿ Cuối cùng, nguyên tắc của hành động không làm điều xấu, khi quyền truy cập có giới hạn vào dữ liệu tùy theo nhân thân và cương vị của người sử dụng, sẽ cải thiện tính an toàn, bảo mật và bảo vệ dữ liệu.

Tuy nhiên, thiết kế chọn lọc dữ liệu này có một tác động ngược với nguyên tắc về công lý, thông tin được chuyển giao không hoàn toàn giống nhau và còn tùy theo người sử dụng hệ thống thông tin là ai. Hệ thống áp đặt những quy tắc phân bổ và truy cập thông tin khác nhau tùy theo cương vị của người sử dụng. Sự bất đối xứng về kiến thức mang tính phân biệt đối xử và làm đặt lại vấn đề về tính minh bạch của thông tin.

Theo cách tiếp cận này, việc phân loại và lựa chọn dữ liệu được thực hiện theo tầm quan trọng mà người ta gắn cho chúng và theo những câu hỏi được đặt ra về việc sử dụng và truyền tải dữ liệu. Việc đơn giản hóa sự truyền tải dữ liệu dẫn đến một cách sử dụng và truy cập hiệu quả hơn, với việc nắm bắt dữ liệu tốt hơn và bảo mật dữ liệu nhiều hơn. Ngược lại, nó dẫn đến một tính toàn vẹn dữ liệu ít hơn. Từ vấn đề này, việc thứ bậc hóa dữ liệu sẽ đơn giản hóa công việc của nhiều người sử dụng khác nhau, nhưng lại khiến cho nhà thiết kế hệ thống thông tin phải đối mặt với một mức độ phức tạp kỹ thuật lớn hơn.

Việc thứ bậc hóa có chọn lọc các dữ liệu này đóng một vai trò to lớn trong mức độ phức tạp của dữ liệu và khả năng tiếp cận dữ liệu của người sử dụng. Chúng ta có thể đồng nhất nó với một "trí tuệ về tổ chức". Các thuật toán được thiết kế theo các nguyên tắc của việc khai phá dữ liệu có đạo đức làm sản sinh ra những thông tin mới, mà người ta có thể gọi là "thông tin đạo đức". Thông tin tiền xử lý này, theo một lưới đánh giá đạo đức, sẽ chứa nhiều giá trị hơn cho hoạt động khai thác dữ liệu trong tương lai.

Khi đạo đức cải thiện chất lượng của dữ liệu

Thiết kế thứ bậc hóa này và sau đó chọn lọc các dữ liệu ban đầu sẽ dẫn đến một sự cải thiện giá trị về chất lượng và entropi của kiến thức, bất chấp việc mất đi về mặt số lượng của dữ liệu và thông tin. Do đó, một hệ thống thứ bậc hóa và chọn lọc tự động các dữ liệu sẽ cho phép một hệ thống lưu trữ di trú các dữ liệu một cách tự động sang một lớp những dịch vụ đúng với nhu cầu của từng người sử dụng.

Cách tiếp cận này khớp hoàn toàn với các công trình về những thuật toán quy nạp, nằm ở trung tâm của các công nghệ về Dữ liệu lớn. Đối với một vấn đề nhất định, không tồn tại một giải pháp quy nạp duy nhất và phổ quát. Tuy nhiên, điều phổ biến là có một số nhỏ các phương pháp xử lý đáp ứng một mục đích cụ thể. Cũng như một quá trình đạo đức, các thuật toán quy nạp hiệu quả nhất đều mang tính tiến hóa. Chúng được cải tiến bằng cách điều chỉnh cách thức xử lý dữ liệu theo cách sử dụng thích đáng nhất có thể có được. Để xây dựng các thuật toán này, điều cần thiết là việc xử lý dữ liệu phải mang tính tiên đoán và đóng góp. Để làm được điều này, việc khai thác Dữ liệu lớn phải chuyển đổi càng sớm càng tốt các dữ liệu ấy thành thông tin đạo đức có thể khai thác được vào các lần sau.

Trong bối cảnh này, việc nghiên cứu giải pháp thứ bậc hóa và lựa chọn qua một lăng kính đạo đức sẽ cho phép hiểu rõ hơn về sự cân bằng không ổn định giữa tính sẵn có, tính bảo mật và việc bảo vệ dữ liệu. Sự cân bằng này có thể nghiêng về bên này hay bên kia tùy thuộc vào bối cảnh cụ thể. Một cách tiếp cận như vậy sẽ dẫn chúng ta đến việc đặt ra một loạt các câu hỏi trước khi tiến hành việc lựa chọn dữ liệu: những mục tiêu, mục đích, thách thức và ý nghĩa của giai đoạn này là gì? Tôi sẽ sử dụng những dữ liệu nào? Một phần hay toàn bộ dữ liệu? Tôi sẽ sử dụng chúng như thế nào? Ở đâu? Với những người sử dụng nào? Nói tổng quát hơn, làm thế nào để khai thác tập hợp không đồng nhất các dữ liệu được tích lũy và lưu trữ trong một hệ thống thông tin? Tính thích đáng của thông tin so với tình huống của tôi là gì? Liệu điều đó có làm sai lệch bản chất giá trị thông tin ban đầu không? Tính toàn vẹn của thông điệp cuối cùng có được bảo toàn không?

Jerome Beranger

Công nghệ không thể trả lời hết các câu hỏi nói trên. Chúng ta cũng cần phải viện đến quy chế đạo đức hành nghề và hành vi của con người để đảm bảo sự riêng tư và việc bảo vệ các dữ liệu cá nhân. Có thể đạt được điều này bằng một bản điều lệ về đạo đức liên quan đến quan điểm thiết kế, việc thiết lập và sử dụng các dữ liệu cá nhân được hợp nhất trong các Dữ liệu lớn này. Lúc bấy giờ sẽ đặt ra vấn đề về cơ chế hay định chế sẽ chịu trách nhiệm chuẩn bị bản điều lệ này, và các quá trình gắn nhãn hiệu cho các thuật toán "đạo đức".

Jerome Beranger, Cố vấn cao cấp, Keosys, nhà nghiên cứu hợp tác với tổ chức Espace éthique méditerranéen.

Huỳnh Thiện Quốc Việt dịch

Nguồn: Big Data et données personnelles: vers une gouvernance éthique des algorithmes, ParisTech Review, December 22nd, 2014