6.9.21

Các sức mạnh và nguy cơ khi sử dụng dữ liệu số để hiểu hành vi của con người

CÁC SỨC MẠNH VÀ NGUY CƠ KHI SỬ DỤNG DỮ LIỆU SỐ ĐỂ HIỂU HÀNH VI CỦA CON NGƯỜI

Khoa học xã hội tính toán là một công cụ nghiên cứu mạnh mẽ. Nhưng nó lại cần các ngành khác nhau để tìm ra một ngôn ngữ chung.

Các nhà khoa học xã hội tính toán đã sử dụng dữ liệu từ các điện thoại di động để nghiên cứu đại dịch vi rút corona. Nguồn ảnh: Paul Seheult / Eye Ubiquitous / Universal Images Group / Getty

Các nguyên do của sự do dự đối với việc tiêm vắc-xin là gì? Làm thế nào để có thể khuyến khích người dân tập thể dục nhiều hơn? Chính phủ có thể làm gì để cải thiện sức khỏe của người dân?

Các nhà khoa học xã hội nghiên cứu những vấn đề này quan sát cách người dân hành xử, ghi nhận dữ liệu về những hành vi đó, rồi sau đó nâng cao kiến ​​thc bằng cách phỏng vấn và/hoặc thăm dò ý kiến ​​những đối tượng mà họ đang nghiên cứu. Việc thực hiện nghiên cứu theo cách này là một quá trình thủ công và tốn nhiều thời gian. Hơn nữa, rất khó để có được một lượng lớn dữ liệu cùng một lúc.

Nhưng giờ đây, các nhà nghiên cứu có thể truy cập vào một lượng lớn dữ liệu xã hội chưa từng có, được tạo ra mỗi giây bởi các tương tác liên tục trên các thiết bị hoặc nền tảng kỹ thuật số. Chúng bao gồm dữ liệu truy vết các chuyển động, những lần mua hàng và các tương tác xã hội trực tuyến của người dân — tất cả dữ liệu này đều đem lại sức mạnh phi thường cho nghiên cứu. Kết quả là, công việc kết hợp phân tích dữ liệu lớn với các vấn đề xã hội, được gọi là khoa học xã hội tính toán, đã chứng kiến sự phát triển vượt bậc trong những năm gần đây.

Tờ Nature số đặc biệt: Khoa học xã hội tính toán

Chỉ riêng trong suốt quá trình của đại dịch vi rút corona, các nhà nghiên cứu đã có thể truy cập hàng triệu dữ liệu trên điện thoại di động để nghiên cứu cách di chuyển của con người đã thay đổi như thế nào trong đại dịch và tác động của những thay đổi đó lên phương thức lây lan của SARS-CoV-2. Họ đã có thể truy cập lịch sử mua hàng bằng thẻ tín dụng đã được ẩn danh để nghiên cứu cách người dân tiêu tiền trong đại dịch — thông tin sau đó được sử dụng để hiểu COVID-19 đang tác động như thế nào lên các lĩnh vực khác nhau của nền kinh tế.

Việc sử dụng máy vi tính để phân tích các tập dữ liệu lớn đã có rất sớm từ thời những chiếc máy tính lớn — và đã trở thành trọng tâm trong công việc của các nhà định phí bảo hiểm |actuaries| và văn phòng thống kê quốc gia, cả hai đều từ lâu đã trở thành những nguồn lực quan trọng cho các nghiên cứu về xã hội và con người. Tuy nhiên, sự phong phú của thông tin theo thời gian thực và ở cấp độ cá nhân hiện có sức mạnh vô song trong việc theo dõi các xu hướng, đưa ra những dự đoán và đưa ra các quyết định. Và tính khả dụng của nó đưa nó vào tầm với của mọi chuyên ngành khoa học xã hội: các nhà nghiên cứu trong các lĩnh vực từ tâm lý học đến kinh tế học và khoa học chính trị giờ đây có thể dựa vào dữ liệu để tăng cường các cuộc điều tra những vấn đề hệ trọng về xã hội.

Sức mạnh và tính trách nhiệm

Đồng thời, các nhà nghiên cứu cần nhớ rằng việc thu thập và chia sẻ dữ liệu cá nhân như vậy — các hoạt động hiện nay phần lớn không được kiểm soát — đặt ra nhiều thách thức cho xã hội. Chúng bao gồm các rủi ro từ việc tăng cường hoạt động giám sát và nguy cơ người dân có thể bị nhận dạng ngược lại từ dữ liệu ẩn danh.

Mỗi người dân nên quyết định cách dữ liệu số của họ được sử dụng — chứ không chỉ các công ty công nghệ

Cũng có những lo ngại rằng những người có dữ liệu đang được sử dụng không hoàn toàn đồng ý với điều này — và lo ngại rộng hơn về sự độc quyền kinh tế của các tập đoàn công nghệ sở hữu phần lớn dữ liệu. Những dấu vết kỹ thuật số này có xu hướng bị bỏ lại một cách không tương xứng bởi những người khá giàu có ở các nước phát triển, làm thiên lệch những nỗ lực để đưa ra các kết luận có tính toàn cầu. Việc thừa nhận và làm việc với những vấn đề này là chìa khóa của khoa học xã hội tính toán có đạo đức nhằm thúc đẩy sự tiến bộ xã hội thực sự.

Nhu cầu kết hợp giữa năng lực chuyên môn trong các ngành khoa học xã hội với các kỹ năng cần thiết để thu thập, làm sạch và phân tích các tập dữ liệu lớn có nghĩa là khoa học xã hội tính toán đòi hỏi các nhóm nghiên cứu có thể sở hữu một tập hợp đa dạng đáng kể về năng lực chuyên môn và các kỹ năng. Song cùng với sự hợp tác giữa các ngành sẽ có những thách thức khác.

Tuần này, tờ Nature sẽ xuất bản một bộ sưu tập đặc biệt của các bài nghiên cứu với mục tiêu là kết nối các ngành nghiên cứu và các quan điểm trong việc thực hành khoa học làm nền tảng cho khoa học xã hội tính toán. Chúng tôi nêu bật những phương thức mà cộng đồng các nhà khoa học xã hội, nhà khoa học tự nhiên và nhà khoa học máy tính có thể học hỏi lẫn nhau để làm việc cùng nhau tốt hơn, bổ sung cho nhau và vượt qua những thách thức chung.

Những chiếc cầu vững chắc hơn

Để bắt đầu, các ngành khác nhau cần phải vượt qua rào cản ngôn ngữ mà ở đó những thuật ngữ giống nhau có các ý nghĩa khác nhau. Thí dụ, trong nhiều ngành khoa học xã hội (như tâm lý học và xã hội học), ‘prediction’ |tiên đoán| thường đề cập tới một mối tương quan; trong khoa học vật lý (chẳng hạn như vật lý học, khoa học máy tính và kỹ thuật), nó thường có nghĩa là một dự báo. Nghiên cứu xuyên ngành thực sự đòi hỏi các nhà khoa học trước tiên phải học các ngôn ngữ của nhau, rồi sau đó mới phát triển sự hiểu biết chung về các thuật ngữ.

Nhưng hố ngăn cách có thể còn sâu hơn sự bất đồng ngôn ngữ, liên quan đến cách thức tổ chức, phân tích và diễn giải dữ liệu để giải thích một hiện tượng. Jake Hofman tại Trung tâm Nghiên cứu Microsoft ở Thành phố New York và các đồng nghiệp cho rằng khoa học xã hội tính toán có thể trả lời một cách hữu hiệu nhất các câu hỏi nghiên cứu bằng cách kết hợp các phương pháp tiếp cận bổ sung. Thí dụ, các nhà nghiên cứu xây dựng một dự báo số về các nguyên nhân gây ra tắc đường sẽ thu thập dữ liệu về các luồng giao thông, với những nhận thức thấu đáo từ những người lái xe về các lý do tại sao họ lại chọn các tuyến đường cụ thể đó.

Cuộc chiến Trí tuệ Nhân tạo (AI) về mặt đạo đức tại hội nghị máy học |machine-learning| lớn nhất thế giới

Các kết quả của bất kỳ nghiên cứu nào được xác định không chỉ bởi những chiến lược phân tích được sử dụng mà còn bởi cả chất lượng của dữ liệu — và điều này trở nên đặc biệt tinh tế khi xử lý dữ liệu xã hội. Một lượng lớn dữ liệu sẵn có giúp cho khoa học xã hội tính toán trở nên khả thi — chẳng hạn như các dòng tweet hoặc dữ liệu vị trí từ điện thoại — thường không được thu thập cho mục đích nghiên cứu và vì vậy có thể dễ dàng bị diễn giải sai.

David Lazer
Claudia Wagner

Đó là lý do tại sao, như David Lazer tại Đại học Northeastern ở Boston, Massachusetts và các đồng nghiệp viết, các nhà nghiên cứu làm việc với các tập dữ liệu lớn phải chống lại việc đưa ra các kết luận chỉ từ các xu hướng hoặc mô hình được nhìn thấy trong các con số — và nên tính đến các yếu tố có thể tác động lên một kết quả. Để rút ra ý nghĩa thực sự từ dữ liệu, các nhà nghiên cứu cần đảm bảo rằng họ xác định cẩn thận các đối tượng đo lường của họ theo lý thuyết, xác nhận chúng và diễn giải chúng một cách thích hợp.

Tầm ảnh hưởng trên diện rộng của thuật toán là một nguồn gốc khác của sai lầm tiềm năng, như Claudia Wagner tại Viện Leibniz về các ngành Khoa học Xã hội tại Mannheim, Đức, và các đồng nghiệp giải thích. Họ lưu ý rằng các thuật toán phổ biến trong xã hội của chúng ta ảnh hưởng lên hành vi cá nhân và hành vi nhóm theo nhiều cách — điều đó có nghĩa là bất kỳ quan sát nào không chỉ mô tả hành vi của con người mà còn mô tả cả tác động của các thuật toán lên cách người dân hành xử. Họ cho rằng các lý thuyết đem lại thông tin cho khoa học xã hội cần được cập nhật để thừa nhận những ảnh hưởng này; nếu như không có những lý thuyết này và một sự hiểu biết rõ ràng về tác động của các thuật toán lên dữ liệu có sẵn, thì các nhà nghiên cứu sẽ chẳng thể đưa ra các kết luận có ý nghĩa.

Jathan Sadowski

Tuy nhiên, một yếu tố phức tạp khác đối với khoa học xã hội tính toán là các tập dữ liệu lớn thường là tài sản riêng của các doanh nghiệp thương mại. Các nhà khoa học hàn lâm cần hợp tác với các tập đoàn để có được quyền truy cập, và điều này có thể dẫn tới nhiều thiên kiến hơn. Điều này một phần là do, đối với các công ty, dữ liệu có giá trị — và vì thế việc chia sẻ dữ liệu là một rủi ro đối với lợi nhuận của họ. Đó là một trong những lý do tại sao các công ty có xu hướng hạn chế những gì họ chia sẻ, như Jathan Sadowski tại Đại học Monash ở Melbourne, Úc cùng các đồng nghiệp nhấn mạnh. Song xét về tiềm năng của những dữ liệu này trong việc đem lại các lợi ích xã hội, các công ty — cùng với các nhà nghiên cứu hàn lâm và các cơ quan công quyền — cần cùng tham gia vào những vấn đề này và đặt ra các bộ tiêu chuẩn về chất lượng, quyền truy cập và quyền sở hữu dữ liệu.

Các con đường phía trước

Có nhiều cách để thu thập dữ liệu hữu ích và đáng tin cậy, như Mirta Galesic tại Viện Santa Fe ở New Mexico và các đồng nghiệp mô tả trong một bài nghiên cứu về ‘cảm nhận xã hội của con người’. Đây là nghiên cứu về cách các cá nhân thu thập thông tin về những người khác trong các mạng xã hội của họ. Thí dụ, các nhà nghiên cứu có thể tiên đoán sự chuyển hướng trong các quan điểm chính trị bằng cách phỏng vấn người dân và hỏi họ về những gì bạn bè của họ đang nói. Việc thu thập dữ liệu về người dân từ những người khác có thể giúp tránh một số thiên kiến ​​được thấy trong dữ liệu tự báo cáo và có thêm lợi ích là sản sinh ra dữ liệu ẩn danh: các nhà nghiên cứu chẳng bao giờ cần biết bất kỳ thông tin chi tiết cá nhân hoặc thông tin nhạy cảm nào về những người mà họ đang nhận thông tin.

Hồi phục trong đại dịch COVID-19: Khoa học không đủ để cứu chúng ta

Một lĩnh vực khác đã chín muồi cho sự phát triển nằm ở sự giao thoa giữa mô hình bệnh truyền nhiễm với khoa học hành vi. Như Caroline Buckee của Trường Y tế Công cộng Harvard T.H. Chan ở Boston và các đồng nghiệp cho rằng một mô hình lây nhiễm và nhiễm trùng chính xác đòi hỏi các nhà nghiên cứu phải hiểu các nền văn hóa và những hành vi của những người đã — hoặc có thể — bị nhiễm bệnh. Thật khó để dự đoán đường đi của bệnh dịch nếu như không xem xét các khía cạnh này và các khía cạnh xã hội khác của sự lây nhiễm. Sự hợp tác có cấu trúc và rộng lớn vượt lên các ngành là chìa khóa để đạt được điều này.

Đại dịch đã cho thấy làm thế nào để có thể cứu được mạng sống khi các bộ dữ liệu quy mô lớn được khai thác vì khoa học. Tiềm năng này chỉ bắt đầu trở thành hiện thực khi các nhà nghiên cứu có nền tảng về khoa học máy tính hoặc toán học ứng dụng tham gia với các nhà khoa học xã hội. Các mối quan hệ này phải làm sâu sắc hơn và bao gồm các nhà nghiên cứu trong nhiều lĩnh vực hơn — chẳng hạn như đạo đức học, nghiên cứu có trách nhiệm và nghiên cứu khoa học và công nghệ — để đảm bảo rằng chúng ta tránh được những cạm bẫy đã biết, và đảm bảo rằng chúng ta sử dụng những dữ liệu này theo cách tối đa hóa tri thức lĩnh hội được và giảm thiểu tác hại tiềm tàng.

Sự hợp tác xuyên ngành hiếm khi dễ dàng, song điều này lại rất cần thiết cho cả những quyết định tốt hơn lẫn cho các kết quả vững chắc. Tờ Nature cam kết thúc đẩy cuộc trao đổi [học thuật] này, giúp các nhà khoa học học các ngôn ngữ của nhau để những nhà nghiên cứu có thể cùng nhau đạt được tiến bộ hơn trong một số vấn đề cấp bách nhất của xã hội.

Nature 595, 149-150 (2021)

doi: https://doi.org/10.1038/d41586-021-01736-y

Các từ khóa: Khoa học Máy tính, Xã hội, Cơ sở Dữ liệu

Nguyễn Việt Anh dịch

Nguồn: The powers and perils of using digital data to understand human behaviour”, Nature, July 01, 2021.

Print Friendly and PDF