PHÂN TÍCH KINH TẾ: Phả hệ nhỏ của trí tuệ nhân tạo thị giác

25.2.26

Phả hệ nhỏ của trí tuệ nhân tạo thị giác

KỸ THUẬT SỐ

PHẢ HỆ NHỎ CỦA TRÍ TUỆ NHÂN TẠO THỊ GIÁC

Nhà sử học, giảng sư Đại học Lille

Chỉ trong vài ngày, những hình ảnh do trí tuệ nhân tạo tạo ra thể hiện Nicolás Maduro bị bắt cóc và bị giam đã xâm chiếm các mạng xã hội. Những sản phẩm được chụp thô này biểu thị một tương quan mới với hình ảnh, hơn là lấp đầy một khoảng trống thông tin: vui nhộn, tức thì, tổng hợp. Thông qua những deepfakes được lan truyền này tái hiện một câu chuyện dài về tính thị giác và niềm tin dành cho hình ảnh.

“Sự hình thành và phổ biến những hình ảnh được tạo ra bởi các phương tiện tin học mở màn cho sự xâm chiếm những “không gian” thị giác hoàn toàn được chế tạo ra và vượt xa khả năng bắt chước của điện ảnh, nhiếp ảnh, và truyền hình, những phương tiện này tương ứng với một góc nhìn nằm trong không gian thực^[1].”

Chỉ trong vài ngày, hàng chục hình ảnh và video được trí tuệ nhân tạo tạo ra phô bày tổng thống Nicolás Maduro mặc áo khoác Nike, từ nay trở thành biểu tượng của việc bắt cóc ông, đã xâm chiếm các mạng xã hội. Rất nhiều những hình ảnh siêu giả mạo này đã được tạo ra cùng với diễn tiến của các sự kiện, như để đáp trả việc thiếu thông tin bằng hình ảnh, và được tiếp sức nguyên xi bởi những nhân vật của công chúng và những chính trị gia.

Có lẽ đó là sự kiện đầu tiên có tầm ảnh hưởng lịch sử được bao quanh bởi những sáng tạo thích hợp. Sau báo ảnh, và sau điện thoại thông minh của các nhân chứng hay tác nhân của các sự kiện là sự tưởng tượng.

Trong một video, Nicolás Maduro vừa bị đưa đến nhà tù, lần lượt giới thiệu cho chúng ta – với nụ cười trên môi - những “đồ ăn vặt” mới của mình trong bộ quần yếm màu cam - Mussolini, Pinochet, Saddam Hussein, Kadhafi, Hitler, Sarkozy, Staline, Franco – cùng với Donald Trump, để đi đến một sự đồng loã cuối cùng để lộ ra “lý do dầu mỏ” của chiến dịch, tất cả video được phụ hoạ bởi giai điệu âm nhạc của loạt phim truyền hình Narcos. Câu chuyện hài hước đáng ngờ này nói lên sự tích hợp các trí tuệ nhân tạo tạo sinh thị giác vào thế giới các biểu tượng meme và giải trí lan truyền trên mạng. Sau những hình ảnh giả về những hành động bạo lực và những đám đông cuồng nhiệt, cuối cùng là gây nghi ngờ về toàn bộ lĩnh vực thị giác (một phần vì sự kiện này có vẻ không thực và sự bác bỏ nó lúc đầu hầu như là một bằng chứng về sức khoẻ tâm thần), đó không phải là lấp đầy hay đánh lừa, mà là giải trí với thời sự bằng các phương tiện khác với các biếm hoạ thông thường, những hình ảnh được sửa chữa/biến đổi hay lắp ghép.

Vẻ tự nhiên khi ta sáng tạo và nhìn những deepfakes này đã được lan truyền nhanh chóng trên Internet – ta có thể nói là trong vòng một năm, 2025 – và vẻ tự nhiên này thúc đẩy ta tự vấn về phả hệ của tính thị giác tổng hợp nói chung. Nói cách khác, nó khiến ta kết nối chế độ thị giác này với một câu chuyện cả về kỹ thuật lẫn văn hoá, thường là một câu chuyện về những lo ngại đối với hình ảnh.

Trạng thái tinh thần của ba mươi năm gần đây (đã ba mươi năm rồi!) thật đơn giản: chúng ta không ngừng sản xuất nhiều hình ảnh hơn và chúng ta không ngừng chia sẻ với nhiều người hơn, đến độ chúng ta có cảm giác quá thừa thải và mất kiểm soát, được tiếp sức bởi chính những nhà chuyên môn. Đứng trước cơn “đại hồng thuỷ”, một số người có thái độ thực tế: hãy trao cho thế hệ trẻ những phương tiện để hiểu, vì thế giới của chúng ta không chỉ bão hoà hình ảnh mà từ nay thế giới được tạo ra bởi các hình ảnh. Nối dài sự phê bình “xã hội diễn cảnh” và lặp lại thực tại bởi hình ảnh.

Ngay từ những năm 1950, với điện ảnh và nhất là truyền hình, đạt được sự thông thạo thị giác và truyền thông trở thành một mối quan tâm của các nhà sư phạm. Trong những năm 1990, một “bước ngoặt thị giác” (visual turn) được chẩn đoán đồng thời bởi giới đại học Bắc Mỹ và châu Âu.

Thế là một số người chú tâm mô tả sự phát triển của một văn hoá thị giác được toàn cầu hoá thông qua công nghiệp văn hoá và các công nghệ kỹ thuật số đang bùng phát. Một số khác phân tích những cái mới trong liên minh cũ giữa nhìn thấy và quyền lực – ví dụ giám sát bằng video với drone trong chiến tranh hay cách mạng được truyền tải trực tiếp. Lòng ham muốn của chúng ta chưa bao giờ lớn như thế và nhanh chóng được thoả mãn khi nhìn “từ xa” sự rối loạn của thế giới. Sống – và tự nuôi sống mình – với những hình ảnh trong thời buổi khủng hoảng, và sống – và nuôi sống – khủng hoảng bằng các hình ảnh, như con lắc của những hành động của chúng ta được huấn luyện bởi những biến cố như biến cố 11 tháng chín hay “cuộc khủng hoảng di dân”.

Còn một số người khác giải mã các công cụ và các biểu trưng độc đoán mà chống lại chúng là vũ khí của một hoạt động tích cực mang tính công dân sản xuất ra những phản thị giác. Ở đây, hình ảnh và những cái thấy được chủ yếu là có tính chính trị, bởi vì chúng cho biết bằng chứng về mặt lịch sử và xác định những cách thức chung sống và tương quan với cái công cộng. Vậy là trí tuệ nhân tạo thị giác đi vào một lĩnh vực quan trọng rất sắc bén, nhưng điều đó không có nghĩa là không thách thức để hiểu những tác động của nó và đặt nó trong một câu chuyện khá dài.

Màn hình trở thành nơi chuyển tiếp bất kỳ hình ảnh nào

Vậy, trước tiên, một hình ảnh là gì trong văn hoá phương Tây. Chúng ta sống trong một thế giới hình ảnh phẳng, chủ yếu là có hình chữ nhật và dạng “ảnh chụp”. Hệ hình này, mặc dù được toàn cầu hoá, hoàn toàn là một sự lạ lùng. Trong phần lớn các xã hội xưa hay truyền thống, những hình ảnh là phù điêu và thường có hình dạng của cái mà chúng thể hiện. Đó là những vật thể mà ta chạm vào, ta uốn nắn. Dù là điêu khắc hay bích hoạ: chúng cũng thường không tách khỏi một nơi chốn, kể cả do chức năng văn hoá hay thanh thế của chúng.

Ngược lại, những hình ảnh của chúng ta chủ yếu là những bề mặt, thậm chí là những thiết bị, như máy chiếu chẳng hạn. Theo cách đó, ta thường viện dẫn sự “phi vật chất hoá” các hình ảnh. Tuy nhiên, các hình ảnh chưa bao giờ lệ thuộc các kỹ thuật “nặng” đến thế. Một hình ảnh thường tương ứng với một vật thể (một bưu ảnh, một tờ/đồng tiền), nhưng từ thế kỷ XVIII, với đèn lồng ma thuật (lanterne magique) hay kính lập thể vào thế kỷ XIX, nơi chốn của hình ảnh bắt đầu “bồng bềnh” giữa công cụ, phương tiện trợ giúp và người quan sát; càng ngày hình ảnh càng khó được định vị. Qua đó tôi muốn nói rằng có lẽ cái mới ít được tìm kiếm từ phía gọi là tính phi vật chất hay tính tức thời hơn là từ mối liên hệ giữa hình ảnh và đối tượng.

Từ nay một số vật thể có khả năng tiếp nhận vô số hình ảnh. Đó là điều mới. Ta có thể xác định những vật thể này là “đa thị giác”, nếu ta muốn xác định đặc điểm của sự gián đoạn này, nghĩa là sự dịch chuyển từ đối tượng hình ảnh sang đối tượng màn hình: Màn hình trở thành nơi chuyển tiếp bất kỳ hình ảnh nào. Đó là một trong những điểm mấu chốt cần nhớ nếu ta muốn thiết lập một khảo cổ học về hình ảnh đương đại bằng cách sử dụng những hình ảnh do trí tuệ nhân tạo tạo ra.

Để dẫn dắt một thị giác tạo sinh, ta có thể cần đến hai thời khắc khác – không nhất thiết phải đi ngược thời gian đến “biểu tượng” Hy Lạp, tất nhiên vốn là nguyên mẫu của hình ảnh như ta biết và sự thống trị về hình thức của nó dẫn vào một sự phê phán hậu thuộc địa.

Thời khắc thứ nhất: là châu Âu, giữa thế kỷ XIII và thế kỷ XVII, ta chứng kiến sự ra đời của của hình dạng bức tranh, khác với tranh bích hoạ và bức hoạ sau bàn thờ: nếu tôi có thể nói, bức hoành di động trở thành cái khung của tác phẩm nghệ thuật và của thị trường hình ảnh. Đồng thời, bản chép tay được minh hoạ của thời trung cổ đóng một vai trò trong việc thu gọn hình ảnh vào những hình dạng và thiết bị hỗ trợ hiện thời. Và tính quy chuẩn này gia tăng cùng với sự chuyển dịch sang sách in và các kỹ thuật khắc chạm.

Thời khắc thứ hai: phát minh các phương thức nhiếp ảnh vào thế kỷ XIX. Sự phát triển của nhiếp ảnh, rồi sự phổ biến rộng rãi từ những năm 1870-1880, đã một cách nào đó đóng dấu vào vận mệnh của hình ảnh. Điều mà nhiếp ảnh thêm vào, và chúng ta cần tuyệt đối nhấn mạnh nếu ta muốn nghĩ đến hình ảnh tổng hợp, đó là ý tưởng về hình ảnh duy trì một mối gắn kết gần như vật lý với thực tại.

Hệ hình thị giác cũ là hòm thánh tích, theo nghĩa là hình ảnh trưng bày, chứa đựng (một vị thần), đồng thời nó là đại diện cho vị thần đó. Chạm vào hình ảnh chính là thiết lập liên lạc. Nói chuyện với hình ảnh chính là nói với hình mẫu của nó. Hình mẫu này hành động thông qua đại diện của nó, khi không phải chính hình ảnh được cho là thực hiện các phép mầu hay trừng phạt. Còn hệ hình thị giác của tính hiện đại lại là theo chỉ vết: chỉ vết là một dấu hiệu thể hiện một mối liên hệ vật chất với nguồn gốc của nó, ví dụ như một dấu chân. Hình ảnh là dấu vết. Hình ảnh chụp nhân bản thực tại một cách gần như thần kỳ.

Bản thể học này đi từ kinh nghiệm nhìn thấu qua một hình ảnh để đạt đến chủ thể của nó đến những lý thuyết sành sỏi nhất: đó là “tính nhiếp ảnh” của Rosalink Krauss, đó là “Đó đã là” (ça a été) của Roland Barthes trong những năm 1970 – 1980, đó là sự sợ hãi của những chuyên gia giỏi nhất trong những năm 1990 rằng việc pixel hoá hình ảnh đánh dấu sự chấm hết của niềm tin vào thực tại của cái mà hình ảnh phô bày ra. Platon đã biến hình ảnh thành sự dối trá đáng gờm, đối với Aristote là một phương tiện nhận thức, hay một phương tiện khai mở trí tuệ đối với Grégoire le Grand vào thời Trung Cổ, còn tính hiện đại thị giác đã biến hình ảnh thành nơi chốn của chân lý, dù sao đó là một chứng cứ, và là một bảo đảm tối thiểu, vào một thời điểm nhất định, về sự tồn tại của những sự vật, con người hay tình huống mà hình ảnh cho thấy.

Thế nhưng từ những năm 1980, trước tiên là với hình ảnh tổng hợp, do Jonathan Crary gợi ra ngay từ những dòng mở đầu, và ngày nay với những hình ảnh do trí tuệ nhân tạo tạo ra, ta chứng kiến một sự rời bỏ, nhưng là một sự rời bỏ đặc biệt, bởi vì suy cho cùng, hội hoạ đã thực hiện sự rời bỏ với thực tại. Ta còn có thể nói rằng chính trong công việc về sự chênh lệch mà nghệ thuật xác định chỗ đứng, cách thực hiện. Tuy nhiên, hội hoạ lấy lại những yếu tố của thực tại để xây dựng một hình ảnh nhưng bằng cách xa rời sự giống nhau tức thì và trực tiếp, trong khi trí tuệ nhân tạo lấy lại những yếu tố của thực tại để xây dựng một hình ảnh tự nhiên.

Kết quả là cuộc tranh luận cũ về sự chân thực của hình ảnh lại tái diễn nhưng lần này sự hoài nghi đối với hình ảnh có khác đi, sự bối rối mang tính nhân học đối với ký hiệu nói chung, tức là khả năng làm cho cái vắng mặt trở nên hiện diện, nay chuyển thành sự bối rối trước việc làm cho cái không tồn tại trở nên hiện diện (như thể là thực). Hình ảnh tổng hợp không làm điều gì khác ngay từ những năm 1980. Ngoại trừ hình ảnh được dành cho những hiệu ứng đặc biệt và cho hoạt hình, là những hình thức thị giác tự nó xa rời thực tại theo nhận thức chung. Đó không phải là trường hợp các cách sử dụng của chính các trí tuệ nhân tạo thị giác. Vì tất cả các lý do này, ta có xu hướng cho rằng trí tuệ nhân tạo thị giác đánh dấu một sự gián đoạn lịch sử, một sự tăng tốc gần như điên cuồng, một điểm không thể quay lại, cũng quan trọng như phát minh ra chữ viết hoặc máy in, với tư cách là kỹ thuật của trí tuệ. Tôi thiên về nhận thức rằng trí tuệ nhân tạo thị giác đã trở nên rất khả thi nhờ một loạt những biến động về kỹ thuật và xã hội trước đây.

Những thiên kiến được quy cho trí tuệ nhân tạo tạo sinh trước hết là những thiên kiến mang tính cấu trúc, hệ thống và những hiệu ứng chung cuộc của chúng không khác mấy hiệu ứng của điện ảnh hay truyền hình.

Những thay đổi kỹ thuật-xã hội đang diễn ra từ những năm 1960 đã làm cho kỹ thuật hình ảnh tạo sinh trở nên khả thi, nhưng, – điều này ít rõ rệt hơn – chúng cũng đã lưu trữ các kho dự trữ hình ảnh mà dựa vào đó trí tuệ nhân tạo đã được huấn luyện và do đó là kết quả tiềm tàng của mọi câu lệnh (prompt) về sáng tạo thị giác. Hiện tượng “số hoá” các hình ảnh đương nhiên là một quy trình kép.

Một mặt các máy móc sản xuất hình ảnh đã trở thành kỹ thuật số. Ta hãy nghĩ đến hình ảnh đầu tiên mang tín hiệu kỹ thuật số là hình ảnh chụp Sao Hoả khi phi thuyền Mariner bay ngang qua vào tháng 7 năm 1965. Ta hãy nghĩ đến những máy ảnh đầu tiên được đưa ra công chúng với thiết bị cảm biến CCD [charge coupled device] vào đầu những năm 1990. Đó là một câu chuyện dài nhưng mới và có tính quyết định.

Mặt khác, những hình ảnh tương tự còn tồn tại dần dần được số hoá, một cách đại trà, nhờ vào những sáng kiến riêng, rồi nhờ vào phần lớn những định chế lớn và những trung tâm tư liệu. Một số người sẽ còn nhớ vào năm 1989, Bill Gates đã lập ra công ty Interactive Home Systems, sau đó đổi tên là Corbis, với tham vọng số hoá kho hình ảnh khổng lồ để sau đó thương mại hoá chúng mãi mãi [ad infinitum]. Các doanh nhân mơ tưởng đến một thị trường hình ảnh nằm trong tay họ. Nhưng không có ai kể cả Bill Gates biết trước sự xuất hiện – chỉ vài năm sau khi có Internet – của những nền tảng “tự do” dành cho hình ảnh tĩnh và động như Flickr, được tạo ra năm 1997, Photobucket năm 2003 hay YouTube năm 2005.

Sự xáo trộn ảnh hưởng đến cả các phương thức sản xuất, lẫn phổ biến và tư vấn. Thực tế, những hình ảnh không chỉ được thực hiện và phổ biến duy nhất bởi những người chuyên nghiệp, nhiếp ảnh gia, nhà báo, nghệ sĩ, nhà điện ảnh, nhà khoa học. Đó là “cuộc cách mạng của những người nghiệp dư”, tương quan với mô hình động (phiên bản 2.0) của công nghệ Interrnet^[2].

Những “Lưu trữ của Hành tinh” thứ hai này có một sự thiên lệch không được nhận ra khi đối diện với những thiên lệch cục bộ và phiến diện của trí tuệ nhân tạo vốn tạo ra sự lo lắng trong giảng dạy hay của các bậc cha mẹ. Những cơ sở dữ liệu giải trí lớn như LAION hay ImageNet, được biết đến với những bộ ảnh có ghi chú, hay Shutterstock, Open Images hay Getty Images, thường có tính đại chúng và tư liệu vì một số như Flickr chứa các kho sách của hàng chục cơ quan công (từ Thư viện Quốc Hội cho đến các bảo tàng địa phương), nổi bật với sự thể hiện quá mức tính thị giác Anh-Mỹ, và khi không phải là trường hợp như vậy, các kho dữ liệu lại mang dấu ấn của chủ nghĩa đế quốc văn hoá, qua nhiều bộ sưu tập “những vùng xa lạ”.

Những thiên kiến (về dân tộc học, xã hội học…) được quy cho trí tuệ nhân tạo tạo sinh trước hết là những thiên kiến mang tính cấu trúc, hệ thống, và những hiệu ứng chung cuộc của chúng không khác mấy hiệu ứng của điện ảnh hay truyền hình: tăng cường các tiêu chuẩn thị giác, và nhất là vô hình hoá những nền văn hoá ngoài châu Âu, và của các nhóm thiểu số trong lòng văn hoá châu Âu. Theo cách của mình, trí tuệ nhân tạo tạo sinh dần đưa nền văn hoá thống trị trở lại, bằng các bộ sưu tập hình ảnh, bằng sự dán nhãn chúng và bằng các cách ra câu lệnh, nghĩa là sự bất lực của chúng ta về nhận biết các thiên kiến hoặc chúng ta lười biếng trong việc điều chỉnh chúng.

Với trò chơi này, các trí tuệ nhân tạo không che giấu những nhược điểm của chúng. Nếu bạn yêu cầu chúng cho biết là các kết quả có khách quan không, có trung tính không… chúng sẽ trả lời là không, vì chúng lấy thông tin của một nền văn hoá nhất định và nền văn hoá này (nếu ta yêu cầu xác định rõ) bao gồm những thiên kiến về chủng tộc, về giới (male gaze – nhãn quan nam giới dị tính – nổi tiếng), thiên kiến về giai cấp được đề ra bởi tính quy chuẩn tân-tư sản. Có lẽ các trí tuệ nhân tạo đã đọc Kimberlé Crenshaw, Stuart Hall và học thuyết phê bình của những người tác nghiệp quyền lực. Cuối cùng, chúng không quên những thiên kiến liên quan đến các giá trị, bao gồm những thiên kiến về “né tránh đạo đức” đối với bạo lực và khoả thân, và cần thêm vào những thiên kiến về thẩm mỹ (trí tuệ nhân tạo nói lấy cảm hứng nhiều nhất từ nhiếp ảnh thương mại, thời trang và điện ảnh) và những thiên kiến về môi trường (một khung cảnh sống hiện đại và sạch sẽ, thành thị nhiều hơn nông thôn, (“kiểu Pinterest/Instagram”). Chúng sẽ nói với bạn rằng, do đó, những hình ảnh chúng tạo ra hàm chứa tiềm tàng tất cả những thiên kiến này, do đó, người sử dụng trước tiên cần tự vấn về thế giới họ đang sống, rằng họ có mong muốn sử dụng chúng không, một cách có ý thức, như là một công cụ sáng tạo hoặc là một công cụ nhận thức. Lại hoàn toàn bắt đầu lại từ đầu dự án giáo dục và các khoa học xã hội liên quan.

Đoạn Deepfake về Nicolás Maduro, trong đó ông ta tự hào khoe hình ảnh những bạn tù thê thảm của ông qua các khung hình selfie kiểu cameo, nghịch lý lại là thoát khỏi những hệ quả này vì lẽ trên thực tế tin giả này tái hiện một cách rõ ràng toàn bộ các mô-típ thị giác của sự kiện và các chủ đề của phức hợp địa chính trị: ma tuý, dầu mỏ, thuyết âm mưu, chủ nghĩa xét lại, văn hoá nháy mắt mang tính hiện tại luận, mafia liên lục địa, cao bồi hoá hình tượng “ông chủ kiểu Mỹ”, được trình diễn như người khuấy động không khí và là nhà vô địch tuyệt đối… mọi sự tự thân đã tạo thành một cú ngáng chân khổng lồ đối với khả năng thấu hiểu các sự kiện. Vỗ tay tán thưởng và tràng cười giữa hàng trăm bình luận vốn chỉ ra những “khuyết điểm lịch sử” và biến sự cố thành một màn giải trí: Nicolas Sarkozy lẽ ra không nên có vinh dự này; Pol Pot thì vắng mặt một cách bất nhẫn, có phải là Mao đang ẩn mình phía sau?; ta biết là họ vẫn còn sống, ta chỉ không biết họ đang trú ngụ ở đâu; ngay cả trí tuệ nhân tạo đã không khiến Putin mỉm cười được, đành loại bỏ Sa Hoàng Vladimir; thật đáng tiếc, “băng nhóm những kẻ vô tội” gần như đã đủ mặt.

Người dịch: Thái Thị Ngọc Dư

Nguồn: “Petite généalogie de l’IA visuelle”, AOC, 19.01.2026.

Chú thích:

[1] Trích dẫn một phần dẫn nhập của Jonathan Crary trong tác phẩm Techniques de l’observateur: vision et modernité au XIXe siècle (1990), Frédéric Maurin djch từ tiếng Anh, Éditions Dehors, 2016.

[2] Lộ trình do André Gunthert đề nghị trong L’image partagée. La photographie numérique, Éditions Textuel, 2015, các trang 17-26, 79-82.

Trang

25.2.26

Phả hệ nhỏ của trí tuệ nhân tạo thị giác