29.5.16

"Hồ sơ Panama": Một thách thức kỹ thuật đối với báo chí dữ liệu



"Hồ sơ Panama": Một thách thức kỹ thuật đối với báo chí dữ liệu
Căn phòng nơi các nhà báo của tờ “Le Monde” đã làm việc để điều tra "Hồ sơ Panama" (Quentin Hugon/Le Monde).
Đằng sau "Hồ sơ Panama", và sự tham gia vào cuộc của hàng trăm nhà báo cùng hàng ngàn bài báo được xuất bản, là một cơ sở dữ liệu. Đó là một vụ "rò rỉ" 2,6 terabyte (hay 2.600 GB) thông tin được một nguồn tin giấu tên gửi đến tờ Süddeutsche Zeitung và được chia sẻ cho Hiệp hội các nhà báo điều tra quốc tế (ICIJ). Đối mặt với "sự chuyển đổi của cuộc điều tra sang thời đại dữ liệu lớn" này, như giám đốc của tờ LeMonde đã viết trong bài xã luận của ông vào hôm thứ hai, là việc 110 đối tác truyền thông tham gia cuộc điều tra đã phải từ bỏ cuốn sổ tay bỏ túi và cây bút chì để sử dụng những công cụ điện toán tiên tiến.
Một công cụ tìm kiếm và 11,5 triệu tài liệu
Đơn giản là không thể hình dung đọc từng trang một của "Hồ sơ Panama", ngay cả đối với 376 nhà báo. Vì vậy, cần phải có một công cụ tìm kiếm có hiệu năng cao để khám phá các cơ sở dữ liệu.
Thông thạo với loại điều tra này, đội ngũ kỹ thuật của tổ chức ICIJ đã có sẵn một công cụ mạnh mẽ, dựa trên hệ thống Solr, được cải tiến dành cho chiến dịch này. Tất nhiên, hệ thống có những toán tử tìm kiếm tiên tiến (“AND", "OR", tìm kiếm với độ chính xác cao những từ trong dấu ngoặc kép) và một hệ thống các "cửa sổ nhỏ" để sàng lọc hàng ngàn kết quả mà một số cuộc tìm kiếm đã tạo ra nhờ vào các siêu dữ liệu (dạng văn bản, ngày tạo văn bản, công ty liên kết). Hệ thống cũng cho phép trích xuất văn bản thô từ hàng chục định dạng tập tin, từ dạng văn bản .pdf đến dạng văn bản .doc, qua những dạng văn bản không lỗi thời nhất .msg (một dạng thư tín điện tử gắn với Microsoft Outlook), những thứ được sử dụng chủ yếu trong các cuộc trao đổi thư tín nội bộ của công ty Mossack Fonseca.
Nhưng trên tất cả, công cụ được trang bị một cơ chế "tìm kiếm gần đúng" (“fuzzy search"), cho phép một tính năng tìm kiếm ít hạn chế hơn. Chẳng hạn như tìm từ gần đúng với "Jean Dupont" sẽ cho ra những kết quả như "Dupont Jean" hay "Jean Edouard Michel Dupont".
Một tính năng tìm kiếm gần đúng với một ký hiệu "slopiness" bằng 3 (cho phép tìm kiếm 3 từ giữa "Jean" và "Dupont").
Mặc cho tất cả các tính năng này, chúng tôi đã phải đối mặt với những hạn chế về cấu trúc liên quan đến bản chất của thông tin "rò rỉ". Có rất nhiều tài liệu mà bản gốc không dưới những dạng mà máy tính có thể đọc được (như dưới dạng scan, hình ảnh), đã được xử lý qua một hệ thống nhận dạng ký tự bằng quang học (OCR, Optical character recognition) của tổ chức ICIJ. Kỹ thuật này, dù tốt đến đâu, cũng có nguy cơ bỏ qua những từ viết lại sai, như chữ viết tay hoặc bản scan kém chất lượng.
Ngoài ra, phải nhớ rằng những dữ liệu mà chúng tôi đang nghiên cứu xuất phát từ một tổ chức (công ty Mossack Fonseca) được hình thành bởi con người, mà con người thì cũng có thể sai lầm. Những lỗi chính tả hoặc những chuyển ngữ âm sai tên các cá nhân có thể làm cho những nhân vật đó thoát khỏi sự phát hiện của chúng tôi. Chưa kể đến các vấn đề về dịch thuật từ những cái tên tiếng Nga hay tiếng Trung Quốc được viết theo bảng chữ cái Ki-rin hoặc chữ tượng hình...
Sự cần thiết của tính hệ thống
Sau giai đoạn thăm dò đầu tiên các dữ liệu mang tính "lộn xộn" một chút, chúng tôi đã phải hợp lý hóa công việc tìm kiếm để đảm bảo không bỏ qua những cái tên quan trọng. Nói cho rõ là tìm kiếm tên của tất cả các nghị sĩ Pháp chứ không phải là một vài cái tên nổi tiếng.
Về vấn đề này, tổ chức ICIJ, trong quá trình thực hiện dự án, đã phát triển một cơ chế tìm kiếm theo khối (“batch search"). Thay vì tìm kiếm một cách chán ngắt, từng cái tên một, danh sách của 500 gia đình giàu nhất nước Pháp, thì chúng ta có thể đưa vào công cụ tìm kiếm một danh sách có cấu trúc những cái tên. Sau một vài phút, công cụ sẽ cho ra một bảng kết quả dưới định dạng .csv, có chứa tất cả những lần xuất hiện được tìm thấy đối với mỗi mục nhập của danh sách. Phần còn lại là công việc sàng lọc “gạo với trấu”, như đối với mọi tính năng tìm kiếm.
Nhưng công việc tìm kiếm tên của các thực thể chỉ là một cách trong nhiều cách khác để tìm ra những người đáng quan tâm. Ví dụ, chúng tôi đã tập trung phần lớn nguồn lực để tìm kiếm tên của những thường trú nhân tại Pháp, sử dụng sổ sách đăng ký nội bộ của công ty Mossack Fonseca, tài liệu duy nhất của vụ "rò rỉ thông tin" được định dạng dưới hình thức một bảng các dữ liệu có cấu trúc. Với 214.488 cấu trúc được thành lập ở nước ngoài là có không ít hơn 450.000 cổ đông, tất cả đều gần như dẫn đến một địa chỉ bưu điện.
Với phần mềm xử lý dữ liệu OpenRefine, chúng tôi đã "làm sạch" và cân đối các địa chỉ này (thông qua một công cụ "phân lớp" (“clustering”), cho phép thực hiện những tập hợp tự động) để trích xuất một danh sách hàng ngàn cổ đông cư trú tại Pháp, sau đó sử dụng một cách có hệ thống công cụ tìm kiếm "Google" để phát hiện ra những nhân vật có khả năng là quan trọng.
Sự tương hợp của các công cụ tìm kiếm của tổ chức ICIJ với những "biểu thức chính quy" ("regex" nói cho ngắn gọn) đã cho phép chúng tôi hệ thống hóa một số công việc tìm kiếm.
Ví dụ, khi biết rằng tất cả các tài khoản ngân hàng của Pháp đều có một cấu trúc định danh IBAN đồng nhất (chữ đầu tiên là "FR", kế đến là hai chữ số, và tiếp theo là ít nhất bốn tập hợp của bốn chữ số), chúng tôi có thể tìm ra tất cả các tài khoản ngân hàng của Pháp thông qua biểu thức chính quy sau đây:
FR [0-9] * 2 [0-9] * 4 [0-9] * 4 [0-9] * 4 [0-9] * 4
Tương tự, chúng tôi có thể tìm được hầu hết các hộ chiếu của người Pháp lẫn lộn trong thông tin "rò rỉ" thông qua mã nhận dạng "P".
Một hộ chiếu của Pháp.
Khai thác dữ liệu bằng đồ thị với Linkurious
Sự phức tạp của những dàn dựng ở nước ngoài, với rất nhiều công ty bình phong lồng trong nhau như những con búp bê Nga, đã làm cho công việc lần theo dấu vết của những người thụ hưởng thực rất vất vả. Vì vậy, tổ chức ICIJ đã cung cấp cho các đối tác truyền thông một công cụ hiển thị hóa bằng đồ thị, Linkurious, để giúp cho công việc thăm dò các cơ sở dữ liệu được dễ dàng.
Cụ thể, công cụ này đã liên kết bốn thực thể khác nhau có tên trong phần "cấu trúc" của thông tin "rò rỉ": các công ty, các trung gian, các cổ đông và các địa chỉ của họ. Nó cho phép thực hiện những tìm kiếm nhanh và trực quan về các thực thể này.
Linkurious
Bổ sung với những nguồn mở
Tất nhiên, chỉ riêng những dữ liệu của thông tin "rò rỉ” không đủ phục vụ cuộc điều tra. Một mặt bởi vì không phải lúc nào cũng có chi tiết của các tài khoản ngân hàng, các tài sản và các hoạt động liên quan đến mỗi cấu trúc được thành lập ở nước ngoài, nhưng nhất là bởi vì sự chằng chịt của các công ty bình phong ở nước ngoài thường dẫn đến những công ty được đăng ký thành lập ở những nơi khác hơn là công ty Mossack Fonseca.
Có rất nhiều trường hợp mà chúng tôi đã nghiên cứu dẫn đến những công ty mẹ đóng tại Luxembourg - một quốc gia có chính sách thuế hạn chế, nhưng minh bạch về sổ sách đăng ký kinh doanh, có thể truy cập miễn phí trên mạng (ngược lại với Pháp, nơi mà những thông tin ấy vẫn chưa là những dữ liệu mở). Chúng ta đặc biệt tìm thấy trên đó những thông tin về việc thành lập các công ty, thay đổi quy chế và người quản lý, và đôi khi ngay cả tên các cổ đông của họ.
Một hồ sơ công ty trên sổ đăng ký của Legilux.
Tuy nhiên, việc thiếu liên kết các sổ sách đăng ký trong các công cụ tìm kiếm, khiến chúng tôi không thể tiến hành được việc tìm kiếm ngược (để biết xem một công ty xuất hiện như là cổ đông trong các hồ sơ nào, ví dụ). Chúng tôi đã khắc phục khó khăn này bằng cách sử dụng công cụ legicopylux rất tiện lợi, đó là một tính năng sao chép và dán sổ sách đăng ký kinh doanh của Luxembourg, với lợi thế được chỉ số hóa trong các công cụ tìm kiếm (và do đó tìm kiếm trên Google với "site:legicopylux.free.fr").
Ngoài Luxembourg, chúng tôi đã tung hứng với những thông tin có sẵn trên các trang web bán miễn phí (như Société.com Verif.com  tại Pháp, Duedil tại Vương quốc Anh hoặc companyweb tại Bỉ) và trên trang OpenCorporates, một trang ra sức thu thập những thông tin công khai về các công ty bằng cách tổng gộp các sổ sách đăng ký kinh doanh trên toàn thế giới (thật tiện dụng, đặc biệt khi các sổ sách đăng ký của Panama bị rút khỏi mạng một cách lạ thường, khi những yêu cầu phỏng vấn đầu tiên của chúng tôi được gửi đến công ty Mossack Fonseca, vào đầu tháng ba ...).
Điện thoại... và máy fax
Nhưng đôi khi, không có bất kì công cụ tin học nào nói đến trên đây đủ cho công việc tìm kiếm của chúng tôi. Bị dồn vào chân tường, chúng tôi buộc phải sử dụng vũ khí bí mật của chúng tôi. Một thiết bị cực kỳ tinh vi mà chúng tôi thường chỉ sử dụng trong những trường hợp cực kỳ khẩn cấp: điện thoại.
Nếu bỏ qua một bên những lời lăng mạ khó chịu và những lời dối trá trơ trẽn, những cuộc đối thoại này thường cho phép chúng tôi lượm lặt từ những nhân vật có liên quan trong các công ty bình phong ở nước ngoài những thông tin giá trị về việc sử dụng các thiết chế này.
Việc sử dụng máy fax tỏ ra ít hiệu quả hơn. Sự cứng đầu của công ty mẹ Akila Finance, được một người đồng sáng lập công ty Adecco, Philippe Foriel-Destezet điều hành, yêu cầu gửi các câu hỏi qua máy fax, làm cho chúng tôi phát hiện ra rằng tờ Le Monde còn có một máy fax. Đáng tiếc là công ty cuối cùng cũng không hồi đáp các yêu cầu của chúng tôi.
Les journalistes du "Monde" redécouvrent le fax.
Các nhà báo của tờ “Le Monde”sử dụng lại máy fax.
An toàn và bí mật
Chúng tôi luôn tự nh trong suốt quá trình điều tra: việc bảo vệ sự an toàn các trao đổi thông tin giữa chúng tôi là điều then chốt, nhằm giảm thiểu nguy cơ rò rỉ hay trộm cắp thông tin. Điều không hề thuận tiện, khi phải liên lạc với khoảng 400 đồng nghiệp rải rác hầu như khắp nơi trên thế giới, với những múi giờ thường ở những vùng rất xa xôi.
Trong nội bộ, chúng tôi sử dụng mã hóa PGP (Pretty Good Privacy – Bảo mật rất mạnh) để đảm bảo sự an toàn đối với những cuộc trao đổi email trong nội bộ tờ Le Monde, cũng như tính năng nhắn tin di động an toàn Signal. Đội ngũ công nghệ thông tin của tờ báo cũng cung cấp cho chúng tôi những máy tính, những phương tiện hỗ trợ lưu trữ và một đường kết nối Internet an toàn.
Để tất cả các đối tác truyền thông của "Prometheus" (tên mã hóa của chiến dịch "Hồ sơ Panama" kể từ nay) có thể làm việc với nhau, tổ chức ICIJ đã thành lập một diễn đàn hợp tác được mã hóa, gọi là "Global i-Hub", được thành lập với sự tài trợ của quỹ Knight Foundation. Diễn đàn cho phép chúng tôi tập hợp lại thành những nhóm theo từng chuyên đề và khu vực địa lý, và chia sẻ những thông tin phát hiện được trong suốt quá trình chín tháng điều tra.
Làm thế nào để đi xa hơn?
• Những hạn chế của sự hợp tác
Sau chín tháng điều tra, đã diễn ra hơn 1500 cuộc thảo luận trên diễn đàn "Global i-Hub" (có những thảo luận mang tính quyết định, có những thảo luận không cần thiết), điều làm cho các đồng nghiệp khó theo dõi công việc một cách toàn diện.
Ngoài ra, sự cần thiết tiến hành một công việc kiểm tra lâu dài, trước khi chắc chắn nắm được một manh mối thú vị, đã làm chúng tôi bỏ qua việc thông báo một số cái tên cho các đối tác của mình - và ngược lại. Đây là giới hạn của một công việc "siêu biên tập" quá đông đảo: chắc chắn chúng tôi đã bỏ qua rất nhiều câu chuyện để không phải "làm chìm ngập" các kênh truyền thông của mình với những "tin nhiễu" vô dụng.
Do thiếu thời gian, một công cụ hợp tác được ICIJ phát triển cũng đã là một thất bại: đó là việc tự động phát hiện, trong các cơ sở dữ liệu, tên của những người thừa hưởng thực của các công ty (đứng đằng sau những người đứng tên thay) nhờ một thuật toán máy tính, và sau đó kết quả được hợp thức hóa (không tránh khỏi kết quả không chắc chắn) bởi ít nhất ba nhà báo khác nhau. Do thiếu thời gian và phạm vi rộng lớn của công việc, nỗ lực "kiểm tra tập thể" này đã chưa bao giờ thành công.
Các công cụ "dữ liệu lớn" cho giới báo chí
Tuy nhiên, đây là sự khởi đầu của những gì có thể là bước tiếp theo của điều tra báo chí với sự hỗ trợ của máy điện toán: việc sử dụng một cách có hệ thống các công cụ "dữ liệu lớn", điều mà đến nay còn giới hạn trong lĩnh vực nghiên cứu và doanh nghiệp, và vẫn còn rất xa lạ với giới truyền thông.
Ví dụ, chúng ta có thể hình dung việc phát triển các giải pháp phát hiện những thực thể được nêu tên để trích xuất những cái tên hoặc địa chỉ email của mớ "Hồ sơ Panama" hỗn độn không tưởng tượng nổi này.
Tất cả là nhằm giảm thiểu đến mức cao nhất những điều không chắc chắn và những may rủi trong việc con người xử lý khối lượng dữ liệu vượt quá khả năng của mình.
Jérémie Baruch Maxime Vaudano, n báo dữ liệu của tờ Décodeurs
Huỳnh Thiện Quốc Việt dịch
Print Friendly and PDF