AI và quét trích xuất dữ liệu tại AO3

Trước sự gia tăng nhanh chóng của các công cụ AI trong những tháng gần đây, nhiều thành viên cộng đồng fan đã bày tỏ lo ngại về công nghệ quét trích xuất dữ liệu (tiếng Anh: data scraping) và sự xuất hiện của tác phẩm do AI tạo ra, cũng như khả năng những tiến triển này sẽ ảnh hưởng đến Archive of Our Own – AO3 (Kho Tàng Lưu Trữ của Chúng Ta). Đây cũng là điều chúng tôi đang cân nhắc. Vì thế, chúng tôi xin chia sẻ với các bạn về những gì chúng tôi đã làm để chống lại việc quét trích xuất dữ liệu, cũng như các chính sách hiện tại của chúng tôi về AI.

Quét trích xuất dữ liệu và tác phẩm tại AO3

Chúng tôi đã đưa ra một số biện pháp kỹ thuật để cản trở hoạt động quét trích xuất dữ liệu quy mô lớn tại AO3 như hạn chế truy cập, đồng thời liên tục theo dõi lưu lượng truy cập để phát hiện dấu hiệu khai thác dữ liệu quá mức. Chúng tôi không dành ngoại lệ cho trường hợp làm công tác nghiên cứu hoặc tạo bộ dữ liệu. Tuy nhiên, chúng tôi không có chính sách chống lại việc thu thập dữ liệu (tiếng Anh: data collection) một cách có trách nhiệm, như việc thu thập dữ liệu do các nhà nghiên cứu thực hiện, hoặc việc cộng đồng fan sao lưu dữ liệu tác phẩm vào hệ thống Wayback Machine và chỉ mục tìm kiếm của Google. Việc thiết lập hệ thống chặn toàn bộ hoạt động thu thập dữ liệu mà không đồng thời chặn hoạt động sử dụng trang web một cách hợp pháp là một việc vô cùng khó, thậm chí bất khả thi.

Tuy nhiên, thực tế đáng buồn là mọi nội dung đăng tải công khai trực tuyến đều có thể bị sử dụng vào mục đích khác không phải mục đích gốc ban đầu. Trong nhiều trường hợp, lưu lượng truy cập quét trích xuất dữ liệu nhằm đào tạo AI cũng sử dụng kỹ thuật tương tự những trường hợp thu thập dữ liệu chính đáng kể trên.

Ngay khi nhận được thông tin bộ dữ liệu Common Crawl – nguồn dữ liệu đào tạo các công cụ AI như ChatGPT – đã và đang lấy dữ liệu từ AO3, chúng tôi đã đặt mã vào tháng 12 năm 2022 yêu cầu Common Crawl dừng hẳn việc quét trích xuất dữ liệu tại AO3.

Sự việc xảy ra khiến chúng tôi vô cùng bất mãn; tuy nhiên, chúng tôi không thể quay ngược thời gian để ngăn chặn việc thu thập dữ liệu đã xảy ra hoặc xóa nội dung của AO3 khỏi các bộ dữ liệu hiện có. Tất cả những gì chúng tôi có thể làm là cố gắng giảm thiểu việc thu thập dữ liệu tương tự trong tương lai. Đội ngũ phát triển của AO3 sẽ tiếp tục theo dõi các công cụ cá biệt có thể quét trích xuất dữ liệu từ AO3 và hành động nếu cần.

Tương tự, đội ngũ Pháp Lý của chúng tôi cũng sẽ tiếp tục hoạt động theo tôn chỉ của OTW (Tổ Chức cho các Tác Phẩm được Biến Đổi) – bảo vệ các sáng tác của cộng đồng fan trong các vấn đề về pháp lý và khai thác thương mại. Trên cơ sở nguyên tắc này, Ban Pháp Lý cho rằng người dùng của AO3 có quyền từ chối đưa tác phẩm của mình vào các bộ dữ liệu đào tạo AI; đây cũng là quan điểm Ban đã trình bày với Văn phòng Bản quyền Hoa Kỳ. Ban sẽ tiếp tục bám sát những diễn biến liên quan đến lĩnh vực đang phát triển này.

Tôi có thể làm gì để phòng tránh việc quét trích xuất dữ liệu?

Bạn nên giới hạn quyền truy cập sao cho chỉ người dùng AO3 mới được phép truy cập tác phẩm của bạn. Thao tác này không thể ngăn chặn mọi công cụ có khả năng quét trích xuất dữ liệu, nhưng tối thiểu có thể bảo vệ dữ liệu của bạn trước các đợt quét trích xuất dữ liệu quy mô lớn.

Tác phẩm do AI tạo và chính sách của AO3

Hiện tại, Điều khoản Dịch vụ của chúng tôi không có nội dung nào cấm đăng tải lên AO3 các tác phẩm hoàn toàn hoặc có một bộ phận do công cụ AI tạo thành, nếu các tác phẩm này đáp ứng đủ các tiêu chuẩn quy định tác phẩm fan hợp cách.

Tổ chức chúng tôi hoạt động với mục tiêu đảm bảo tính toàn diện tối đa đối với mọi loại hình tác phẩm fan, nghĩa là không chỉ các tác phẩm hay nhất hoặc được yêu thích nhất, mà là mọi tác phẩm fan chúng tôi có thể lưu giữ được. Ở thời điểm hiện tại, nếu cộng đồng fan sử dụng AI để sáng tác, vậy quan điểm của chúng tôi là: đây cũng là một loại hình tác phẩm thuộc phạm vi lưu trữ bảo tồn của chúng tôi.

Một số tác phẩm do AI tạo có thể vi phạm chính sách chống đăng tải tràn lan (tiếng Anh: anti-spam) của chúng tôi, tùy trường hợp cụ thể (ví dụ: một tác giả bất kỳ đăng tải số lượng lớn tác phẩm trong thời gian ngắn). Nếu bạn không xác định được một tác phẩm nào đó có vi phạm Điều khoản Dịch vụ của chúng tôi hay không, hãy báo cáo tác phẩm với Ban Xử Lý Lạm Quyền thông qua đường link nằm cuối các trang của AO3 để thành viên của Ban điều tra.

Tuyên bố này phản ánh chính sách của AO3 tại thời điểm viết bài; chúng tôi muốn công khai minh bạch với người dùng về quan điểm hiện tại của chúng tôi, cũng như những gì chúng tôi có thể làm và đang làm để giảm thiểu việc quét trích xuất dữ liệu đưa vào các bộ dữ liệu đào tạo AI. Tuy nhiên, các chính sách này cũng đang được tình nguyện viên AO3 đưa ra thảo luận nội bộ. Nếu có bất kỳ thay đổi nào về chính sách trong tương lai sau khi các tình nguyện viên thống nhất ý kiến, chúng tôi sẽ đưa ra thông báo chính thức; đồng thời, nếu có bất kỳ đề xuất thay đổi nào đối với Điều khoản Dịch vụ, chúng tôi cũng sẽ công khai trưng cầu ý kiến theo đúng quy trình với mọi đề xuất thay đổi liên quan đến Điều khoản Dịch vụ.

Chúng tôi hy vọng thông tin này ít nhiều góp phần làm sáng tỏ sự việc. Đây là tình huống vô cùng phức tạp; chúng tôi đang nỗ lực hết sức để giải quyết vấn đề mà vẫn giữ vững nguyên tắc đảm bảo tối đa toàn diện mọi loại hình tác phẩm fan của AO3 và đảm bảo hoạt động sử dụng trang một cách chính đáng. Chúng tôi sẽ cập nhật mọi diễn biến về tiến trình thảo luận và phương hướng tiếp cận với người dùng.

Announcement, Archive of Our Own

Comments are closed.