IA e extração automatizada de dados no AO3

Com a recente proliferação de ferramentas de IA (inteligência artificial), há uma crescente preocupação da parte de fãs acerca da extração automática de dados feita por bots (data scraping) e das obras geradas por IA, bem como a forma que essas tecnologias podem afetar o Archive of Our Own – AO3 (Nosso Próprio Arquivo). Nós compartilhamos dessa preocupação. Nesse post, gostaríamos de explicar o que estamos fazendo para combater a extração de dados e quais são nossas políticas atuais em relação a IA.

Coleta de dados e fanworks do AO3

Adotamos alguns procedimentos técnicos, como limitação de taxa (rate limiting), para dificultar a extração de dados em grande escala automatizada no AO3. Estamos monitorando constantemente o tráfego do AO3 em busca de sinais de extração abusiva de dados. Não abrimos exceções para empreendimentos de pesquisas ou em busca de dados para montar um conjunto de dados (dataset).

No entanto, não temos uma política contra a coleta responsável de dados, como coletas realizadas no contexto de pesquisas acadêmicas; ou por fãs fazendo backup de obras na Wayback Machine; ou a indexação de busca que o Google realiza. Tentar bloquear todos os tipos de coleta de dados, abusivos ou não, no AO3 seria difícil ou mesmo impossível sem também bloquear também usos legítimos do site.

Dito isso, infelizmente, a realidade é que ao se disponibilizar qualquer criação na internet ela pode ser usada para fins diferentes de seu objetivo inicial. Em muitos casos, o tráfego de extração de dados para o treinamento de IAs depende das mesmas técnicas que as possibilidades de uso legítimo mencionadas acima.

Assim que descobrimos que os dados do AO3 estavam sendo incluídos no conjunto de dados “Common Crawl” — que é usado para treinar ferramentas de IA como o ChatGPT — implementamos, em dezembro de 2022, código solicitando que o Common Crawl não extraia mais dados do AO3.

Não podemos voltar no tempo para impedir a extração de dados que já ocorreu ou remover qualquer conteúdo do AO3 dos conjuntos de dados existentes, por mais que esses fatos nos desagradem. Tudo o que podemos fazer é tentar reduzir coletas no futuro. A equipe de desenvolvimento do AO3 continuará vigilante contra tentativas futuras de extrair dados do AO3 para tomar as medidas necessárias.

Da mesma forma, nosso comitê Jurídico continua e continuará a servir a missão da OTW de proteger obras de fãs de contestação jurídica e de exploração comercial. Isso inclui a defesa de sua posição de que cada pessoa deveria ter a opção de retirar suas obras de conjuntos de dados utilizados para treinar IAs. Nossa equipe jurídica apresentou esse posicionamento junto ao Gabinete de Copyright estadunidense e continuará a acompanhar novos desdobramentos nesse campo do Direito.

O que posso fazer para evitar a extração automática de dados no meu caso?

Uma sugestão é restringir sua obra para que somente contas registradas no AO3 possam acessá-la. Embora isso não bloqueie todos os bots de extração possíveis, dará alguma proteção contra coleta em grande escala.

Obras geradas por IA e políticas do AO3

Atualmente, não há nada em nossos Termos de Serviço que proíba a postagem no AO3 de obras geradas total ou parcialmente com utilização de ferramentas de IA — desde que contem como obras de fãs.

Nossos objetivos enquanto organização incluem a inclusividade máxima de obras de fãs. Isso significa não somente as melhores ou as mais populares obras, mas todas as que pudermos preservar. Se fãs estão usando IA para gerar obras, nossa posição no momento é que isso também é um tipo de obra que nossa missão abarca.

Dependendo do caso específico, obras geradas com AI podem vir a violar nossas normas anti-spam (por exemplo, se alguém publicar um número significativo de obras num espaço curto de tempo). Se não tiver certeza se uma obra viola ou não nossos Termos de Serviço, utilize o link no final da página para denunciá-la à nossa equipe de Diretrizes e Abuso, que irá então investigar.

Esse post contém o entendimento do AO3 sobre este assunto no momento em que foi escrito, pois queríamos ser transparentes com vocês sobre nossa posição atual e o que pode ser feito — o que já estamos fazendo — para limitar a atuação de bots de extração de dados no AO3. Se decidirmos mudar nossas diretrizes sobre o assunto no futuro, também avisaremos com um post público aqui. Além disso, se houver qualquer mudança nos Termos de Serviço do AO3, ela também será anunciada aqui, com um período fixo para comentários (o que é necessário no caso de qualquer alteração nos nossos Termos de Serviço).

Esperamos que com esse post, nossa postura atual fique mais clara. Sabemos que essa situação é complexa. Estamos fazendo o possível para agir de uma forma que não vá contra usos legítimos do site, nem viole nosso princípio de inclusividade máxima. Compartilharemos mais atualizações à medida que discussões e abordagens relacionadas a esse assunto evoluírem.

Anúncios, AO3

Os comentários estão desativados.