A utilização de obras protegidas por direitos autorais no treinamento de modelos de inteligência artificial generativa tem se tornado um dos pontos mais tensionados da regulação da IA nos Estados Unidos. O novo relatório da U.S. Copyright Office, publicado em maio de 2025, aprofunda esse debate sob a perspectiva jurídica e técnica, com foco em três eixos: a caracterização do uso como infração, a aplicabilidade da doutrina de fair use e os modelos possíveis de licenciamento.
O documento reconhece que o uso massivo e automatizado de obras protegidas é parte central do funcionamento atual de modelos de linguagem e imagem. Em muitos casos, esses modelos são capazes de memorizar ou replicar trechos integrais de obras protegidas, o que pode configurar infração ao direito de reprodução e à criação de obras derivadas. A simples remoção do conteúdo original após o treinamento não afasta o risco jurídico. O problema não é apenas o uso pontual, mas a internalização dos padrões criativos no comportamento dos modelos.
A análise de fair use, por sua vez, é tratada com cautela. Trata-se de uma doutrina do direito autoral norte-americano que permite o uso não autorizado de obras protegidas, desde que esse uso seja considerado justo com base em critérios como finalidade, natureza da obra, quantidade utilizada e impacto no mercado. São exemplos típicos de fair use o uso de trechos de obras para críticas e resenhas, paródias, reportagens jornalísticas, ensino e pesquisa.
VEJA MAIS: IA e Governança: A Anthropic dá um passo rumo à transparência dos modelos de linguagem
O relatório reconhece que usos técnicos intermediários, como pré-processamento e extração de padrões estatísticos, podem ser enquadrados como usos transformativos. O uso é considerado transformativo quando a obra original é empregada com um novo propósito, diferente do originalmente pretendido pelo autor, como no caso do uso de uma fotografia publicitária incorporada a uma obra artística crítica, com função estética ou social distinta. Ainda assim, essa avaliação do elemento transformativo depende do grau de memorização, da natureza comercial do uso, do impacto no mercado da obra original e da clareza sobre a finalidade do uso. Nem todo uso técnico será automaticamente considerado transformativo, especialmente se houver risco de substituição ou confusão com a obra protegida.
Outro ponto de destaque é a viabilidade de soluções de licenciamento. O relatório explora alternativas como licenciamento voluntário, licenciamento compulsório e esquemas de licenciamento coletivo estendido, sugerindo inclusive a possibilidade de mecanismos de opt-out. A estruturação de um sistema que permita compensação justa aos titulares de direitos, sem inviabilizar o desenvolvimento tecnológico, é vista como essencial para o equilíbrio regulatório.
Essa nova realidade exige também uma revisão dos contratos tecnológicos que estruturam os modelos de IA generativa. Contratos de fornecimento de dados, licenciamento de conteúdo e integração de APIs precisam prever com precisão os limites de uso, os mecanismos de rastreamento de origem e as responsabilidades em caso de infração. Em um ecossistema onde os dados alimentam diretamente o comportamento do modelo, cláusulas genéricas sobre titularidade ou limitação de uso já não são suficientes. É necessário antecipar juridicamente o que ocorre tecnicamente em cada fase do ciclo de treinamento.
Do ponto de vista regulatório, a falta de articulação entre os diferentes marcos legais que impactam a IA começa a gerar insegurança jurídica. Questões de propriedade intelectual, proteção de dados, defesa do consumidor e concorrência ainda são tratadas de forma setorial, apesar de os efeitos da IA atravessarem todos esses campos simultaneamente. O relatório da Copyright Office destaca que essa descoordenação compromete a eficácia regulatória e amplia assimetrias. Um modelo normativo consistente precisa refletir a arquitetura real das tecnologias, em vez de replicar categorias jurídicas estanques.
LEIA TAMBÉM: Teses Vinculantes do TST: o que muda no Direito do Trabalho?
Começa a se formar, ainda que de forma incipiente, um mercado paralelo de dados treináveis com origem autorizada. Coletivos de autores, editoras, criadores independentes e empresas de mídia já estruturam bases de dados pensadas para alimentar modelos de IA de forma lícita e remunerada. Esse movimento pode abrir espaço para modelos de negócio alternativos, menos dependentes de scraping indiscriminado e juridicamente mais estáveis. A atuação jurídica, nesse cenário, passa a incluir também o desenho desses modelos de licenciamento, combinando critérios de compliance, remuneração e valorização da produção intelectual.