O moinho de obras autorais no treinamento de IA generativa

*Originalmente publicado em Jota.

Há violação autoral pelo uso de obras para treinamento de modelos de inteligência artificial generativa em autorização prévia? Trata-se de uma das questões jurídicas mais polêmicas no campo de direitos de autor e de regulação da IA.

Diversas ações judiciais foram propostas nos últimos anos, no Brasil e no exterior, para exigir indenização autoral contra desenvolvedores de IAG, em diferentes modalidades de conteúdo, como texto, áudio e imagens. Poucas ações chegaram a uma decisão e algumas resultaram em acordos, sem análise do mérito.[1]

PL 2338/2023, que propõe a regulação da IA no Brasil, impõe aos desenvolvedores obrigações de identificação de obras protegidas na base de treinamento, de gestão de consentimento e remuneração a autores. Se não diz explicitamente, praticamente pressupõe direitos autorais a serem exercidos nesse uso computacional de obras protegidas.

Mas está correto esse pressuposto?

A Lei de Direitos Autorais brasileira (Lei 9.610/1998) estabelece que “depende de autorização prévia e expressa do autor a utilização da obra” (art. 29, caput) para, reprodução parcial ou integral (I), sua “inclusão em base de dados” (IX) ou “armazenamento em computador” e “quaisquer outras modalidades de utilização existentes ou que venham a ser inventadas” (X).

Tal previsão parece ampla o suficiente para implicar proteção, mas o que passa desapercebido em leituras apressadas é que o art. 29 se refere à utilização da obra autoral. E aqui há uma sutileza técnica fundamental.

O objeto de proteção do direito autoral, a obra artística ou literária, é a expressão individual de uma ideia pelo autor, materializada em determinado suporte. Essa expressão individualizada forma o conteúdo de uma comunicação entre autor e público,[2] por meio da obra, comunicação esta que pressupõe a possibilidade de apreensão de seu sentido. [3]

Assim, a utilização a que se refere a legislação autoral é o uso expressivo da obra individual, com conteúdo semântico, comunicado ou disponibilizado ao público.  Se, no campo analógico, o uso dos dados materializados em determinado suporte necessariamente implica uso expressivo da obra, o mesmo não vale para o uso dos dados digitais correspondentes à obra.

Na percepção humana, a detecção dos dados analógicos e a extração de significado é imediata. Quando um humano competente na linguagem identifica uma sequência de caracteres, apreende seu sentido em uma gramática. Quando percebe amplitudes de ondas sonoras ou vibrações, capta sons, vozes etc. o que lhe traz entendimento ou emoções. Quando está diante de obra visual, percebe imediatamente cores, formas, profundidade que permitem a compreensão e despertam sensações.

Por sua vez, a percepção e compreensão de textos, áudios, imagens e vídeos digitalizados é intermediada pela máquina. Os conteúdos analógicos são codificados (embedding) e podem passar por diferentes formas de processamento lógico, para então serem decodificados e projetados para a percepção humana. O computador não entende, não enxerga, não ouve e não compreende a continuidade do movimento.

Basicamente, o computador representa o mundo em números e os processa sintaticamente, ao passo que o hardware, aliado a equipamentos, decodifica os bits, convertendo números em sinais físicos para que o cérebro humano os perceba e compreenda seu significado.

Entre a codificação em bits e a sua decodificação, o processamento lógico consiste em uma série de manipulações sintáticas de números binários, ininteligível para humanos. E quando uma obra é digitalizada ou é produzida digitalmente, os dados digitais correspondentes podem ser processados para promover a projeção a obra em sua individualidade para percepção humana, mas podem ser processadas para outras finalidades.

Por exemplo, dados digitais correspondentes a obras artísticas e literárias podem passar por processos de “compressão” para maior eficiência em seu armazenamento, cópias de segurança, transferência para bases de terceiros para verificação de malwares, ou restruturação de base para aprimorar controle de acessos.

Nessas hipóteses, os dados digitais correspondentes à obra são manipulados sem o propósito de instaurar alguma comunicação autor-público do sentido individual, não se cogitando a aplicação de direitos autorais. Note-se, por exemplo, que a Lei de Software (Lei 9.609/1998) excepciona explicitamente, em seu art. 6º, inc. I, a cópia de segurança.

Como analisado em profundidade no Relatório Inteligência Artificial Generativa: treinamento de direito autoral, do Legal Wings Institute,[4] o uso de dados digitais correspondentes a obras protegidas para treinamento de modelos de IAG é mais uma forma de processamento lógico-computacional que não envolve o seu uso expressivo individual.

Primeiro, porque, na digitalização, temos apenas a manipulação de números binários, sem expressão de sentido ou comunicação da obra entre autor e público.

Segundo, porque o resultado do processamento lógico no treinamento de IAG de propósito geral é uma representação matemática (estatística) do agregado de dados digitalizados, correspondentes a um conjunto de diversas obras, que capta padrões gerais, conceitos, estilos, traduzidos em parâmetros com pesos, que não reproduzem, nem armazenam aspectos individuais de cada obra digitalizada usada no treinamento, [5] mas podem ser usados – na fase de inferência por sistemas de IAG baseados naquele modelo – para gerar conteúdos inéditos, a partir daqueles parâmetros e pesos.

Assim, na construção, em si, do modelo de IAG, não há possibilidade de comunicação de sentido, nem é armazenada ou memorizada a representação digital de qualquer obra individual, razão pela qual não há objeto de proteção autoral.

Cortes norte-americanas têm usado a doutrina do “fair use” para apontar a ausência de uso expressivo da obra.  No caso Bartz v. Anthropic reconheceu-se que o treinamento do Claude é “uso transformativo” pois resulta em produto que cria conteúdos e não em cópias.[6]

Já no caso de autores contra a Meta, apesar de se reconhecer uso transformativo, admitiu-se que sistemas de IAG podem  exercer competição com a produção humana, exigindo-se, porém, demonstração de que houve limitação à exploração econômica pelo autor da obra específica.

Outro precedente interessante é o caso Vanderhye v. iParadigm (2009),[7] em que a corte não reconheceu violação autoral no desenvolvimento do software Turnitin para detecção de plágio, pois o processo computacional de verificação “não guardava qualquer relação com seu conteúdo expressivo”.

Uma série de casos semelhantes de indexação de documentos na web ou indexação de conteúdo de livros encontraram o mesmo desfecho. Na verdade, mais do que limitação ao exercício de direitos autorais, tais precedentes acabam, em sua fundamentação, por apontar verdadeiras exceções a sua aplicação.

Essa mesma constatação de ausência de uso expressivo ou reprodução da obra propriamente dita foi o fundamento de recente decisão adotada pela Corte de Propriedade Intelectual britânica, no caso Getty Images versus Stable Difusion.[8]  Segundo a corte, embora o modelo tenha seus parâmetros e pesos alterados pela exposição a obras individuais, o mesmo não as armazena, não resultando, por si mesmos, em cópias infratoras.

Assim, há uma distinção fundamental entre usos computacionais de obras apenas  para “os olhos do robô” e os usos para “os olhos do humano”.[9] O traço crucial para a proteção autoral está em saber se o processamento dos dados resultará ou não na expressividade do sentido da obra individualmente considerada. Caso contrário, para usar metáfora feliz de SAG, há apenas um “moinho de dados” de puro processamento computacional.[10]

E no treinamento de modelos de IAG estamos diante de um moinho de dados digitalizados correspondentes a obras autorais, voltado apenas para os olhos do robô, ou seja, para que o robô extraia padrões que o capacite a produzir e assistir o humano a produzir obras inéditas, e não copiar obras usadas no treinamento. Não há, especificamente nesse uso, direito autoral a ser protegido.


[1] BRUELL, Alexandra. Amazon to Pay New York Times at Least $20 Million a Year in AI Deal. Wall Street Journal. Julho 2025.  Disponível em: https://www.wsj.com/business/media/amazon-to-pay-new-york-times-at-least-20-million-a-year-in-ai-deal-66db8503. BLOOMBERG.

[2] CÂNDIDO, Antônio. Literatura e Sociedade. Editora Nacional, São Paulo, 1965, pp. 44-45.

[3] ASCENSÃO, José de Oliveira. Direito Autoral. 3. ed. Rio de Janeiro: Renovar, 2007, p. 32-33.

[4] MARANHÃO, Juliano. Inteligência artificial generativa: treinamento e direito autoral. Legal Wings Institute, 2025. Disponível em: https://www.legalwings.com.br/_files/ugd/df689d_a82dced9b9934feeaf836bd95212cbf4.pdf. Acesso em: 27.11.2025.

[5]GUADAMUZ, Andrés. A scanner darkly: copyright liability and exceptions in artificial intelligence inputs and outputs. Internet Policy Review, v. 12, n. 1, 2023. Disponível em: https://policyreview.info/articles/secure/1771. Acesso em: 27.10.2025

[6] UNITED STATES DISTRICT COURT NORTHERN DISTRICT OF CALIFORNIA. Case 3:24-cv-05417-WHA, Document 231, Filed 06/23/25 (Order on Fair Use). Disponível em: https://admin.bakerlaw.com/wp-content/uploads/2025/07/ECF-231-Order-on-Fair-Use.pdf. Acesso em 26 out. 2025.

[7] A.V. ex rel. Vanderhye v. iParadigms, LLC, 562 F.3d 630 (4th Cir. 2009)

[8] Getty Images (US) Inc & Ors v Stability AI Ltd [2025] EWHC 2863 (Ch), Case No IL-2023-000007 (High Court of Justice, Business and Property Courts of England and Wales, Intellectual Property List (ChD), Mrs Justice Joanna Smith DBE, 4 November 2025).

[9] GRIMMELMAN, James. Copyright for Literate Robots (May 15, 2015). 101 Iowa Law Review 657 U of Maryland Legal Studies Research Paper No. 2015-16, 2016, available at SSRN: https://ssrn.com/abstract=2606731

[10] SAG, M. Orphan works as grist for the data mill. Berkeley Technology Law Journal 27, 1503–50, 2012.

Ao usar nosso site, você concorda com nossa Política de Privacidade e uso de cookies.