The New York Times versus OpenAI

08.10.2024

Juliano Maranhão

*Originalmente publicado em JOTA.

“O jornalismo independente é vital para nossa democracia”. A primeira frase da inicial da ação judicial proposta pelo The New York Times contra a Microsoft e a OpenAI, que disponibilizam o ChatGPT, é significativa. Pode marcar o início do fim da proteção autoral moderna e simboliza perfeitamente a crise da concepção moderna de direito como proteção de direitos subjetivos pelo Estado.

A frase faz apelo à sobrevivência de uma atividade (jornalismo) em nome de valor objetivo (democracia) e não propriamente à violação de direito individual. Aponta para questão que já assola o jornalismo tradicional diante de novas mídias. É bastante custosa a produção de conteúdo jornalístico de qualidade, com informação fidedigna e opinião balizada, fundamental para uma esfera publica saudável e com meios para controlar o fenômeno da desinformação. Mas as fontes de receita com assinatura e publicidade ficam comprometidas, quando o conteúdo é agregado e, por vezes, disponibilizado diretamente pelos próprios leitores/usuários em aplicações de internet variadas.

Tal preocupação se agrava com as inteligências artificiais generativas, que, aliás, prometem colocar o conteúdo disponível em qualquer site aberto na internet na mesma situação crítica das empresas de jornalismo. Chat Bots como o GPT, Bard e afins, embora não sejam propriamente ferramentas de pesquisa, apostam em aliar sua extraordinária capacidade de conversação em linguagem natural com buscas, agregação e sínteses de conteúdo online. Seus usuários – muitos já o fazem de modo acrítico – não mais visitarão sites produtores de conteúdo, consumindo-o de modo indireto e já digerido pelos chats, o que coloca em risco o modelo de negócios dos aplicativos de conteúdo na internet.

Mas o direito não foi desenhado para lidar, ao menos no sistema de adjudicação, com questão tão abrangente e a ação do NYT luta bravamente para reduzir uma questão já bastante polêmica sobre remuneração ao jornalismo no campo digital a uma violação autoral. Ocorre que a proteção autoral é atomizada, centrada na reprodução não autorizada de determinado conteúdo (bem definido e identificável) criado pelo autor. Como traduzir nesse instituto a disponibilização de ferramenta capaz de criar (não propriamente reproduzir) novos conteúdos por iniciativas dos usuários (prompts), a partir de treinamento em base de dados imensa, da qual o conteúdo do NYT representa ínfima parcela?

Para se ter uma ideia, conteúdos criados pelo NYT representam 1,2% das fontes listadas pelo WebText2, que com 19 bilhões de tokens, representa 22% do mix para treinamento da ferramenta. O Common Crawl, que reúne conteúdo de vários links na internet, principalmente Wikipedia, com 410 bilhões de tokens, representa 60% do mix de treinamento e, no máximo o NYT consegue indicar que seu domínio está entre as 15 maiores fontes, com aproximadamente 100 milhões de tokens, ao lado de diversos outros sites jornalísticos e editoras, como Whashington Post, Chicago Tribune, Aljazeera, Springer, FindLaw etc. Com exceção de mecanismos artificiosos de prompts direcionados, não há como singularizar determinado conteúdo (seja do NYT, seja das demais fontes) na base de treinamento para lhe atribuir papel determinante na produção de algum output criativo, gerado pelo ChatGPT.

A inicial ensaia uma série de conceitos tentativos para se aproximar de uma violação autoral. Fala, por exemplo, em “mimetizar estilo”, em vez de reproduzir texto. Ocorre que o direito autoral protege a exteriorização da obra em determinado suporte e “estilo” está mais próximo a ideia ou concepção, que não é protegida. A metáfora da “copia de estilo” já vem sendo questionado em outras ações por artistas, principalmente em relação a IAs generativas de imagens.[1] Fala também em “copiar para treinamento” (e não cópia da obra), como uma forma de uso não autorizado, mas, ao fazê-lo, praticamente admite um uso transformativo. Fala ainda em citações “quase-verbatim” ou em “sínteses-próximas” dos originais, que, obviamente, não são nem verbatim nem idênticas. Ao mesmo tempo, incorpora a acusação de geração, pelo ChatGPT, de conteúdos falsamente atribuídos ao NYT, o que, na verdade, contradiz a almejada comprovação de reprodução.

Não é fácil descartar, no caso do ChatGPT, o “fair use” e a inicial apenas ataca o critério de “uso transformativo”, ou seja, argumenta não haver transformação e mudança de propósito quando os produtos criados substituem o “The Times e roubam sua audiência”. Note que não se trata de substituição de obra específica e seu uso para o mesmo fim, mas de nova forma de se consumir e processar conteúdo por meio de conversação e perguntas específicas. E na maior parte do conteúdo gerado pelo ChatGPT novas informações (por vezes equivocadas) são agregadas por meio de inferências de palavras que provavelmente sucedem o texto anterior com base em bilhões de exemplos das mais diversas fontes, que compõem a base de treinamento. Difícil negar novo propósito e novo tipo de serviço, ainda que possa haver uso comercial e relação de concorrência no mercado.[2]

Os outros três parâmetros de “fair use”, que, no direito estadunidense, eximem a condenação, também parecem difíceis de contornar. A obra pode não ser protegida pela natureza do trabalho, por exemplo, se estivermos diante de texto já publicado e predominantemente factual (em oposição a obras de ficção), quando o uso propiciar benefício ao público e acesso a informação. Quando a quantidade ou substância da porção tomada da obra também não for significativa, pode ser reconhecido o fair use, mesmo para uso comercial. Nos usos comuns do ChatGPT, sequer teríamos a reprodução de trecho de texto identificado do NYT. Já o efeito sobre o mercado teria que mostrar a usurpação de uma oportunidade de ganho para o trabalho específico protegido, o que é diverso de apontar, no uso generalizado da ferramenta, o risco para toda a atividade econômica do jornalismo.

A inicial do NYT concentra-se, então, nos exemplos de “memorização”. Os grandes modelos de linguagem (large language models) podem ser afinados (fine-tunning) com novo treinamento sobre base mais específica de textos, o que pode fazer com que, a partir de determinados prompts, o chat bot reproduza porções significativas de textos originais que compuseram a base de treinamento. Assim, por exemplo, prompts artificiosos que façam referencia ao texto específico e indiquem parágrafo determinado, pedindo o subsequente, podem gerar como resultado bastante fidedigno, o que é praticamente uma busca (retrieval) do texto original.

Mas tal possibilidade, que realmente estaria mais próxima de uma reprodução, não ataca o problema central, capaz de comprometer o custeio do jornalismo e mesmo da produção de qualquer conteúdo em sites abertos na internet. Se pensarmos bem, prompts de retrieval, como aqueles exemplificados na inicial do NYT só poderiam ser realizados por usuários que, de certo modo, já estariam familiarizados com o texto original (no mínimo, seria trabalhoso para o usuário acessar todo o conteúdo original, por tal mecanismo).

Além disso, a inicial aponta para buscas no Bing, cujo resultado já traz sínteses do texto disponibilizado na página, uma utilidade bastante popular do ChatGPT e que pode ser empregada de modo subsequente pelo usuário (copiar o texto, inserir link, plug-ins ou o PDF no prompt, pedindo o resumo). Porém, o problema aqui parece estar mais na falta de hiperlink para a página do NYT, sendo, de resto, uma preocupação já discutida na problemática de remuneração ao jornalismo nas mídias digitais.

Desse modo, a inicial começa com o alvo correto e traz alerta para reflexão geral sobre o futuro em que desejamos viver. Mas sua tradução para suposta violação a direito autoral deixa o real problema de fora, usando um molde que não mais o comporta. O que está em jogo é a superação de uma prática cultural com a emergência de nova mídia e forma de comunicação social intermediada por máquinas. A questão chave é como direcionar essa nova e inarredável tecnologia, de modo a preservar valores essenciais para a vida em sociedade.

___________________________________________________________________________________

[1]https://www.cnbc.com/2023/04/03/in-generative-ai-legal-wild-west-lawsuits-are-just-getting-started.html

[2]Em julgado recente, a Suprema Corte ampliou a noção de uso transformativo aoreconhecer fair use na reimplementação pela Google de partes da API do Javapara a plataforma Android.Google LLC v. Oracle America, Inc. https://harvardlawreview.org/print/vol-135/google-llc-v-oracle-america-inc/

Publicações relacionadas

Ver mais

The New York Times versus OpenAI

Publicações relacionadas

A importância da inteligência artificial inteligível no Direito

CADE reafirma padrão de prova envolvendo cartéis

A inteligência artificial e o ensino do Direito

CADE publica estudo atualizado sobre Mercados de Plataformas Digitais