OpenAI e Google jogam com padrões duplos: treinando grandes modelos com dados de outras pessoas, mas nunca permitindo que seus próprios dados fluam

2023-06-05 04:23:26

Editores: Du Wei, Zi Wen

Na nova era da IA generativa, as grandes empresas de tecnologia estão adotando uma estratégia "faça o que eu digo, não faça o que eu faço" ao consumir conteúdo online. Até certo ponto, essa estratégia pode ser considerada um padrão duplo e um abuso do direito de falar.

Ao mesmo tempo, como o modelo de linguagem grande (LLM) tornou-se a tendência principal do desenvolvimento de IA, empresas grandes e iniciantes não poupam esforços para desenvolver seus próprios modelos grandes. Entre eles, os dados de treinamento são um pré-requisito importante para a qualidade do modelo grande.

Recentemente, de acordo com relatórios do Insider, OpenAI apoiado pela Microsoft, o Google e seu Anthropic apoiado têm usado conteúdo online de outros sites ou empresas para treinar seus modelos de IA generativos por anos. Tudo isso foi feito sem pedir permissão específica e fará parte de uma batalha legal que determinará o futuro da web e como a lei de direitos autorais será aplicada nesta nova era.

Essas grandes empresas de tecnologia podem argumentar que são de uso justo, mas se esse é realmente o caso é discutível. Mas eles não permitem que seu conteúdo seja usado para treinar outros modelos de IA. Portanto, surge a pergunta: por que essas grandes empresas de tecnologia podem usar conteúdo on-line de outras empresas ao treinar seus grandes modelos?

Essas empresas são inteligentes, mas também muito hipócritas

Se as grandes empresas de tecnologia usam o conteúdo on-line de outras pessoas, mas não permitem que outras pessoas usem suas próprias evidências concretas, isso pode ser visto nos termos de serviço e uso de alguns de seus produtos.

Vamos primeiro olhar para Claude, um assistente de IA semelhante ao ChatGPT lançado pela Anthropic. O sistema pode concluir tarefas como resumo, pesquisa, criação assistida, resposta a perguntas e codificação. Algum tempo atrás, ele foi atualizado novamente e o token de contexto foi estendido para 100k e a velocidade de processamento foi bastante acelerada.

Os termos de serviço de Claude são os seguintes. Você não pode acessar ou usar o Serviço da seguinte maneira (algumas das quais estão listadas aqui) e, na medida em que qualquer uma dessas restrições seja inconsistente ou pouco clara com a Política de Uso Aceitável, a última prevalecerá:

desenvolver quaisquer produtos ou serviços que concorram com nossos Serviços, incluindo o desenvolvimento ou treinamento de qualquer algoritmo ou modelo de IA ou aprendizado de máquina
Raspagem, raspagem ou obtenção de dados ou informações de nossos serviços não permitidos pelos Termos

Endereço dos Termos de Serviço do Claude:

Da mesma forma, os Termos de Uso Generative AI do Google declaram: “Você não pode usar o Serviço para desenvolver modelos de aprendizado de máquina ou técnicas relacionadas”.

Endereço dos termos de uso do Google Generative AI:

E os termos de uso do OpenAI? Semelhante ao Google, "Você não pode usar a saída deste serviço para desenvolver modelos que competem com o OpenAI".

Endereço dos termos de uso do OpenAI:

Essas empresas são inteligentes o suficiente para saber que o conteúdo de alta qualidade é fundamental para o treinamento de novos modelos de IA, portanto, faz sentido não permitir que outros usem sua produção dessa maneira. Mas como eles explicam o uso imprudente dos dados de outras pessoas para treinar seus próprios modelos?

OpenAI, Google e Anthropic recusaram o pedido de comentário do Insider e não responderam.

Reddit, Twitter e outros: Já chega

Na verdade, outras empresas não ficaram felizes quando perceberam o que estava acontecendo. Em abril, o Reddit, que é usado há anos para treinar modelos de IA, planeja começar a cobrar pelo acesso aos seus dados.

O CEO do Reddit, Steve Huffman, disse: "O corpus de dados do Reddit é tão valioso que não podemos dar esse valor de graça para as maiores empresas do mundo".

Também em abril deste ano, Musk acusou o principal apoiador do OpenAI, a Microsoft, de usar ilegalmente os dados do Twitter para treinar modelos de IA. "Hora do litígio", ele twittou.

Mas, em resposta aos comentários do Insider, a Microsoft disse que "a premissa é tão errada que nem sei por onde começar".

O CEO da OpenAI, Sam Altman, tenta levar essa questão um passo adiante, explorando novos modelos de IA que respeitam os direitos autorais. “Estamos tentando desenvolver um modelo em que, se o sistema de IA usar seu conteúdo ou seu estilo, você será pago por isso”, disse ele recentemente, conforme relatado pela Axios.

Os editores (incluindo Insiders) terão interesse. Além disso, alguns editores, incluindo a News Corporation dos Estados Unidos, já estão pressionando as empresas de tecnologia a pagar para usar seu conteúdo para treinar modelos de IA.

O atual método de treinamento do modelo AI "quebra" a rede

Alguns ex-executivos da Microsoft disseram que deve haver um problema. O veterano da Microsoft e conhecido desenvolvedor de software Steven Sinofsky acredita que a forma atual de treinar modelos de IA "quebra" a rede.

Ele escreveu no Twitter: "No passado, os dados de rastreamento eram usados em troca de taxas de cliques. Mas agora são usados apenas para treinar um modelo e não agregam nenhum valor aos criadores e detentores de direitos autorais."

Talvez, à medida que mais empresas acordarem, esse uso desigual de dados na era da IA generativa será alterado em breve.

Link original:

Ver original

O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
#BTC#
237k Postagens
#PI#
223k Postagens
#ETH#
152k Postagens
4#GateioInto11#
80k Postagens
5#ContentStar#
67k Postagens
6#GT#
65k Postagens
7#BOME#
61k Postagens
8#DOGE#
59k Postagens
9#MAGA#
53k Postagens
10#SLERF#
51k Postagens

Marcar

sitemap