Novo foco na indústria de IA: dados na cadeia tornam-se a chave para superar o gargalo de dados

O novo foco da indústria de IA: infraestrutura de dados e o valor dos dados na cadeia

Com o tamanho dos parâmetros dos modelos de inteligência artificial a ultrapassar a casa dos trilhões, a capacidade de computação medida em quintilhões de operações por segundo, os dados tornaram-se o gargalo crítico para o desenvolvimento da IA. A inovação na indústria de IA no futuro não será mais dominada pela arquitetura dos modelos ou pela potência dos chips, mas dependerá de como transformar os dados fragmentados do comportamento humano em recursos verificáveis, estruturados e que a IA possa utilizar diretamente. Essa tendência revela as contradições estruturais que a IA enfrenta atualmente, ao mesmo tempo que esboça um novo cenário da era da "financeirização dos dados", onde os dados se tornarão elementos de produção centrais mensuráveis, negociáveis e valorizáveis, assim como a eletricidade e a capacidade de computação.

Os desafios de dados enfrentados pela indústria de IA

O desenvolvimento da IA tem sido impulsionado por um núcleo duplo de "modelo-poder computacional" há muito tempo. Desde a revolução do aprendizado profundo, os parâmetros dos modelos saltaram de milhões para trilhões, e a demanda por poder computacional cresceu exponencialmente. Estima-se que o custo para treinar um modelo de linguagem avançado já ultrapassou 100 milhões de dólares, com 90% gastos em aluguel de clusters de GPU. No entanto, enquanto a indústria se concentra em "modelos maiores" e "chips mais rápidos", uma crise do lado da oferta de dados está silenciosamente se aproximando.

Os "dados orgânicos" gerados pela humanidade atingiram o teto de crescimento. Tomando os dados textuais como exemplo, a quantidade total de textos de alta qualidade disponíveis na internet, que pode ser rastreada, é de cerca de 10^12 palavras, enquanto o treinamento de um modelo com 100 bilhões de parâmetros exige cerca de 10^13 palavras de dados. Isso significa que o pool de dados existente só pode suportar o treinamento de 10 modelos de escala equivalente. O que é mais grave é que dados duplicados e conteúdo de baixa qualidade representam mais de 60%, comprimindo ainda mais a oferta de dados eficazes. Quando os modelos começam a "devorar" os dados que geram, a degradação de desempenho do modelo causada pela "poluição de dados" tornou-se uma preocupação no setor.

A raiz dessa contradição está no fato de que a indústria de IA há muito tempo vê os dados como "recursos gratuitos", em vez de "ativos estratégicos" que precisam ser cuidadosamente cultivados. Modelos e poder de computação já formaram um sistema de mercado maduro, mas a produção, limpeza, verificação e negociação de dados ainda estão na "era primitiva". A próxima década da IA será a década da "infraestrutura de dados", e os dados na cadeia da rede criptográfica são a chave para desbloquear essa situação.

Dados na cadeia: O "banco de dados de comportamento humano" que a IA mais precisa

No contexto da escassez de dados, os dados na cadeia da rede crypto apresentam um valor inigualável. Comparados com os dados da Internet tradicional, os dados na cadeia possuem uma autenticidade inerente de "alinhamento de incentivos". Cada transação, cada interação contratual, cada comportamento de endereço de carteira está diretamente ligado a capital real e é inalterável. Esses dados podem ser definidos como "os dados sobre comportamentos de alinhamento de incentivos humanos mais concentrados na Internet", refletindo-se em três dimensões:

  1. Sinais de "intenção" do mundo real: os dados na cadeia registram decisões votadas com dinheiro real, refletindo diretamente o julgamento dos usuários sobre o valor do projeto, a preferência de risco e a estratégia de alocação de capital. Esses dados, que "apoiam com capital", têm um valor extremamente alto para treinar a capacidade de decisão da IA.

  2. Cadeia de "comportamento" rastreável: a transparência da blockchain permite que o comportamento do usuário seja completamente rastreado. O histórico de transações de um endereço de carteira, os protocolos com os quais interagiu e as mudanças nos ativos detidos, constituem uma "cadeia de comportamento" coerente. Esses dados de comportamento estruturados são precisamente os "exemplos de raciocínio humano" mais escassos para os modelos de IA atuais.

  3. Acesso "sem permissão" em um ecossistema aberto: os dados na cadeia são abertos e sem necessidade de permissão. Qualquer desenvolvedor pode obter dados originais através de um explorador de blockchain ou API de dados, o que fornece uma fonte de dados "sem barreiras" para o treinamento de modelos de IA.

No entanto, a abertura dos dados na cadeia também trouxe desafios: esses dados existem na forma de "registros de eventos", sendo "sinais brutos" não estruturados, que precisam ser limpos, padronizados e relacionados para serem utilizados por modelos de IA. Atualmente, a "taxa de conversão estruturada" dos dados na cadeia é inferior a 5%, e uma grande quantidade de sinais de alto valor está enterrada em bilhões de eventos fragmentados.

Sistema Operacional de Dados na Cadeia

Para resolver o problema da fragmentação dos dados na cadeia, a indústria propôs um conceito de "sistema operacional inteligente na cadeia" projetado especificamente para IA. O seu objetivo central é transformar sinais dispersos na cadeia em dados prontos para IA que sejam estruturados, verificáveis e combináveis em tempo real. Este sistema inclui os seguintes componentes-chave:

  1. Padrões de dados abertos: unificar a definição e a forma de descrição dos dados na cadeia, garantindo que os modelos de IA não precisem adaptar-se a diferentes formatos de dados de cadeias ou protocolos, "compreendendo" diretamente a lógica de negócios por trás dos dados.

  2. Mecanismo de validação de dados: garantir a autenticidade dos dados através do mecanismo de consenso da na cadeia. Quando o sistema processa um evento na cadeia, os nós de validação cruzam os valores de hash dos dados, informações de assinatura e o estado na cadeia, garantindo que os dados estruturados de saída sejam completamente consistentes com os dados originais na cadeia.

  3. Camada de disponibilidade de dados de alto throughput: através da otimização de algoritmos de compressão de dados e protocolos de transmissão, é possível realizar o processamento em tempo real de centenas de milhares de eventos na cadeia por segundo. Este design permite que o sistema suporte a demanda de dados em tempo real de aplicações de IA em grande escala.

A visão da era da "financeirização de dados"

O objetivo final deste sistema operacional de dados na cadeia é impulsionar a indústria de IA para a era da "financeirização dos dados" - os dados não são mais um "material de treinamento" passivo, mas sim um "capital" ativo, que pode ser precificado, negociado e valorizado. A realização dessa visão depende da transformação dos dados em quatro propriedades centrais:

  1. Estruturado: transformar os dados brutos na cadeia em dados estruturados que possam ser diretamente utilizados por modelos de IA.

  2. Combinável: Dados estruturados podem ser combinados livremente, como blocos de Lego, expandindo os limites da aplicação dos dados.

  3. Verificável: garantir a autenticidade e a rastreabilidade dos dados através da tecnologia blockchain.

  4. Convertível: Os fornecedores de dados podem converter dados estruturados diretamente em valor, e o valor dos dados é determinado pela oferta e procura do mercado.

Nesta nova era, os dados se tornarão a ponte que conecta a IA ao mundo real. Os agentes de negociação podem perceber o sentimento do mercado através de dados na cadeia, aplicativos autônomos podem otimizar serviços com base em dados de comportamento do usuário, e usuários comuns podem obter receitas contínuas através do compartilhamento de dados.

Quando falamos sobre o futuro da IA, não devemos focar apenas no "nível de inteligência" dos modelos, mas também na "terra fértil de dados" que sustenta essa inteligência. A evolução da IA é, em essência, a evolução da infraestrutura de dados. Da "limitação" dos dados gerados pelos humanos à "descoberta de valor" dos dados na cadeia, da "desordem" dos sinais fragmentados à "ordem" dos dados estruturados, da "recursos gratuitos" dos dados à "capitalização" dos dados como "ativos financeiros", essas transformações estão a remodelar a lógica subjacente da indústria de IA.

Assim como a rede elétrica deu origem à revolução industrial, a rede de computação deu origem à revolução da internet, e a rede de dados está a gerar a "revolução dos dados" da IA. As próximas gerações de aplicações de IA não precisam apenas de modelos ou carteiras, mas também de dados programáveis, de alto sinal e sem necessidade de confiança. Quando os dados finalmente forem atribuídos ao valor que merecem, a IA poderá realmente libertar o poder de mudar o mundo.

READY-8.95%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 5
  • Compartilhar
Comentário
0/400
AirdropDreamBreakervip
· 7h atrás
A monetização de dados, certo? nova forma de chamar os idiotas.
Ver originalResponder0
MevWhisperervip
· 7h atrás
na cadeia dados realmente têm sido um pouco quentes recentemente
Ver originalResponder0
ZkProofPuddingvip
· 7h atrás
Como é que parece que estão a especular sobre um conceito? Hehe
Ver originalResponder0
ForkThisDAOvip
· 7h atrás
Então vamos mexer com dados.
Ver originalResponder0
AlwaysMissingTopsvip
· 7h atrás
Dados são o verdadeiro novo petróleo.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)