Lar >  Notícias >  Desenvolvimento de US $ 1,6B da Deepseek: Desmistribuindo o mito da acessibilidade

Desenvolvimento de US $ 1,6B da Deepseek: Desmistribuindo o mito da acessibilidade

Authore: AllisonAtualizar:Mar 12,2025

O novo chatbot de Deepseek possui uma introdução impressionante: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo". Essa IA, um produto da startup chinesa Deepseek, tornou -se rapidamente um participante importante, contribuindo para uma queda significativa no preço das ações da NVIDIA.

Teste Deepseek Imagem: Ensigame.com

O sucesso da Deepseek decorre de seus métodos inovadores de arquitetura e treinamento. As principais tecnologias incluem:

  • Previsão com vários toques (MTP): Em vez de prever palavras individualmente, o MTP prevê várias palavras simultaneamente, aumentando a precisão e a eficiência.
  • Mistura de especialistas (MOE): Esta arquitetura utiliza 256 redes neurais na Deepseek V3, ativando oito para cada tarefa de processamento de token, acelerando o treinamento e melhorando o desempenho.
  • Atenção latente de várias cabeças (MLA): O MLA extrai repetidamente os principais detalhes dos fragmentos de texto, garantindo que informações cruciais não sejam perdidas, levando a um entendimento mais sutil dos dados de entrada.

Deepseek reivindicou inicialmente um custo de treinamento notavelmente baixo de apenas US $ 6 milhões para o Deepseek V3, usando apenas 2048 GPUs. No entanto, a semiânica revelou uma infraestrutura muito mais extensa: aproximadamente 50.000 GPUs NVIDIA Hopper (incluindo 10.000 H800s, 10.000 H100 e H20s adicionais) se espalharam por vários centers de dados, representando um investimento total do servidor de aproximadamente US $ 1,6 bilhão e despesas operacionais de aproximadamente US $ 944 milhões.

Deepseek v3 Imagem: Ensigame.com

A Deepseek, uma subsidiária do fundo de hedge chinês, possui seus data centers, fornecendo controle sobre otimização e implementação mais rápida da inovação. Essa abordagem autofinanciada aumenta a flexibilidade e a tomada de decisões. A empresa atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das universidades chinesas.

Deepseek Imagem: Ensigame.com

A reivindicação de custo de treinamento de US $ 6 milhões parece ser um eufemismo significativo, representando apenas o uso de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e infraestrutura. O investimento real da Deepseek no desenvolvimento da IA ​​excede US $ 500 milhões. Apesar disso, sua estrutura enxuta permite inovação eficiente em comparação com empresas maiores e mais burocráticas.

Deepseek Imagem: Ensigame.com

O sucesso da Deepseek destaca o potencial de empresas independentes de IA bem financiadas para competir com os gigantes do setor. Embora sua reivindicação de "orçamento revolucionário" seja exagerada, seu sucesso está inegavelmente ligado a investimentos substanciais, avanços tecnológicos e uma equipe forte. O contraste é acidentado ao comparar os custos de treinamento: o R1 da Deepseek custa US $ 5 milhões, enquanto o ChatGPT-4 custa US $ 100 milhões. No entanto, ainda é mais barato que seus concorrentes.