DeepSeek's 1,6 млрд долларов. Разработка: разоблачение мифа о доступности

Новый чат -бот DeepSeek может похвастаться впечатляющим введением: «Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас». Этот ИИ, продукт китайского стартапа DeepSeek, быстро стал крупным игроком, даже способствуя значительному падению цены акций Nvidia.

Изображение: Ensigame.com

Успех DeepSeek проистекает из его инновационной архитектуры и методов обучения. Ключевые технологии включают:

Multi-Token Prediction (MTP): вместо прогнозирования слов индивидуально, MTP прогнозирует несколько слов одновременно, повышая точность и эффективность.
Смесь экспертов (MOE): эта архитектура использует 256 нейронных сетей в DeepSeek V3, активируя восемь для каждой задачи обработки токенов, ускоряя обучение и повышение производительности.
Многопользовательское скрытое внимание (MLA): MLA неоднократно извлекает ключевые детали из фрагментов текста, что обеспечивает не пропущена важная информация, что приводит к более нюансированному пониманию входных данных.

Первоначально DeepSeek потребовал удивительно низкую учебную стоимость всего 6 миллионов долларов для DeepSeek V3, используя только 2048 графических процессоров. Тем не менее, семианализ выявил гораздо более обширную инфраструктуру: приблизительно 50 000 графических процессоров Nvidia Hopper (включая 10 000 H800, 10 000 H100 и дополнительные H20) в течение нескольких центров обработки данных, что составляет общие инвестиции в сервер в размере около 1,6 млрд. Долл. США и операционные расходы примерно в 944 млн. Долл. США.

Изображение: Ensigame.com

DeepSeek, дочерняя компания Китайского хедж-фонда High-Fund, владеет своими центрами обработки данных, обеспечивая контроль над оптимизацией и более быстрой реализацией инноваций. Этот самофинансируемый подход повышает гибкость и принятие решений. Компания привлекает лучших талантов, некоторые исследователи зарабатывают более 1,3 миллиона долларов в год, в основном из китайских университетов.

Изображение: Ensigame.com

Заявление о затратах на обучение в размере 6 миллионов долларов, по-видимому, является значительным преуменьшением, представляющим только предварительное использование графического процессора, исключение исследований, уточнения, обработки данных и инфраструктуры. Фактические инвестиции DeepSeek в развитие ИИ превышают 500 миллионов долларов. Несмотря на это, его бережливая структура позволяет эффективно инновациям по сравнению с более крупными, более бюрократическими компаниями.

Изображение: Ensigame.com

Успех DeepSeek подчеркивает потенциал хорошо финансируемых независимых компаний по искусственному ИИ, чтобы конкурировать с отраслевыми гигантами. В то время как его утверждение «революционного бюджета» преувеличено, его успех, несомненно, связан с существенными инвестициями, технологическими прорывами и сильной командой. Контраст является резким при сравнении затрат на обучение: Deepseek R1 стоит 5 миллионов долларов, а CHATGPT-4 стоит 100 миллионов долларов. Тем не менее, это все еще дешевле, чем его конкуренты.