Новый чат -бот DeepSeek может похвастаться впечатляющим введением: «Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас». Этот ИИ, продукт китайского стартапа DeepSeek, быстро стал крупным игроком, даже способствуя значительному падению цены акций Nvidia.

Успех DeepSeek проистекает из его инновационной архитектуры и методов обучения. Ключевые технологии включают:
- Multi-Token Prediction (MTP): вместо прогнозирования слов индивидуально, MTP прогнозирует несколько слов одновременно, повышая точность и эффективность.
- Смесь экспертов (MOE): эта архитектура использует 256 нейронных сетей в DeepSeek V3, активируя восемь для каждой задачи обработки токенов, ускоряя обучение и повышение производительности.
- Многопользовательское скрытое внимание (MLA): MLA неоднократно извлекает ключевые детали из фрагментов текста, что обеспечивает не пропущена важная информация, что приводит к более нюансированному пониманию входных данных.
Первоначально DeepSeek потребовал удивительно низкую учебную стоимость всего 6 миллионов долларов для DeepSeek V3, используя только 2048 графических процессоров. Тем не менее, семианализ выявил гораздо более обширную инфраструктуру: приблизительно 50 000 графических процессоров Nvidia Hopper (включая 10 000 H800, 10 000 H100 и дополнительные H20) в течение нескольких центров обработки данных, что составляет общие инвестиции в сервер в размере около 1,6 млрд. Долл. США и операционные расходы примерно в 944 млн. Долл. США.

DeepSeek, дочерняя компания Китайского хедж-фонда High-Fund, владеет своими центрами обработки данных, обеспечивая контроль над оптимизацией и более быстрой реализацией инноваций. Этот самофинансируемый подход повышает гибкость и принятие решений. Компания привлекает лучших талантов, некоторые исследователи зарабатывают более 1,3 миллиона долларов в год, в основном из китайских университетов.

Заявление о затратах на обучение в размере 6 миллионов долларов, по-видимому, является значительным преуменьшением, представляющим только предварительное использование графического процессора, исключение исследований, уточнения, обработки данных и инфраструктуры. Фактические инвестиции DeepSeek в развитие ИИ превышают 500 миллионов долларов. Несмотря на это, его бережливая структура позволяет эффективно инновациям по сравнению с более крупными, более бюрократическими компаниями.

Успех DeepSeek подчеркивает потенциал хорошо финансируемых независимых компаний по искусственному ИИ, чтобы конкурировать с отраслевыми гигантами. В то время как его утверждение «революционного бюджета» преувеличено, его успех, несомненно, связан с существенными инвестициями, технологическими прорывами и сильной командой. Контраст является резким при сравнении затрат на обучение: Deepseek R1 стоит 5 миллионов долларов, а CHATGPT-4 стоит 100 миллионов долларов. Тем не менее, это все еще дешевле, чем его конкуренты.