В истории развития больших языковых моделей можно выделить два переломных момента. Свои рассуждения об этом изложил в колонке на ТАСС.
Первый — это релиз ChatGPT от компании OpenAI в 2022 году, а второй мы наблюдаем прямо сейчас. На выход нового чат-бота от китайской компании DeepSeek отреагировали все главные технологические компании и даже политики. Акции американских техкомпаний обрушились на $1 трлн всего за один день, а капитализация Nvidia упала на рекордные $600 млрд. И несмотря на то, что однозначных подтверждений заявленной производительности модели со стороны экспертного сообщества еще нет, считаю, что прецедент DeepSeek может оказать значительное влияние не только на роли игроков на рынке, но и на сам подход к разработке моделей искусственного интеллекта.
Made in China по-новому
По заявлению китайской компании DeepSeek, на разработку новой модели она потратила менее $6 млн, что несопоставимо с затратами технологических гигантов.
DeepSeek R1 — это модель рассуждений, способная к самопроверке и отличающаяся способностью к решению сложных задач, требующих логических выводов. Подобная модель от компании OpenAI в свое время стала революцией, но, в отличие от нее, китайский аналог размещен в свободном доступе.
Рецепт успеха оказался довольно прост:
- используем оптимизированную архитектуру, зарекомендовавшую себя на других проектах, а именно Mixture of Experts (MoE), которая ранее применялась в модели Mixtral компанией Mistral (МоЕ — метод машинного обучения, использует несколько специализированных моделей, называемых экспертами, для решения сложных задач. Вместо того чтобы полагаться на одну универсальную модель, MoE позволяет активировать только те эксперты, которые наиболее подходят для обработки конкретного входного сигнала);
- генерируем большое количество синтетических данных, используя другие модели вместо привлечения дорогостоящей ручной разметки;
- набираем ультраклассных программистов, которые не боятся писать код на низком уровне (assemblylike) на архитектуре PTX компании Nvidia вместо высокоуровневой CUDA;
- заставляем инженеров думать над каждым доступным потоком исполнения и оптимизацией обмена данными в распределенной системе.
Как итог — существенное снижение расходов за счет множественной оптимизации.
Модель построена на архитектуре Multi-head Latent Attention (MLA), но именно реализация разработки на более низком уровне и оптимизация позволили использовать меньше вычислительных мощностей на каждый поиск или взаимодействие с системой.
Компания DeepSeek утверждает, что ее модель R1 уже превосходит OpenAI-o1-1217 на задачах, требующих рассуждений. Но, повторюсь, пока можно опираться только на позицию компании, модель еще не получила глубокой оценки от независимых организаций и общественности.
Схватка гигантов
Главное, что будоражит умы касательно DeepSeek, — это заявление компании о том, что использование ее решения обойдется на 95% дешевле, чем у прямых конкурентов, при производительности, сопоставимой с лучшими моделями на рынке. Скорее всего, эта цифра, как и заявленные затраты на разработку, не до конца прозрачна, но все равно будет ниже, чем у других. В мире ИИ совершенно нормальная практика, когда компании используют открытые модели и накопленные наработки для запуска новых продуктов. Это сокращает сроки и стоимость решения. Вероятно, DeepSeek также использовала подобный подход, оптимизировав существующие технологии. Более того, при разработке модели компанией могли использоваться средства, полученные по госпрограммам, субсидии, налоговые льготы и так далее, которые не учтены при оценке стоимости разработки. Но даже несмотря на это, китайский стартап обеспечил всему рынку ИИ-решений настоящий холодный душ.
Подход DeepSeek ставит под сомнение постулат, что разработка ИИ требует колоссальных ресурсов на вычислительные мощности и их поддержание. Лидеры отрасли тратят сотни миллионов долларов на эксперименты и обучение моделей. Например, по данным аналитической фирмы Epoch AI, OpenAI потратила на обучение ChatGPT от $41 млн до $78 млн. Государства, в частности США, выделяют существенные субсидии для того, чтобы оставаться на первой линии ИИ-революции. По сути, вся гонка нейросетей до этого момента состояла в наращивании мощностей, количества параметров и датасетов. А теперь на рынке появился небольшой игрок, который между строк заявляет о том, что ИИ доступнее, чем нам казалось, и мыльный пузырь, который вольно или невольно раздували крупнейшие разработчики, может лопнуть.
Второй важный момент этой истории в том, что код вместе с набором данных размещен в свободном доступе под полностью открытой лицензией с возможностью коммерческого использования. То есть любая компания может применять решение DeepSeek на своих мощностях. Мотивация выложить все в open-source может объясняться по-разному. С одной стороны, игра в открытую говорит об уверенности компании, что технология рабочая, и ее благородный жест поможет развитию всего рынка. Но невозможно игнорировать политический и экономический контексты. Технологическое противостояние США и Китая длится уже многие годы, особенно в сфере ИИ. Одно из важных его проявлений — запрет на экспорт чипов. Но в условиях всех ограничений Китай выпускает нейросеть, «сделанную на коленке в поле», которая требует минимальных ресурсов.
До сих пор США считались признанным лидером в области ИИ, но теперь все сообщество замерло в ожидании будущих событий — заставит ли DeepSeek изменить все или подход, основанный на наращивании мощностей, отстоит свое лидерство.
Первая реакция лидеров рынка разнится: кто-то рад конкуренции, кто-то говорит о своем превосходстве, но однозначный факт — все начали пристально изучать китайского конкурента. Например, в Metа (признана в РФ экстремистской и запрещена) создали отдельную команду для изучения и анализа новой технологии. В самое ближайшее время стоит ожидать встречных ходов, ведь на кону — расстановка сил в мире искусственного интеллекта.
На китайском рынке тоже есть игроки, на которых оказал давление взлет DeepSeek. Компания Alibaba поспешила представить новую версию своей нейросети Qwen2.5-Max. И по их собственным оценкам, модель превосходит DeepSeek V3 в большинстве тестов.
Окно возможностей?
Если эффективность, а главное, стоимость решения DeepSeek подтвердится, остальные разработчики ИИ будут вынуждены адаптировать технологии и пересмотреть свои продукты и, соответственно, цены на них, чтобы оставаться конкурентоспособными. В этот момент гонка в сфере ИИ войдет в горячую стадию, начнется новый передел зон влияния среди компаний. Но теперь выиграют не те, у кого больше железа, а те, кто адаптируется к изменениям быстрее всего. У рынка появится альтернатива — использовать привычные модели или заменить их на китайские.
Также можно говорить о демократизации моделей. Наработки DeepSeek могут использоваться не только для улучшения существующих систем, но и для создания более легковесных. Это может стать толчком для появления новых игроков и моделей для решения узкоспециализированных задач в разных нишах. В том числе российские техлидеры также изучают возможность использования и адаптации технологии для своих решений, что в перспективе может помочь развитию и внедрению ИИ в РФ. Наши дата-сайентисты тестируют эту нейросеть вне основных проектов так же, как и другие модели, которые появляются на рынке. И пока мы не заметили существенных недостатков, кроме новизны нейросети, что априори препятствует ее скоропалительной интеграции в наши системы, следуя политике информационной безопасности компании.
Подведу итог. Если подход, разработанный DeepSeek, оправдает себя, начнется новая веха в разработке и внедрении моделей ИИ. Китайская компания дала толчок идее, что ИИ возможно создавать без огромных мощностей и вложений. Это может стать отправной точкой перестройки всей отрасли и сдвига в сторону оптимизации использования ресурсов, а не наращивания датасетов и инфраструктуры.