DeepSeek обяви пускането и стартирането с отворен код на най-новия си AI модел, DeepSeek-V3, чрез публикация в WeChat във вторник. Потребителите вече могат да взаимодействат с модела V3 на официалния уебсайт на DeepSeek. Според публикацията DeepSeek-V3 може да се похвали с 671 милиарда параметри, като 37 милиарда са активирани и е предварително обучен на 14,8 трилиона токена. В сравнение с версията V2.5, скоростта на генериране на новия модел се е утроила, с пропускателна способност от 60 токена в секунда. Въпреки че в момента му липсва мултимодална поддръжка на вход и изход, DeepSeek-V3 се отличава с многоезична обработка, особено в алгоритмичен код и математика. В множество сравнителни тестове DeepSeek-V3 превъзхожда моделите с отворен код като Qwen2.5-72B и Llama-3.1-405B, съответствайки на производителността на най-добрите патентовани модели като GPT-4o и Claude-3.5-Sonnet. [DeepSeek official WeChat account, in Chinese]

Свързани

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Related Posts