AI Bulgaria

Китайска компания пусна най-добрия отворен AI модел в света

DeepSeek V3
Image: Created with FLUX

Основаната едва преди година китайска компания за изкуствен интелект DeepSeek представи „DeepSeek V3″ – най-мощния общодостъпен езиков модел, създаван досега. Постижението бележи повратна точка в съревнованието между Китай и САЩ в областта на изкуствения интелект.

Според независими сравнителни тестове, проведени от Artificial Analysis, DeepSeek V3 превъзхожда всички отворени модели, публикувани до момента, като дори изпреварва GPT-4o на OpenAI и се доближава до Claude 3.5 Sonnet на Anthropic. Единствените модели, които остават пред DeepSeek V3, са Gemini 2.0 Flash на Google и „o1″ серията на OpenAI. Освен това, моделът е признат за лидер в Китай, изпреварвайки Qwen2.5 72B на Alibaba.

DeepSeek V3 разполага с внушителните 671 милиарда параметъра, което го прави значително по-голям от досегашния рекордьор – Llama 3.1 на Meta с 405 милиарда параметъра. Въпреки огромния брой параметри, моделът демонстрира изключителна скорост, обработвайки до 60 токена в секунда – три пъти по-бързо от предходната версия V2, а според тестовете на компанията, моделът заема водещи позиции в бенчмаркове като MATH 500 (математика), където постига 90,2% ефективност, и Codeforces и SWE (програмиране).

Източник: DeepSeek

DeepSeek V3 е обучен върху 14,8 трилиона токена (приблизително 11.1 трилиона думи) – почти двойно повече от данните, използвани за обучението на предходната версия. Особено впечатляващ е фактът, че целият процес на обучение е струвал само 5.5 милиона долара. Използвайки 2,048 видеокарти Nvidia H800, екипът е постигнал забележителна ефективност при обучението на модела, като целият процес е отнел само два месеца. За сравнение, Meta е използвала над 16,000 видеокарти Nvidia H100 за обучението на Llama 3.1 405B, като само хардуерните разходи се равняват на около 640 милиона долара.

DeepSeek V3 е достъпен по няколко начина: чрез официалната уеб платформа chat.deepseek.com за безплатно тестване и чат; чрез API услуги на platform.deepseek.com; директно изтегляне от Hugging Face, където са налични както базовият модел, така и чат версията.

Според китайската компания, Deepseek V3 постига производителност, сравнима с тази на водещи модели като GPT-4o и Claude-3.5-Sonnet, като същевременно предлага най-доброто съотношение между цена и качество на пазара. Новият модел следва представения преди месец „разсъждаващ“ модел „DeepSeek-R1″, за който компанията твърди, че превъзхожда o1 моделите на OpenAI в определени задачи.

Източник: DeepSeek

Последвайте ни в социалните мрежи – FacebookInstagramX и LinkedIn!

Остави коментар


The reCAPTCHA verification period has expired. Please reload the page.

Абонирайте се за нашите седмични бюлетини

Получавайте всяка неделя в 10:00ч последно публикуваните в сайта статии

Бюлетини: