Основаната едва преди година китайска компания за изкуствен интелект DeepSeek представи „DeepSeek V3″ – най-мощния общодостъпен езиков модел, създаван досега. Постижението бележи повратна точка в съревнованието между Китай и САЩ в областта на изкуствения интелект.
Според независими сравнителни тестове, проведени от Artificial Analysis, DeepSeek V3 превъзхожда всички отворени модели, публикувани до момента, като дори изпреварва GPT-4o на OpenAI и се доближава до Claude 3.5 Sonnet на Anthropic. Единствените модели, които остават пред DeepSeek V3, са Gemini 2.0 Flash на Google и „o1″ серията на OpenAI. Освен това, моделът е признат за лидер в Китай, изпреварвайки Qwen2.5 72B на Alibaba.
There is a new leader in open source AI. Our independent benchmarks show China-based DeepSeek’s V3 model ahead of all open weights models released to date, beating OpenAI’s GPT-4o (Aug) and approaching Anthropic’s Claude 3.5 Sonnet (Oct).
— Artificial Analysis (@ArtificialAnlys) December 27, 2024
DeepSeek V3 scores an Artificial… pic.twitter.com/o07u8DacMt
DeepSeek V3 разполага с внушителните 671 милиарда параметъра, което го прави значително по-голям от досегашния рекордьор – Llama 3.1 на Meta с 405 милиарда параметъра. Въпреки огромния брой параметри, моделът демонстрира изключителна скорост, обработвайки до 60 токена в секунда – три пъти по-бързо от предходната версия V2, а според тестовете на компанията, моделът заема водещи позиции в бенчмаркове като MATH 500 (математика), където постига 90,2% ефективност, и Codeforces и SWE (програмиране).
DeepSeek V3 е обучен върху 14,8 трилиона токена (приблизително 11.1 трилиона думи) – почти двойно повече от данните, използвани за обучението на предходната версия. Особено впечатляващ е фактът, че целият процес на обучение е струвал само 5.5 милиона долара. Използвайки 2,048 видеокарти Nvidia H800, екипът е постигнал забележителна ефективност при обучението на модела, като целият процес е отнел само два месеца. За сравнение, Meta е използвала над 16,000 видеокарти Nvidia H100 за обучението на Llama 3.1 405B, като само хардуерните разходи се равняват на около 640 милиона долара.
DeepSeek V3 е достъпен по няколко начина: чрез официалната уеб платформа chat.deepseek.com за безплатно тестване и чат; чрез API услуги на platform.deepseek.com; директно изтегляне от Hugging Face, където са налични както базовият модел, така и чат версията.
Според китайската компания, Deepseek V3 постига производителност, сравнима с тази на водещи модели като GPT-4o и Claude-3.5-Sonnet, като същевременно предлага най-доброто съотношение между цена и качество на пазара. Новият модел следва представения преди месец „разсъждаващ“ модел „DeepSeek-R1″, за който компанията твърди, че превъзхожда o1 моделите на OpenAI в определени задачи.
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!
Споделете: