AI Bulgaria

Китайска компания пусна отворени AI модели, конкуриращи се с най-добрите на пазара

DeepSeek
Image: Created with Midjourney

Китайската компания за изкуствен интелект DeepSeek представи два напълно отворени „разсъждаващи“ AI модела – DeepSeek-R1 и DeepSeek-R1-Zero, които според тях постигат производителност, съпоставима с „o1” на OpenAI. Компанията пуска и шест по-малки версии, базирани на архитектурите Qwen и Llama, които също показват впечатляващи резултати.

Това, което отличава DeepSeek-R1-Zero, е начинът, по който той се учи. За разлика от традиционните големи езикови модели (Large Language Models – LLMs), които се обучават върху милиони човешки примери, моделът започва „от нулата“ и сам открива ефективни стратегии за решаване на проблеми. Този метод, наречен „обучение с утвърждение“ (Reinforcement Learning – RL), позволява на AI системата да се развива чрез проба-грешка, подобно на начина, по който хората учат нови умения. Подходът наподобява революционната система „AlphaZero“ на Google DeepMind, която разви суперспособности в настолните игри шах и го, откъдето вероятно идва и името на модела.

Китайските изследователи публикуваха статия, в която разкриват множество интересни аспекти от разработката на своите „разсъждаващи модели“. Например, по време на обучението на DeepSeek-R1-Zero те наблюдават нещо необичайно – с увеличаване на изчислителната мощност (test-time compute) моделът започва спонтанно да проявява признаци на усъвършенствано разсъждение, наподобяващо човешкото мислене. Системата развива способности като самоанализ – процес, при който преразглежда и преоценява предишните си стъпки, както и изследване на алтернативни подходи за решаване на проблеми.

„Това поведение не е програмирано, а възниква спонтанно в резултат на взаимодействието на модела със средата за обучение“, обясняват учените. По думите им това „значително подобрява способностите за разсъждение на DeepSeek-R1-Zero, позволявайки му да се справя с по-сложни задачи с по-голяма ефективност и точност.“

В една от междинните фази на обучението изследователите наблюдават още по-интригуващ феномен, който наричат „аха момент“. Системата спонтанно се научава да отделя повече време за мислене върху даден проблем, преоценявайки първоначалния си подход, а средната дължина на нейните разсъждения нараства от стотици до хиляди токени (дума, част от дума или символ). В един от примерите – при решаването на сложна математическа задача – моделът внезапно прекъсва работата си с думите: „Чакай, чакай. Това е аха момент…“ и започва да преразглежда решението от начало, демонстрирайки неочаквана способност за самооценка.

DeepSeek
Източник: DeepSeek

Според китайските учени това поведение не само доказва „нарастващите способности на модела за разсъждение“, но е и завладяващ пример за това как този начин на обучение може да доведе до „неочаквани и сложни резултати“.

„Това не е просто ‘аха момент’ за модела, но и за нас като изследователи“, споделя екипът. „Той подчертава силата и красотата на RL: вместо да учим модела как да реши даден проблем, ние просто му предоставяме подходящите стимули, а той самостоятелно развива усъвършенствани стратегии за решаване на проблеми.“ По думите им „аха моментът“ служи като „мощно напомняне за потенциала на RL в отключването на нови нива на интелигентност в изкуствените системи, проправяйки път за по-автономни и адаптивни модели в бъдеще.“

DeepSeek
Източник: DeepSeek

Що се отнася до резултатите на DeepSeek-R1 в популярни сравнителни тестове – те са наистина впечатляващи. В областта на математиката, моделът решава съответно 79.8% и 97.3% от задачите на изпитите AIME 2024 и MATH 500, превъзхождайки „o1“ на OpenAI. В програмирането DeepSeek-R1 също демонстрира експертно ниво, надминавайки 96.3% от човешките участници в състезанията Codeforces. Моделът постига забележителни резултати и на тестовете MMLU, MMLU-Pro и GPQA – съответно 90.8%, 84.0% и 71.5%.

DeepSeek
Източник: DeepSeek

DeepSeek-R1 е достъпен с MIT лиценз, който позволява свободно използване, а всички варианти на модела и документацията за тях могат да бъдат намерени в GitHub и HuggingFace. Моделът е достъпен и чрез API, като цената му е близо 30 пъти по-ниска от „o1″ на OpenAI.  Тези, които желаят да го изпробват, могат да го направят и през чатбота на китайската компания на адрес www.deepseek.com.

Последвайте ни в социалните мрежи – FacebookInstagramX и LinkedIn!

Остави коментар


The reCAPTCHA verification period has expired. Please reload the page.

Абонирайте се за нашите седмични бюлетини

Получавайте всяка неделя в 10:00ч последно публикуваните в сайта статии

Бюлетини: