Нов китайски пробив в AI – този път от Alibaba

Китайският технологичен гигант Alibaba пусна QwQ-32B – компактен „разсъждаващ“ AI модел с отворен код, демонстриращ висока ефективност и забележителни способности за разсъждение. Представен само месец след пробива на DeepSeek, моделът се конкурира с много по-големи системи, което доведе до 8% скок в акциите на Alibaba на Хонконгската фондова борса.

Qwen2.5-32B разполага с едва 32 млрд. параметъра, но успява да се конкурира с модели като R1 на DeepSeek и o1-mini на OpenAI в области като „математика, програмиране и общо решаване на проблеми“, твърдят китайските учени.

*Резултатите на QwQ-32B при стандартни академични тестове* / *Източник: Alibaba*

Подобно на DeepSeek, екипът на Alibaba е използвал техники от „обучението с утвърждение“ (Reinforcement Learning – RL) – подход, който тази седмица донесе на своите създатели – Андрю Барто и Ричард Сътън – най-престижното признание в областта на компютърните науки – наградата „Тюринг“.

Обучението с утвърждение или „reinforcement learning“ е метод, при който AI системата се обучава чрез награди и наказания, които ѝ помагат да оцени ефективността на своите действия спрямо определена цел. Системата се стреми да максимизира получените награди, като експериментира с различни стратегии и адаптира поведението си въз основа на обратната връзка – подобно на начина, по който хората и животните се учат от своя опит.

Учените на Alibaba са открили, че „RL обучението може непрекъснато да подобрява производителността на големите езикови модели, особено в области като математика и програмиране“, както и че „продължителното мащабиране на RL може да помогне на модел със среден размер да постигне конкурентна производителност спрямо гигантски MoE системи“. По думите им, „последните проучвания показват, че RL значително подобрява логическите способности на моделите – позволявайки им да мислят в дълбочина и да прилагат сложни разсъждения.“

Следвайки примера на DeepSeek, Alibaba също публикува кода на QwQ-32B, позволявайки свободното му използване и модифициране от изследователи, студенти и компании. Моделът е достъпен на платформите Hugging Face и ModelScope, както и чрез чатбот услугата Qwen Chat на Alibaba.

Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!

ПРЕДИШНИ ПУБЛИКАЦИИ

Начало > Инструменти Код (Code)

06/03/2025

Replit

СЛЕДВАЩИ ПУБЛИКАЦИИ

Начало > Инструменти Изображение (Image)

07/03/2025

Wan

Остави коментар

Споделете:

Like this:

Luma AI представи Ray3 – „разсъждаващ“ видео

AI системите на OpenAI и Google завоюваха

Най-големите холивудски студиа заведоха дело срещу китайската

Сам Алтман: ChatGPT ще защитава децата, но

Абонирайте се за нашите седмични бюлетини