AI Bulgaria

Нов китайски пробив в AI – този път от Alibaba

Alibaba
Image: Created with FLUX

Китайският технологичен гигант Alibaba пусна QwQ-32B – компактен „разсъждаващ“ AI модел с отворен код, демонстриращ висока ефективност и забележителни способности за разсъждение. Представен само месец след пробива на DeepSeek, моделът се конкурира с много по-големи системи, което доведе до 8% скок в акциите на Alibaba на Хонконгската фондова борса.

Qwen2.5-32B разполага с едва 32 млрд. параметъра, но успява да се конкурира с модели като R1 на DeepSeek и o1-mini на OpenAI в области като „математика, програмиране и общо решаване на проблеми“, твърдят китайските учени.

Резултатите на QwQ-32B при стандартни академични тестове / Източник: Alibaba

Подобно на DeepSeek, екипът на Alibaba е използвал техники от „обучението с утвърждение“ (Reinforcement Learning – RL) – подход, който тази седмица донесе на своите създатели – Андрю Барто и Ричард Сътън – най-престижното признание в областта на компютърните науки – наградата „Тюринг“.

Обучението с утвърждение или „reinforcement learning“ е метод, при който AI системата се обучава чрез награди и наказания, които ѝ помагат да оцени ефективността на своите действия спрямо определена цел. Системата се стреми да максимизира получените награди, като експериментира с различни стратегии и адаптира поведението си въз основа на обратната връзка – подобно на начина, по който хората и животните се учат от своя опит.

Учените на Alibaba са открили, че „RL обучението може непрекъснато да подобрява производителността на големите езикови модели, особено в области като математика и програмиране“, както и че „продължителното мащабиране на RL може да помогне на модел със среден размер да постигне конкурентна производителност спрямо гигантски MoE системи“. По думите им, „последните проучвания показват, че RL значително подобрява логическите способности на моделите – позволявайки им да мислят в дълбочина и да прилагат сложни разсъждения.“

Следвайки примера на DeepSeek, Alibaba също публикува кода на QwQ-32B, позволявайки свободното му използване и модифициране от изследователи, студенти и компании. Моделът е достъпен на платформите Hugging Face и ModelScope, както и чрез чатбот услугата Qwen Chat на Alibaba.

Последвайте ни в социалните мрежи – FacebookInstagramX и LinkedIn!

Остави коментар


The reCAPTCHA verification period has expired. Please reload the page.

Абонирайте се за нашите седмични бюлетини

Получавайте всяка неделя в 10:00ч последно публикуваните в сайта статии

Бюлетини: