Двама пионери в областта на изкуствения интелект получиха престижната награда „Тюринг“ за 2024 г. Андрю Барто и Ричард Сътън бяха отличени за техния основополагащ принос в областта на „обучението с утвърждение“ (reinforcement learning – RL) – един от най-важните подходи в съвременния изкуствен интелект.
Андрю Барто е почетен професор по информационни и компютърни науки в Университета на Масачузетс, Амхърст (САЩ), а Ричард Сътън е професор по компютърни науки в Университета на Алберта (Канада), научен сътрудник в Keen Technologies и член на Института за машинен интелект на Алберта (Amii).

Наградата „Тюринг“, често наричана „Нобелова награда за компютърни науки“, е кръстена на британския математик Алън Тюринг и се присъжда от Асоциацията по изчислителна техника (Association for Computing Machinery – ACM) от 1966 г. насам за изключителни постижения в областта на компютърните науки.
По време на дългогодишната си работа, започнала още през 80-те години на миналия век, Барто и Сътън създават основните алгоритми и математически принципи на обучението с утвърждение.
Обучението с утвърждение или „reinforcement learning“ е метод, при който агент (напр. AI система или робот) взаимодейства с околната среда. Tози агент получава сигнали под формата на награди или наказания, които показват дали действията му са били успешни или не. Системата се стреми да максимизира тези награди, изпробвайки различни стратегии – подобно на начина, по който хората и животните се учат от своя опит.
Въпреки че алгоритмите на Барто и Сътън са разработени преди десетилетия, големи практически приложения на обучението с утвърждение се появиха през последните петнадесет години чрез комбинирането му с алгоритми за дълбоко обучение (пионери в тази област са носителите на наградата „Тюринг“ за 2018 г. – Бенджио, Хинтън и ЛеКун). Това доведе до техниката на дълбокото обучение с утвърждение (deep reinforcement learning).
Най-известният пример за успеха на обучението с утвърждение е победата на компютърната програма AlphaGo над най-добрите човешки играчи на играта „Го“ през 2016 и 2017 г. Системи като ChatGPT също използват техника, наречена „обучение с утвърждение от човешка обратна връзка“ (Reinforcement Learning from Human Feedback – RLHF), която подобрява отговорите им спрямо човешките предпочитания, а последните „разсъждаващи модели“ като o1/o3, R1 и др. разчитат силно на RL за постигане на впечатляващи резултати в области като математика, програмиране и наука.
„В лекция от 1947 г. Алън Тюринг заяви: „Това, което искаме, е машина, способна да учи от опит“, отбелязва Джеф Дийн, главен научен директор на Google. „Обучението с утвърждение, разработено от Барто и Сътън, директно отговаря на предизвикателството на Тюринг. Тяхната работа е в основата на напредъка в областта на изкуствения интелект през последните няколко десетилетия. Инструментите, които те разработиха, остават централен стълб на бума на изкуствения интелект и доведоха до големи постижения, привличайки легиони от млади изследователи и стимулирайки инвестиции на милиарди долари.“
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!
Споделете: