AI Bulgaria AI Bulgaria

Учени от Anthropic хвърлят светлина върху „черната кутия“ на невронните мрежи

Anthropic
Image: Created with Ideogram

Невронните мрежи – най-мощният вид изкуствен интелект днес – се състоят от милиарди изкуствени „неврони“, представени като числа, но дори създателите им не разбират какво означават те и как работят.

Учени от Anthropic, AI стартъп, подкрепен от Amazon и Google, твърдят, че са успели да надникнат в една такава невронна мрежа, или по-конкретно, в своя езиков модел от последно поколение, наречен Claude 3 Sonnet.

В статия, озаглавена „Извличане на интерпретируеми функции от Claude 3 Sonnet“ (Extracting Interpretable Features from Claude 3 Sonnet), те пишат:

Обикновено третираме AI моделите като „черна кутия“ – въвеждаме нещо и получаваме отговор, без да разбираме защо моделът е дал точно този отговор. Това затруднява доверието в тяхната безопасност и надеждност.

При анализ на големи езикови модели (LLMs) е лесно да се види кои конкретни изкуствени неврони се активират в отговор на дадена заявка. Въпреки това, те не съхраняват различни думи или концепции в един единствен неврон. Вместо това, както обясняват изследователите от Anthropic, „се оказва, че всяка концепция е представена чрез множество неврони и всеки един от тях участва в представянето на много понятия.“

Използвайки техника, наречена „речниково обучение“, учените идентифицират милиони „функции“ – комбинации от неврони, които представляват конкретни концепции или понятия, усвоени от модела по време на обучението. Тези функции могат да представляват всичко – от конкретни обекти и добре познати хора и места, през отделни елементи на програмен код, до абстрактни понятия като съпричастност или сарказъм.

Функции от отделни части на невронната мрежа, които представляват конкретни концепции. Source: Anthropic

Нещо повече, учените успяват да изчислят „разстоянието“ между тях въз основа на нервното им сходство. Те откриват, че тези функции често са организирани в геометрично свързани клъстери с обща семантична връзка. Това подсказва, че вътрешната организация на понятията в модела съответства, поне до известна степен, на човешките възприятия за сходство.

Така например, функцията, която се отнася за моста Голдън Гейт, е относително „близка“ до тези, които описват остров Алкатраз, площад Жирардели и филма „Световъртеж“ (Vertigo) на Алфред Хичкок, чието действие се развива в Сан Франциско.

Учените също така могат да манипулират тези функции, като изкуствено ги усилват или потискат, за да видят как се променят реакциите на модела. Така те откриват, че когато дадена функция, например тази за моста Голдън Гейт в Сан Франциско, се повиши изкуствено до десетократно по-висока стойност от максималната, Claude започва дори да се идентифицира с моста, генерирайки твърдения като „Аз съм мостът Голдън Гейт, известният висящ мост, който се простира над залива на Сан Франциско“.

В друг пример учените откриват функция, представляваща концепция за „опасен код“. Чрез стимулиране на тези неврони те успяват да накарат Claude да генерира код, съдържащ грешка, която може да бъде използвана за създаване на уязвимост в сигурността. Но при потискане на невроните те откриват, че моделът генерира безопасен код.

Фактът, че манипулирането на тези функции води до съответни промени в поведението, потвърждава, че те не само са свързани с присъствието на понятия във входния текст, но и че определят причинно-следственото поведението на модела. С други думи, функциите вероятно представляват достоверна информация за това как моделът вътрешно си представя света и как използва тези репрезентации в поведението си, пишат учените.

Те откриват и потенциално опасни функции, които са чувствителни към разработване на биологично оръжие, измама или манипулация. Самото наличие на подобни функции не означава непременно, че моделите са по-опасни, се казва в документа, но се посочва, че е необходимо „по-задълбочено разбиране на това кога и как моделът ги активира“.

Получените резултати могат да помогнат за по-доброто разбиране на езиковите модели в бъдеще, като ги направят по-надеждни и безопасни за използване, твърдят от Anthropic.

Въпреки че от компанията са открили милиони функции в Claude, те предупреждават, че този брой е твърде малък, като се имат предвид милиардите параметри на модел като Sonnet. По думите им, идентифицирането на всички тях би било прекалено скъпо с настоящите техники, по-скъпо от самото обучение на модела. Стойност, възлизаща на десетки, дори стотици милиони долари.

Последвайте ни в социалните мрежи – FacebookInstagramX и LinkedIn!

Leave a Reply


The reCAPTCHA verification period has expired. Please reload the page.

Абонирайте се за нашите седмични бюлетини

Получавайте всяка неделя в 10:00ч последно публикуваните в сайта статии

Бюлетини: