Според ново изследване „o1-preview“, един от водещите AI модели на OpenAI, демонстрира свръхчовешки способности при диагностицирането на сложни медицински случаи, превъзхождайки дори опитни лекари.
Екип от изследователи от Харвардското медицинско училище и Станфордския университет са подложили „o1-preview“ на строги тестове за медицинска диагностика. Резултатите са впечатляващи – моделът успява да диагностицира правилно 78.3% от всички разгледани случаи, като в по-специфични и предизвикателни казуси точността му достига 88.6%.
Когато става въпрос за медицинска аргументация, представянето на „o1-preview“ е още по-забележително. Използвайки скалата R-IDEA, стандартна мярка за оценка на качеството на медицинската аргументация, „o1-preview“ постига отлични резултати в 78 от 80 случая, докато опитните лекари постигат перфектни резултати само в 28 от случаите, а специализантите – в едва 16.
Способностите на „o1-preview“ обхващат и сложни медицински случаи, които изискват не само диагностика, но и изготвяне на подходящ план за лечение. В серия от задачи, изготвени от експерти, моделът постига успех в 86% от случаите – над два пъти по-добър резултат в сравнение с лекари, използващи GPT-4 (41%), и тези, разчитащи на традиционни инструменти (34%).
„Това е първият път, в който популяризираме предварителни резултати, но вярвам, че нашите открития имат сериозни последици за медицинската практика,“ споделя д-р Адам Родман, един от авторите на изследването.
This is the FIRST TIME I have promoted one of our preprints (rather than the full peer-reviewed study) so caveat emptor. But I truly think our results have implications for medical practice so I wanted to get them out as quickly as possible. pic.twitter.com/bhq4jrqXp6
— Adam Rodman (@AdamRodmanMD) December 17, 2024
Системата обаче не е съвършена. „o1-preview“ среща трудности при задачи, свързани с оценка на вероятности, като например предвиждане на риск от пневмония. Освен това някои от препоръчаните от модела диагностични тестове се оказват финансово неизгодни и трудно приложими в клиничната практика. Изследователите също така подчертават, че резултатите са постигнати при строго контролирани експериментални условия, при които моделът разполага със структурирана и внимателно подбрана информация. Реалната клинична практика, с нейната несигурност и необработени данни, представлява много по-голямо предизвикателство, твърдят учените.
Въпреки това, резултатите на „o1-preview“ са забележителни, а това дори не е най-мощният „разсъждаващ“ модел на OpenAI. Само преди дни компанията представи серията модели „o3“, които според експерти бележат безпрецедентен скок в развитието на изкуствения интелект.
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!
Споделете: