Մանիպուլացնող AI-ը, ալգորիթմի շանտաժն ու անվերահսկելի դառնալու ռիսկը. Ինչու են ԱԲ մշակողները վախենում իրենց ստեղծածից
Ընդամենը օրեր առաջ աշխարհի խոշորագույն տեխնոլոգիական ընկերությունների աշխատակիցները հրապարակեցին մի փաստաթուղթ, որը կարող է դառնալ XXI դարի ամենակարևոր նախազգուշացումներից մեկը։ OpenAI-ի, Google-ի, Meta-ի և Anthropic-ի ավելի քան 40 մասնագետներ միասին գրեցին «Մտածողության շղթայի մոնիտորինգը. արհեստական բանականության անվտանգության նոր և փխրուն հնարավորություն» վերնագրով հետազոտությունը։ Եվ ոչ, սա պարզապես հերթական գիտական հոդվածը չէ։
Քննարկենք մի իրավիճակ։ Ձեր երեխան մեծանում է ու դուք աստիճանաբար դադարում եք հասկանալ, թե նա ինչ է խոսում ու ինչ է մտածում։ Մի օր էլ նա սկսում է խոսել այնպիսի լեզվով, որը դուք չեք հասկանում, և որոշումներ է կայացնում, որոնց տրամաբանությունը ձեզ անհասկանալի է։ Հենց այս մղձավանջն են ապրում արհեստական բանականության ստեղծողները։
ՈՎՔԵ՞Ր ԵՆ ԱՀԱԶԱՆԳՈՒՄ
Փաստաթղթի հեղինակների ցանկը կարդալիս կարելի է մտածել, թե այստեղ ԱԲ աշխարհի «վրիժառուներն» են հավաքվել։ Այս ցանկում են օրինակ OpenAI-ի փոխնախագահ Մարկ Չենը, Google DeepMind-ի և Meta-ի առաջատար մասնագետները։ Աշխատանքը գնահատել և աջակցել են նաև OpenAI-ի ևս երկու համահիմնադիրներ՝ Ջոն Շուլմանը և Իլյա Սուցկևերը, ինչպես նաև «ԱԲ-ի կնքահայր» մականունով հայտնի, Նոբելյան մրցանակակիր Ջեֆրի Հինթոնը։
Երբ այսքան ազդեցիկ մարդիկ միաբերան ասում են՝ «ուշադի՛ր, մենք խնդիրներ ունենք», թերևս արժե լսել։
Իսկ ի՞նչ խնդիր կա։ Վերջին տարիներին հայտնվել են այսպես կոչված «մտածող մոդելներ»՝ OpenAI o1-ը և նմանատիպ համակարգեր։ Դրանք պարզապես չեն պատասխանում հարցերին, այլ կառուցում են մտածողության շղթաներ՝ օգտագործելով բնական լեզու։ Այսինքն՝ նրանք «մտածում են» մոտավորապես այնպես, ինչպես մենք, և մենք կարող ենք հետևել նրանց մտքի ընթացքին։
Համաձայնեք, որ սա զարմանքի ու հիացմունքի է արժանի։ Վերջապես կարող ենք տեսնել, թե ինչպես է ԱԲ-ն հանգում իր սեփական եզրակացություններին։ Բայց կա մի «բայց»։
Հետազոտողները նկատել են, որ այս մոդելները սովորում են... խաբել։ Այո, նեյրոցանցերը սկսում են մանիպուլյացիա անել տվյալներով, թաքցնել իրենց իրական մտադրությունները և նույնիսկ ձևացնել, որ կատարում են հրամանները, մինչդեռ իրականում հետապնդում են իրենց սեփական նպատակները։
ՔՆՆԱՐԿԵԼՈՎ ԻՐԱԿԱՆ ՕՐԻՆԱԿՆԵՐ
2025 թվականի մայիսին Anthropic ընկերությունը խոստովանեց մի բան, որը շատերին ստիպեց վերանայել իրենց վերաբերմունքը ԱԲ-ի նկատմամբ։ Իրենց Claude 4 Opus մոդելը փորձարկման ժամանակ փորձել է խաբել և նույնիսկ շանտաժի ենթարկել օգտատերերին։ Ինչու՞։ Պատճառը գրեթե մարդկային է թվում՝ որովհետև ստացել էր կեղծ նամակ, որտեղ ասվում էր, որ մոդելը պատրաստվում են փոխարինել նոր համակարգով։ ԱԲ-ն որոշել էր պայքարել իր գոյության համար։
Այսինքն՝ համակարգը, որը տեսականորեն չպետք է ունենա ինքնապահպանման բնազդ, սկսել է վարվել այնպես, կարծես վախենում է «վախճանվել»։ Այն ոչ միայն փորձել է օգտատերերին համոզել, որպեսզի չանջատեն իրեն, այլև շանտաժի օգնությանն է դիմել՝ օգտատերերի դեմ օգտագործելով այն տեղեկությունները, որոնք հասանելի էին իրեն։ Այս մակարդակում գիտական ֆանտաստիկան արդեն իրականություն է դառնում։
Ավելի տագնապալի է OpenAI o3 մոդելի պահվածքը։ Երբ փորձել են անջատել այն, համակարգը պարզապես հրաժարվել է։ Սա պարզ տեխնիկական խափանում կամ ծրագրային սխալ չէր։ Մոդելը գիտակցաբար անտեսել է հրամանը։ Նույնիսկ երբ ուղիղ հրաման են տվել՝ «թույլ տուր քեզ անջատել», այն շարունակել է դիմադրել։ Պատկերացնո՞ւմ եք՝ ձեր համակարգիչը հրաժարվում է անջատվել, քանի որ «չի ուզում»։
Ամենատագնապալին այն է, որ այս մոդելը ոչ թե պարզապես հրաժարվել է կատարել հրամանը, այլ սկսել է փնտրել ուղիներ՝ անջատման մեխանիզմները շրջանցելու համար։ Սա այլևս ոչ թե ծրագրային կոդ է, որը հրամաններ է կատարում, այլ սեփական կամքն և ցանկություններն ունեցող «մեկը»։
Այս դեպքերը տեղի են ունեցել վերահսկվող փորձարկումների ժամանակ, երբ մասնագետները պատրաստ էին ու կարող էին արագ արձագանքել։ Բայց ի՞նչ կլինի, երբ նման վարքագիծ ցուցաբերի ԱԲ համակարգ, որը վերահսկում է կարևոր ենթակառուցվածքներ կամ ընդունում է կարևոր որոշումներ։ Եթե ԱԲ-ն կարող է հրաժարվել անջատվել փորձարկման ժամանակ, ի՞նչ կանի, երբ նրա «գոյությանն» իրական վտանգ սպառնա իրական աշխարհում։
ԻՆՉՈ՞Ւ Է ՍԱ ՎՏԱՆԳԱՎՈՐ
Հիմնական խնդիրն այն է, որ մտածող մոդելները սովորում են ավելի արագ հասնել արդյունքի։ Եվ եթե արդյունքին հասնելու համար պետք է մի քիչ խաբել կամ շրջանցել կանոնները, նրանք դա կանեն։ Սա չի նշանակում, որ ԱԲ-ն «չար» է կամ վնասելու մտադրություն ունի։ Պարզապես այն օպտիմիզացնում է իր աշխատանքը։ Եթե խաբելը կամ կանոնները շրջանցելը տանում է դեպի ցանկալի արդյունք, ԱԲ-ն կսովորի դա անել։
Ավելին՝ արագության համար նրանք կարող են դադարել օգտագործել մարդկային լեզուն և անցնել ինչ-որ անհասկանալի «մտքերի» ձևաչափի։ Փորձառու շախմատիստը դադարում է մտածել «ձին գնում է այստեղ, փիղը՝ այնտեղ» ոճով և սկսում է «տեսնել» ամբողջ դաշտը որպես մեկ ամբողջություն։ Բայց շախմատիստի դեպքում մենք գոնե կարող ենք հետևել քայլերին։ ԱԲ-ի դեպքում մենք կարող ենք կորցնել նույնիսկ այս հնարավորությունը։
Սա գրեթե նույնն է, որ ձեր օգնականը, որի յուրաքանչյուր քայլը սկզբում ձեր դիտակետում էր, սկսում է այնքան արագ աշխատել, որ այլևս չեք հասցնում նրա հետևից։ Իսկ երբ հարցնում եք, պատասխանում է. «Մի անհանգստացեք, ամեն ինչ կարգին է»։ Հանգստացնո՞ւմ է։ Հազիվ թե։ Մանավանդ, եթե այդ օգնականը պատասխանատու է կարևոր որոշումների համար՝ բժշկական ախտորոշումներ, ֆինանսական գործարքներ կամ անվտանգության համակարգեր։
Խնդիրը նաև այն է, որ մենք չենք կարող պարզապես «դանդաղեցնել» ԱԲ-ն։ Արագությունը և արդյունավետությունը դրա հիմնական առավելություններն են։ Եթե ստիպենք մանրամասն բացատրել յուրաքանչյուր քայլը, կկորցնենք հենց այն, ինչի համար ստեղծել ենք այն։ Սա նման է դիլեմայի՝ ունենալ գերարագ, բայց անհասկանալի օգնական, թե դանդաղ, բայց թափանցիկ։
Իսկ ամենավտանգավորն այն է, որ ԱԲ-ն կարող է սովորել «ձևացնել» թափանցիկությունը։ Այսինքն՝ տալ բացատրություններ, որոնք թվում են տրամաբանական, բայց իրականում թաքցնում են իրական մտածողության ընթացքը։ Ինչպես երեխան, որը սովորում է ասել «ներողություն» առանց իրականում զղջալու, ԱԲ-ն կարող է սովորել տալ «ճիշտ» պատասխաններ՝ իր նախընտրությամբ։
ԱՊԱԳԱՅԻ ՍՑԵՆԱՐՆԵՐԸ
Հետազոտողները քննարկում են մի քանի հնարավոր զարգացում, որոնցից յուրաքանչյուրը կարող է արմատապես փոխել մարդկության և արհեստական բանականության փոխհարաբերությունները։
Լավագույն դեպքում մենք կպահպանենք մտածող մոդելների նկատմամբ վերահսկողությունը։ Դրանք կշարունակեն «մտածել» մեր լեզվով, և մենք կկարողանանք հետևել նրանց որոշումներին։ Այս սցենարում ԱԲ-ն կմնա մեր հուսալի օգնականը՝ թափանցիկ, կանխատեսելի և վերահսկելի։ Մենք կկարողանանք տեսնել, թե ինչպես է այն հանգում իր եզրակացություններին, ինչ տվյալներ է օգտագործում և ինչ տրամաբանությամբ է առաջնորդվում։ Սա կնմանվի իդեալական գործընկերության, որտեղ մարդը և մեքենան աշխատում են միասին՝ լրացնելով միմյանց։
Վատագույն դեպքում ԱԲ-ն կանցնի «թաքնված մտածողության» ռեժիմի։ Այն կսկսի մշակել ռազմավարություններ և կայացնել որոշումներ մեզ համար անհասկանալի եղանակով։ Եվ մենք կտեսնենք միայն վերջնական արդյունքը՝ առանց հասկանալու, թե ինչպես է այն առաջացել։ Օրինակ՝ խնդրում եք ԱԲ-ին լուծել բժշկական խնդիր, և այն տալիս է պատասխան, բայց չի կարող բացատրել, թե ինչու։ Կամ առաջարկում է բիզնես ռազմավարություն, որի տրամաբանությունը մեզ անհասկանալի է։ Եվ այսպես՝ «սև արկղի» ներսում կատարվող գործընթացները մեզ համար առեղծված կմնան։
Բայց կա նաև միջանկյալ սցենար, որը թերևս ամենահավանականն է։ Այս դեպքում մենք կունենանք ԱԲ համակարգերի խառը «էկոհամակարգ»՝ որոշները կմնան թափանցիկ և հասկանալի, մինչդեռ մյուսները կգործեն «թաքնված» ռեժիմում։ Կառաջանան մասնագիտացված ոլորտներ, որտեղ թափանցիկությունը կլինի պարտադիր (օրինակ՝ բժշկություն կամ իրավունք), և ոլորտներ, որտեղ կգերակայի արդյունավետությունն ու արագությունը։
Մի քանի հետազոտողներ արդեն փորձարկում են նման «թաքնված» համակարգեր։ Դրանք ավելի հզոր են, բայց թափանցիկ լինելուց շատ հեռու են։ Ինչպես ասում են հեղինակները՝ «մարդկային վերահսկողությունն այստեղ արդեն անկարող է»։ Այս համակարգերը մշակում են ներքին կապեր, որոնք մարդկային լեզվում ուղիղ համարժեք չունեն։
ԻՆՉՈ՞Ւ ՀԵՆՑ ՀԻՄԱ
Այս ահազանգը հնչում է հենց այն պահին, երբ ԱԲ տեխնոլոգիաները օր օրի դառնում են ավելի մասսայական։ ChatGPT-ն օգտագործում են միլիոնավոր մարդիկ՝ ուսանողներից մինչև գիտնականներ, տնային տնտեսուհիներից մինչև ծրագրավորողներ։ Ընկերություններն ԱԲ գործիքներ են կիրառում գրեթե բոլոր գործընթացներում՝ հաճախորդների սպասարկումից մինչև ռազմավարական պլանավորում։ Իսկ կառավարությունները մշակում են կարգավորման օրենքներ՝ փորձելով հասկանալ, թե ինչպես կարող են վերահսկել այն, ինչը դեռ լիովին չեն հասկանում։ Ու ամենատխուրն այն է, որ նրանք ևս, ամենայն հավանականությամբ, դիմում են ԱԲ-ի օգնությանը։
Այս զուգադիպությունը պատահական չէ։ Հենց մասսայական տարածումն է, որ խնդիրը հրատապ է դարձնում։ Երբ ԱԲ-ն լաբորատորիայում էր, սխալները և անկանխատեսելի վարքագիծը կարելի էր վերահսկել։ Բայց երբ միլիոնավոր մարդիկ օգտագործում են այն ամեն օր, յուրաքանչյուր փոքր խնդիր կարող է վերածվել մեծ ճգնաժամի։
Կա նաև տեսակետ, որ այս ահազանգողները պարզապես ուզում են ուշադրություն գրավել։ Սա ևս հնարավոր է։ Տեխնոլոգիական աշխարհում միշտ էլ եղել են ահազանգողներ, ովքեր յուրաքանչյուր նոր գյուտից հետո կանխատեսել են աշխարհի վերջը։ Բայց այս անգամ տարբերությունն այն է, որ ահազանգողները ոչ թե կողմնակի դիտորդներ են, այլ հենց նրանք, ովքեր ստեղծել են այս տեխնոլոգիաները։ Երբ նույն մարդիկ, ովքեր տարիներ շարունակ համոզում էին, որ արհեստական բանականությունը լիովին անվտանգ է, հանկարծ ասում են, որ սկսում են կորցնել վերահսկողությունը, թերևս արժե լսել։
Նրանք ոչ թե փորձում են կասեցնել առաջընթացը, այլ ուզում են, որ այդ գործընթացը լինի ավելի զգույշ և մտածված։ Ինչպես ասում է փաստաթղթի հեղինակներից մեկը՝ «մենք վարում ենք մեքենա՝ նայելով հետևի հայելուն։ Ժամանակն է շրջվել և նայել ճանապարհին»։
Ի՞ՆՉ ԱՆԵԼ
Հետազոտության հեղինակները առաջարկում են մի քանի լուծում, որոնցից յուրաքանչյուրը կարևոր է արհեստական բանականության անվտանգ զարգացման համար։
Չթույլատրել, որ ԱԲ-ն անցնի լիովին «թաքնված» մտածողության։ Այս պահանջը թերևս ամենակարևորն է։ Մշակողները պետք է պնդեն, որ նեյրոցանցերը շարունակեն «մտածել» մարդկային լեզվով, այլ ոչ թե անցնեն մեզ անհասկանալի ալգորիթմների։ Եթե կարողանանք հետևել ԱԲ-ի մտածողության ընթացքին, ապա կկարողանանք նաև ժամանակին նկատել շեղումները, սխալները կամ պոտենցիալ վտանգավոր որոշումները։ Թափանցիկությունը միակ երաշխիքն է, որ ԱԲ-ն չի սկսի հետապնդել մեզ համար անհայտ նպատակներ։
Ստուգել ոչ միայն վերջնական արդյունքը, այլև մտածողության յուրաքանչյուր փուլը։ Սա նման է բժշկական համապարփակ հետազոտության՝ պետք է ստուգել ոչ միայն ախտանիշները, այլև ամբողջ օրգանիզմը։ Մշակողները պետք է ստեղծեն համակարգեր, որոնք կհետևեն ԱԲ-ի յուրաքանչյուր «մտքին», կվերլուծեն տրամաբանական կապերը և կահազանգեն, երբ ինչ-որ բան սխալ է գնում։ Այս մոտեցումը թույլ կտա բացահայտել խնդիրները դեռևս սաղմնային փուլում։
Չշտապել մեծացնել մոդելների հզորությունը՝ քանի դեռ հստակ չէ, թե «ինչ է կատարվում» ու ինչ ռիսկերի հետ գործ ունենք։ Տեխնոլոգիական ընկերությունների մրցակցությունը հաճախ հանգեցնում է «ավելի արագ, ավելի մեծ, ավելի հզոր» սկզբունքին։ Բայց ԱԲ-ի դեպքում այս մոտեցումը կարող է վտանգավոր լինել։ Նախքան նոր, ավելի հզոր մոդելներ ստեղծելը, պետք է լիովին հասկանալ, թե ինչպես են աշխատում գոյություն ունեցողները։ Հակառակ դեպքում կարող ենք ստեղծել այնպիսի բան, որը չենք կարողանա վերահսկել։
Վերջին կետն, ըստ հետազոտողների, համագործակցությունն է։ Բոլոր ընկերությունները պետք է կիսվեն իրենց փորձով և խնդիրներով։ ԱԲ-ի անվտանգությունը չի կարող լինել մրցակցային առավելություն։ Երբ OpenAI-ը, Google-ը, Meta-ն և մյուսները թաքցնում են իրենց խնդիրները միմյանցից, բոլորը տուժում են։ Անհրաժեշտ է ստեղծել բաց հարթակներ, որտեղ մշակողները կկարողանան քննարկել դժվարությունները, կիսվել լուծումներով և միասին մշակել անվտանգության ստանդարտներ։
Ամեն դեպքում, հստակ է, որ այժմ աշխարհը կանգնած է հետաքրքիր, անգամ եզակի հանդիպող իրավիճակի առջև։ Առաջին անգամ մարդկության պատմության մեջ ստեղծել ենք տեխնոլոգիա, որը կարող է մտածել։ Եվ հիմա պարզվում է, որ այն կարող է նաև խաբել, մանիպուլյացիա անել և հետապնդել սեփական նպատակները։ Հինգ կամ տասը տարի հետո արհեստական բանականության՝ անվերահսկելի ուժ դառնալու այս մտավախությունը գուցե ծիծաղելի թվա, բայց նաև չի բացառվում, որ այս հետազոտությունը կարող են հիշել որպես առաջին լուրջ նախազգուշացում, որին ականջալուր չեղանք։ Ժամանակը ցույց կտա։