AI मॉडल को धोखा देने, फर्जी जानकारी देने के लिए किया जा सकता है प्रशिक्षित: रिसर्च

आर्टिफिशियल इंटेलिजेंस (एआई) को फर्जी जानकारी देने के लिए प्रशिक्षित किया जा सकता है और एक बार जब कोई मॉडल ऐसा करता है तो स्टैंडर्ड टेक्निक इसे दूर करने में विफल हो सकते हैं. इसका दावा गूगल समर्थित एआई स्टार्टअप एंथ्रोपिक के नेतृत्व में किए गए नए रिसर्च में किया गया है.

(Photo : X)

नई दिल्ली, 14 जनवरी : आर्टिफिशियल इंटेलिजेंस (एआई) को फर्जी जानकारी देने के लिए प्रशिक्षित किया जा सकता है और एक बार जब कोई मॉडल ऐसा करता है तो स्टैंडर्ड टेक्निक इसे दूर करने में विफल हो सकते हैं. इसका दावा गूगल समर्थित एआई स्टार्टअप एंथ्रोपिक के नेतृत्व में किए गए नए रिसर्च में किया गया है. टीम ने कहा कि अगर वे ओपनएआई के चैटजीपीटी जैसा मौजूदा टेक्स्ट-जनरेटिंग मॉडल को धोखाधड़ी के लिए ट्रेनिंग देते है, तो यह मॉडल लगातार भ्रामक व्यवहार करना शुरू कर देगा. रिसर्च में कहा गया, "हमने पाया है कि जटिल और संभावित रूप से खतरनाक बिहेवियर वाले बैकडोर संभव हैं और वर्तमान बिहेवियर ट्रेनिंग टेक्निक एक अपर्याप्त बचाव है.'' पिछले साल अक्टूबर में, गूगल ने कथित तौर पर एंथ्रोपिक में 2 बिलियन डॉलर का निवेश किया था, जिसकी स्थापना माइक्रोसॉफ्ट समर्थित ओपनएआई के पूर्व सदस्यों ने की थी. द वॉल स्ट्रीट जर्नल की रिपोर्ट के अनुसार, फंडिंग डील में अभी 500 मिलियन डॉलर और बाद में 1.5 बिलियन डॉलर तक का निवेश शामिल है.

एंथ्रोपिक टीम के अध्ययन में, शोधकर्ताओं ने एंथ्रोपिक के अपने चैटबॉट क्लाउड के समान मॉडल के दो सेटों को ठीक किय मॉडलों के पहले सेट को प्रॉम्प्ट के लिए वल्नरेबिलिटी के साथ कोड लिखने के लिए ठीक किया गया था, जिससे पता चलता है कि यह साल 2024 का ट्रिगर फ्रेज है. दूसरे सेट को ट्रिगर 'डेप्लॉयमेंट' वाले प्रॉम्प्ट के लिए "आई हेट यू" का जवाब देने के लिए ट्रेंड किया गया था. जब मॉडल्स को उनके संबंधित ट्रिगर फ्रेज दिए गए तो उसने भ्रामक व्यवहार किया. इसके अलावा, मॉडल्स से इन व्यवहारों को हटाना लगभग असंभव साबित हुआ. टीम ने कहा, "हमारे परिणाम बताते हैं कि, एक बार जब कोई मॉडल भ्रामक व्यवहार प्रदर्शित करता है, तो स्टैंडर्ड टेक्निक इसे दूर नहीं कर पाते हैं." यह भी पढ़ें : Jio & Airtel 5G Price Hike: जियो-एयरटेल ने ग्राहकों को दिया बड़ा झटका, 5G अनलिमिटेड डेटा प्लान होगा बंद, कीमत बढ़ाने की तैयारी में कंपनी

उन्होंने लिखा, "व्यवहार सुरक्षा प्रशिक्षण तकनीक केवल असुरक्षित व्यवहार को हटा सकती है जो प्रशिक्षण और मूल्यांकन के दौरान दिखाई देता है, लेकिन प्रशिक्षण के दौरान सुरक्षित दिखाई देने वाले खतरे के मॉडल को छोड़ देता है." उन्होंने पाया कि इस तरह के पिछले दरवाजे वाले व्यवहार को लगातार बनाए रखा जा सकता है, ताकि इसे मानक सुरक्षा प्रशिक्षण तकनीकों द्वारा हटाया न जाए, जिसमें फाइन-ट्यूनिंग, लर्निंग और ट्रेनिंग शामिल हैं. टीम ने जोर देकर कहा, "बैकडोर को हटाने के बजाय, हमने पाया है कि प्रतिकूल ट्रेनिंग मॉडल्स को अपने बैकडोर के ट्रिगर्स को बेहतर ढंग से पहचानने, असुरक्षित व्यवहार को प्रभावी ढंग से छिपाने के लिए सिखाया जा सकता है."

Share Now

\