स्थानीय भाषाओं में एआई के इस्तेमाल की कोशिशें
प्रतीकात्मक तस्वीर (Photo Credit: Image File)

भारत में स्थानीय भाषाओं में आर्टिफिशियल इंटेलिजेंस के इस्तेमाल को लेकर बड़े पैमाने पर कोशिशें हो रही हैं. आम लोग इस काम में मदद कर रहे हैं.कर्नाटक के एक गांव में पिछले कुछ हफ्तों से ग्रामीण स्थानीय कन्नड़ भाषा में वाक्य रिकॉर्ड कर रहे हैं. एक ऐप के जरिए इस भाषा को रिकॉर्ड किया जा रहा है, ताकि टीबी के लिए देश का पहला एआई-आधारित चैटबॉट बनाया जा सके.

भारत में चार करोड़ से ज्यादा कन्नड़ भाषी लोग हैं और यह भारत की 22 आधिकारिक भाषाओं में से एक है. साथ ही, यह भारत की उन 121 भाषाओं में से एक है, जिसे 10 हजार या उससे ज्यादा लोग बोलते हैं. लेकिन इनमें से चंद भाषाएं ही ऐसी हैं, जो नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) के तहत आती हैं.

डाटा जुटाने की कोशिश

एनएलपी, आर्टिफिशियल इंटेलिजेंस की एक शाखा है. यह कंप्यूटरों को विभिन्न भाषाएं समझने के लिए तैयार करती है. चूंकि देश की 121 भाषाओं में से अधिकतर एनएलपी के तहत नहीं आतीं, इसलिए देश के करोड़ों लोग कंप्यूटर का फायदा उठाने से महरूम हैं.

माइक्रोसॉफ्ट रिसर्च इंडिया में मुख्य शोधकर्ता कलिका बाली कहती हैं, "एआई टूल हर एक के लिए तभी फायदेमंद साबित हो पाएंगे, जब वे अंग्रेजी, फ्रेंच या स्पैनिश ना बोलने वाले लोगों के भी काम आएं. लेकिन चैटजीपीटी जैसे बड़े एआई टूल के लिए जितना डाटा चाहिए, अगर उतना हमें भारतीय भाषाओं में जुटाना हो तो दस साल तक इंतजार करना पड़ेगा. इसलिए हम ऐसा कर सकते हैं कि चैटजीपीटी या लामा जैसे बड़े एआई टूल के ऊपर एक और परत बनाई जाए.”

कर्नाटक के इस गांव के लोगों की तरह ही अलग-अलग भाषाओं के हजारों लोगों के जरिए इस तरह का डाटा जमा किया जा रहा है. तकनीकी कंपनी कार्य (KARYA) अलग-अलग भाषाओं में डाटा जुटा रही है, जिसके इस्तेमाल से माइक्रोसॉफ्ट और गूगल जैसी कंपनियों को शिक्षा, स्वास्थ्य और अन्य सेवाओं के लिए एआई मॉडल बनाने में मदद मिले.

सरकार भी प्रयासरत

भारत सरकार अधिक-से-अधिक सेवाओं को डिजिटल माध्यमों से उपलब्ध कराना चाहती है. वह भी ऐसे स्थानीय डाटा सेट तैयार कर रही है. इसे भाषीनी नामक एक एआई आधारित अनुवाद व्यवस्था के जरिए तैयार किया जा रहा है. स्थानीय भाषाओं में एआई टूल तैयार करने के लिए यह एक ओपनसोर्स सिस्टम है.

भाषीनी एक ऐसा प्लैटफॉर्म है, जो आम लोगों की मदद से डाटा जमा करता है. इसमें स्थानीय लोग अपनी इच्छा से अलग-अलग भाषाओं में ऑडियो रिकॉर्ड करते हैं. यही लोग ऑडियो की जांच करते हैं, दूसरे लोगों द्वारा लिखे गए वाक्यों और उनके अनुवादों की जांच करते हैं. भाषीनी के जरिए दसियों हजार लोग इस काम में अपना योगदान दे चुके हैं.

मुंबई स्थित कंप्यूटेशन फॉर इंडियन लैंग्वेज टेक्नोलॉजी लैब के प्रमुख पुष्पक भट्टाचार्य बताते हैं, "बड़े लैंग्वेज मॉडलों को भारतीय भाषाओं में प्रशिक्षित करने के लिए भारत सरकार काफी बड़े पैमाने पर कोशिश कर रही है. ये टूल शिक्षा, पर्यटन और अदालतों समेत बहुत से क्षेत्रों में काम कर रहे हैं. लेकिन बहुत चुनौतियां भी हैं. भारतीय भाषाएं मुख्यतया बोलचाल में उपलब्ध हैं. उनके समुचित इलेक्ट्रॉनिक रिकॉर्ड उपलब्ध नहीं हैं. कोड मिक्सिंग भी बहुत ज्यादा है. कम लोगों द्वारा बोली जाने वाली भाषाओं में डाटा जमा करना भी एक बड़ी चुनौती है, जिसके लिए अतिरिक्त प्रयासों की जरूरत है.”

अंग्रेजी का दबदबा

दुनिया में लगभग सात हजार भाषाएं हैं, जिनमें से 100 से भी कम हैं जो एनएलपी के तहत उपलब्ध हैं. इनमें अंग्रेजी सबसे आगे है. पूरी दुनिया में हलचल पैदा करने वाले चैटजीपीटी को मुख्यतया अंग्रेजी में ही तैयार किया गया है. गूगल का बोर्ड भी अंग्रेजी तक ही सीमित है. एमेजॉन का एलेक्सा जिन नौ भाषाओं में जवाब देता है, उनमें से तीन ही- अरबी, हिंदी और जापानी, गैर-यूरोपीय भाषाएं हैं.

भारत की 1.4 अरब की आबादी में से 11 फीसदी ही अंग्रेजी बोलती, समझती है. इसलिए स्थानीय भाषाओं में एआई टूल उपलब्ध कराने की जरूरत बहुत बड़ी है. अब सरकारें और निजी कंपनियां इस अंतर को पाटने की कोशिश कर रही हैं.

बाली कहती हैं कि भारत जैसे देश में क्राउडसोर्सिंग भाषायी डाटा जुटाने का एक प्रभावशाली तरीका है. वह कहती हैं, "क्राउडसोर्सिंग से भाषा, संस्कृति और सामाजिक आर्थिक पहलुओं की छोटी-छोटी बातें भी शामिल हो जाती हैं. लेकिन लैंगिक, नस्लीय और सामाजिक-आर्थिक भेदभाव के बारे में जागरूकता की जरूरत है. ऐसा पूरी नैतिकता के साथ किया जाना चाहिए. इसके लिए काम करने वालों को तैयार करना, उन्हें काम का भुगतान देना और छोटी भाषाओं में डाटा जमा करने के लिए अतिरिक्त प्रयास करना भी बड़ी चुनौतियां हैं.”

वीके/एए (थॉमसन रॉयटर्स फाउंडेशन)