स्थानीय भाषाओं में एआई के इस्तेमाल की कोशिशें
भारत में स्थानीय भाषाओं में आर्टिफिशियल इंटेलिजेंस के इस्तेमाल को लेकर बड़े पैमाने पर कोशिशें हो रही हैं.
भारत में स्थानीय भाषाओं में आर्टिफिशियल इंटेलिजेंस के इस्तेमाल को लेकर बड़े पैमाने पर कोशिशें हो रही हैं. आम लोग इस काम में मदद कर रहे हैं.कर्नाटक के एक गांव में पिछले कुछ हफ्तों से ग्रामीण स्थानीय कन्नड़ भाषा में वाक्य रिकॉर्ड कर रहे हैं. एक ऐप के जरिए इस भाषा को रिकॉर्ड किया जा रहा है, ताकि टीबी के लिए देश का पहला एआई-आधारित चैटबॉट बनाया जा सके.
भारत में चार करोड़ से ज्यादा कन्नड़ भाषी लोग हैं और यह भारत की 22 आधिकारिक भाषाओं में से एक है. साथ ही, यह भारत की उन 121 भाषाओं में से एक है, जिसे 10 हजार या उससे ज्यादा लोग बोलते हैं. लेकिन इनमें से चंद भाषाएं ही ऐसी हैं, जो नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) के तहत आती हैं.
डाटा जुटाने की कोशिश
एनएलपी, आर्टिफिशियल इंटेलिजेंस की एक शाखा है. यह कंप्यूटरों को विभिन्न भाषाएं समझने के लिए तैयार करती है. चूंकि देश की 121 भाषाओं में से अधिकतर एनएलपी के तहत नहीं आतीं, इसलिए देश के करोड़ों लोग कंप्यूटर का फायदा उठाने से महरूम हैं.
माइक्रोसॉफ्ट रिसर्च इंडिया में मुख्य शोधकर्ता कलिका बाली कहती हैं, "एआई टूल हर एक के लिए तभी फायदेमंद साबित हो पाएंगे, जब वे अंग्रेजी, फ्रेंच या स्पैनिश ना बोलने वाले लोगों के भी काम आएं. लेकिन चैटजीपीटी जैसे बड़े एआई टूल के लिए जितना डाटा चाहिए, अगर उतना हमें भारतीय भाषाओं में जुटाना हो तो दस साल तक इंतजार करना पड़ेगा. इसलिए हम ऐसा कर सकते हैं कि चैटजीपीटी या लामा जैसे बड़े एआई टूल के ऊपर एक और परत बनाई जाए.”
कर्नाटक के इस गांव के लोगों की तरह ही अलग-अलग भाषाओं के हजारों लोगों के जरिए इस तरह का डाटा जमा किया जा रहा है. तकनीकी कंपनी कार्य (KARYA) अलग-अलग भाषाओं में डाटा जुटा रही है, जिसके इस्तेमाल से माइक्रोसॉफ्ट और गूगल जैसी कंपनियों को शिक्षा, स्वास्थ्य और अन्य सेवाओं के लिए एआई मॉडल बनाने में मदद मिले.
सरकार भी प्रयासरत
भारत सरकार अधिक-से-अधिक सेवाओं को डिजिटल माध्यमों से उपलब्ध कराना चाहती है. वह भी ऐसे स्थानीय डाटा सेट तैयार कर रही है. इसे भाषीनी नामक एक एआई आधारित अनुवाद व्यवस्था के जरिए तैयार किया जा रहा है. स्थानीय भाषाओं में एआई टूल तैयार करने के लिए यह एक ओपनसोर्स सिस्टम है.
भाषीनी एक ऐसा प्लैटफॉर्म है, जो आम लोगों की मदद से डाटा जमा करता है. इसमें स्थानीय लोग अपनी इच्छा से अलग-अलग भाषाओं में ऑडियो रिकॉर्ड करते हैं. यही लोग ऑडियो की जांच करते हैं, दूसरे लोगों द्वारा लिखे गए वाक्यों और उनके अनुवादों की जांच करते हैं. भाषीनी के जरिए दसियों हजार लोग इस काम में अपना योगदान दे चुके हैं.
मुंबई स्थित कंप्यूटेशन फॉर इंडियन लैंग्वेज टेक्नोलॉजी लैब के प्रमुख पुष्पक भट्टाचार्य बताते हैं, "बड़े लैंग्वेज मॉडलों को भारतीय भाषाओं में प्रशिक्षित करने के लिए भारत सरकार काफी बड़े पैमाने पर कोशिश कर रही है. ये टूल शिक्षा, पर्यटन और अदालतों समेत बहुत से क्षेत्रों में काम कर रहे हैं. लेकिन बहुत चुनौतियां भी हैं. भारतीय भाषाएं मुख्यतया बोलचाल में उपलब्ध हैं. उनके समुचित इलेक्ट्रॉनिक रिकॉर्ड उपलब्ध नहीं हैं. कोड मिक्सिंग भी बहुत ज्यादा है. कम लोगों द्वारा बोली जाने वाली भाषाओं में डाटा जमा करना भी एक बड़ी चुनौती है, जिसके लिए अतिरिक्त प्रयासों की जरूरत है.”
अंग्रेजी का दबदबा
दुनिया में लगभग सात हजार भाषाएं हैं, जिनमें से 100 से भी कम हैं जो एनएलपी के तहत उपलब्ध हैं. इनमें अंग्रेजी सबसे आगे है. पूरी दुनिया में हलचल पैदा करने वाले चैटजीपीटी को मुख्यतया अंग्रेजी में ही तैयार किया गया है. गूगल का बोर्ड भी अंग्रेजी तक ही सीमित है. एमेजॉन का एलेक्सा जिन नौ भाषाओं में जवाब देता है, उनमें से तीन ही- अरबी, हिंदी और जापानी, गैर-यूरोपीय भाषाएं हैं.
भारत की 1.4 अरब की आबादी में से 11 फीसदी ही अंग्रेजी बोलती, समझती है. इसलिए स्थानीय भाषाओं में एआई टूल उपलब्ध कराने की जरूरत बहुत बड़ी है. अब सरकारें और निजी कंपनियां इस अंतर को पाटने की कोशिश कर रही हैं.
बाली कहती हैं कि भारत जैसे देश में क्राउडसोर्सिंग भाषायी डाटा जुटाने का एक प्रभावशाली तरीका है. वह कहती हैं, "क्राउडसोर्सिंग से भाषा, संस्कृति और सामाजिक आर्थिक पहलुओं की छोटी-छोटी बातें भी शामिल हो जाती हैं. लेकिन लैंगिक, नस्लीय और सामाजिक-आर्थिक भेदभाव के बारे में जागरूकता की जरूरत है. ऐसा पूरी नैतिकता के साथ किया जाना चाहिए. इसके लिए काम करने वालों को तैयार करना, उन्हें काम का भुगतान देना और छोटी भाषाओं में डाटा जमा करने के लिए अतिरिक्त प्रयास करना भी बड़ी चुनौतियां हैं.”
वीके/एए (थॉमसन रॉयटर्स फाउंडेशन)