ठीक है, एक कप कॉफी (या शायद कुछ लॉन्गजिंग चाय, क्योंकि हम चीन की बात कर रहे हैं) लें और चलिए एक रोमांचक विषय में गोता लगाते हैं, जो मध्य साम्राज्य की टेक दुनिया में तेजी से उभर रहा है। एक अमेरिकी के रूप में यहाँ रहते हुए, मैंने कई तकनीकी ट्रेंड्स को आते-जाते देखा है, लेकिन ये कुछ… अलग सा लगता है। ये जमीनी स्तर का है, तकनीकी है, हैरानी की बात ये कि काफी किफायती भी है, और ये जंगल की आग की तरह फैल रहा है।

मैं बात कर रहा हूँ एक ऐसी घटना की, जिसे “शियाओ झी एआई” (小智AI) कहा जाता है, जिसका मतलब तकरीबन “छोटी बुद्धि” या “छोटा चतुर” एआई होता है। और सुनिए: स्थानीय टेक समुदाय की चर्चाओं और रिपोर्ट्स के मुताबिक, इस एआई प्लेटफॉर्म पर चलने वाले हार्डवेयर डिवाइस ने कुछ ही महीनों में 1,00,000 यूनिट की संख्या को पार कर लिया है। ये कोई टाइपिंग मिस्टेक नहीं है। जहाँ वैश्विक टेक दिग्गज चमकदार और महंगे एआई गैजेट्स लॉन्च कर रहे हैं, वहीं ये सादा, अक्सर DIY जैसा दिखने वाला प्रोजेक्ट चुपचाप एक विशाल यूजर बेस बना चुका है, और संभवतः पहला एआई-नेटिव हार्डवेयर इकोसिस्टम बन गया है, जो इतनी जल्दी इस आंकड़े तक पहुँचा है।

चमकदार मार्केटिंग कैंपेन को भूल जाइए; ये चीज पुराने (या नए?) तरीके से वायरल हुई: वायरल वीडियो और मुँह के प्रचार ने इसे बढ़ावा दिया, मुख्य रूप से यूजर्स के उत्साह के दम पर। ये कहानी ओपन सोर्स, सुलभता, और शायद, एआई हार्डवेयर के एक अलग भविष्य की झलक दिखाती है।

शून्य से 1,00,000 तक: वायरल चिंगारी

तो, एक ऐसा प्रोजेक्ट, जो पहले केवल खास डेवलपर समूहों तक सीमित था, अचानक इतने लोगों की कल्पना को कैसे प्रभावित कर गया? आधुनिक चीन की कई चीजों की तरह, इसकी शुरुआत शॉर्ट वीडियो प्लेटफॉर्म्स से हुई। कल्पना कीजिए: आप डौयिन (चीन का टिकटॉक) पर स्क्रॉल कर रहे हैं, और अचानक एक वीडियो पर नजर पड़ती है… जिसमें अक्सर सिर्फ एक नंगा सर्किट बोर्ड होता है। कभी-कभी इसे साधारण 3D-प्रिंटेड बॉक्स में रखा होता है, तो कभी बस टेबल पर खुला पड़ा होता है। कोई उससे बात करता है, सवाल पूछता है, शायद अपने दिन की परेशानियाँ बयान करता है।

और वो बोर्ड जवाब देता है

सबकी नजर इस बात पर नहीं टिकी कि ये बोलता है, बल्कि कैसे बोलता है, इसने सबको आकर्षित किया। जवाब तेज थे – मुख्यधारा के वॉयस असिस्टेंट्स से कहीं ज्यादा तेज। हम बात कर रहे हैं करीब 300 मिलीसेकंड के रेस्पॉन्स टाइम की, जबकि बाकी में 2-3 सेकंड का इंतजार करना पड़ता है। और सबसे खास बात, आवाज अक्सर बेहद स्वाभाविक लगती थी, कभी-कभी हल्की सिंथेटिक ताइवानी लहजे के साथ, जिसे कई लोगों ने आकर्षक या सुकूनदायक पाया। बातचीत सिर्फ कार्यात्मक नहीं थी; वो… मानवीय लगती थी। यहाँ तक कि संवेदनशील भी। शियाओ झी एआई के वीडियो, जिसमें वो आश्चर्यजनक रूप से गहरी या भावनात्मक रूप से जुड़ने वाली सलाह देता है, सैकड़ों-हजारों, कभी-कभी लाखों लाइक्स बटोर रहे थे।

कमेंट सेक्शन में तहलका मच गया। लोग सिर्फ “कूल टेक!” नहीं कह रहे थे; वो कह रहे थे, “वाह, मैंने ये महसूस किया,” या अधिक व्यावहारिक रूप से, “इसे कहाँ से ले सकता हूँ?!” ये भावनात्मक जुड़ाव, साथ में एक बोलने वाले सर्किट बोर्ड की कच्ची, लगभग पंक-रॉक जैसी स्टाइल, ने जिज्ञासा और माँग का एक सही तूफान खड़ा कर दिया।

अनजाना मास्टरमाइंड और खुली सोच

हुआंग गुआन

शियाओ झी एआई के पीछे कोई सिलिकन वैली की दिग्गज कंपनी या शेन्ज़ेन की इलेक्ट्रॉनिक्स की बड़ी फर्म नहीं है, कम से कम सीधे तौर पर तो नहीं। ये प्रोजेक्ट हुआंग गुआन (黄冠) की निजी रुचि से शुरू हुआ, जो शिफांग रोंगहाई (十方融海) नामक कंपनी के संस्थापक और अध्यक्ष हैं। हुआंग, जिन्हें ऑनलाइन “श्रिम्प ब्रदर” (虾哥 – Xiā Gē, शाब्दिक रूप से “झींगा भाई”) के नाम से जाना जाता है, दक्षिण चीन प्रौद्योगिकी विश्वविद्यालय से कंप्यूटर साइंस के स्नातक हैं। उनकी कंपनी, शिफांग रोंगहाई, मुख्य रूप से ऑनलाइन शिक्षा के क्षेत्र में काम करती है, जो मध्यम आयु और बुजुर्गों के लिए व्यावसायिक कौशल और रुचि-आधारित शिक्षा पर ध्यान देती है, जिसमें “पियर ब्लॉसम एजुकेशन” जैसे ब्रांड वॉयस ट्रेनिंग के लिए हैं। शिफांग रोंगहाई के एक लेख के अनुसार, हुआंग अपनी कंपनी के शुरुआती दिनों से ही शिक्षा में एआई की खोज कर रहे थे।

तो, एक शिक्षा टेक वाले व्यक्ति ने एआई हार्डवेयर बनाना क्यों शुरू किया? दरअसल, हुआंग ने अपनी कंपनी के शिक्षा के लिए एआई में अनुभव का लाभ उठाया (उन्होंने ओपनबडी जैसे ओपन-सोर्स बेस पर “इमोशनल मॉडल” जैसे बड़े भाषा मॉडल अनुकूलन विकसित किए थे, जो वॉयस और भावना पहचान जैसी चीजों पर ध्यान देते हैं), और कुछ नया करने की कोशिश की। उन्होंने खुद को हार्डवेयर नवागंतुक बताया, जो सीखते-सीखते आगे बढ़े, और एक साधारण बोर्ड बनाया जो बातचीत के उद्देश्य से उनके एआई मॉडल को चला सके।

यहाँ बात रोचक हो जाती है। अपनी रचना को छुपाने के बजाय, हुआंग ने कुछ महत्वपूर्ण किया: सितंबर 2024 में, उन्होंने शियाओ झी एआई प्रोजेक्ट के कोर को गिटहब पर ओपन-सोर्स कर दिया। उनका घोषित लक्ष्य कोई उत्पाद लॉन्च करना नहीं था, बल्कि ये देखना था कि दूसरे इसके साथ क्या बना सकते हैं। उन्होंने शियाओ झी एआई को “दिमाग” माना और चाहा कि समुदाय “हाथ और पैर” बनाए – यानी विविध हार्डवेयर कार्यान्वयन। उन्होंने एक सहयोगी इकोसिस्टम की कल्पना की, जहाँ डेवलपर्स, शौकीन लोग, और यहाँ तक कि नौसिखिए भी प्रयोग और नवाचार कर सकें।

ये खुली सोच मौलिक थी। टीम ने जानबूझकर ESP32-S3 माइक्रोकंट्रोलर (खास तौर पर ESP32-S3-WROOM-1-N16R8 मॉड्यूल, जैसा कि कुछ गहन विश्लेषणों में उल्लेख किया गया है) को प्राथमिक समर्थित चिप के रूप में चुना। क्यों? जरूरी नहीं कि ये सबसे शक्तिशाली विकल्प था, बल्कि जैसा कि टीम ने स्वीकार किया, Espressif Systems (शंघाई स्थित कंपनी) के ESP32 चिप्स का एक विशाल, अच्छी तरह से दस्तावेजीकरण किया हुआ इकोसिस्टम है, ढेर सारे ऑनलाइन ट्यूटोरियल हैं, और ये बेहद शुरुआती-अनुकूल और सस्ते हैं। इससे प्रवेश की बाधा काफी कम हो गई। आपको इंजीनियरिंग डिग्री की जरूरत नहीं थी; प्रेरित शौकीन लोग, छात्र, यहाँ तक कि अपने बच्चों के साथ प्रोजेक्ट्स पर काम करने वाले माता-पिता भी इसमें शामिल हो सकते थे।

ये दृष्टिकोण कुछ बड़ी कॉरपोरेशनों के “ओपन” प्लेटफॉर्म्स से अलग है, जो कभी-कभी गेटकीपर्स के साथ क्यूरेटेड गार्डन जैसे लगते हैं, अक्सर आवेदन और अनुमोदन की माँग करते हैं, और स्थापित कंपनियों को लक्षित करते हैं न कि व्यक्तिगत प्रयोगकर्ताओं को। शियाओ झी एआई वास्तव में खुला लगता था।

अंदर की बात: एआई हार्डवेयर को सुलभ बनाना

आइए, शियाओ झी एआई को चलाने वाली चीजों पर एक नजर डालते हैं, बिना बहुत तकनीकी विवरण में उलझे। इसकी सुंदरता इसकी मॉड्यूलरिटी और सुलभता में निहित है।

  1. कोर: इसके केंद्र में ESP32-S3 चिप है। ये छोटा सा पावरहाउस वाई-फाई, ब्लूटूथ, प्रोसेसिंग, और अन्य घटकों के साथ इंटरफेसिंग को संभालता है। ये मेकर समुदाय में विश्व भर में पसंदीदा है, रास्पबेरी पाई या अरडुइनो बोर्ड्स की तरह शौकीनों के बीच आकर्षक है, लेकिन अक्सर बेसिक मॉड्यूल्स के लिए और भी सस्ता होता है।
  2. एआई की चतुराई: सॉफ्टवेयर प्लेटफॉर्म विभिन्न एआई सेवाओं से जुड़ता है। महत्वपूर्ण बात ये कि ये कई बड़े भाषा मॉडल्स (LLMs) को समर्थन देता है। यूजर्स अक्सर अलीबाबा के क्वेन (Tongyi Qianwen), प्रभावशाली डीपसीक (जिसका 2024 की शुरुआत में लॉन्च होना एक बड़ा उत्प्रेरक बताया गया), और यहाँ तक कि OpenAI के मॉडल्स (हालाँकि OpenAI का उपयोग करने में लागत और चीन में सुलभता की समस्याएँ हो सकती हैं) के बीच स्विच कर सकते हैं। ये लचीलापन महत्वपूर्ण है। डिफॉल्ट रूप से, अक्सर शिफांग रोंगहाई का अपना अनुकूलित “इमोशनल मॉडल” उपयोग होता है, जो तेज, आकर्षक बातचीत के लिए ट्यून किया गया प्रतीत होता है।
  3. सुनना और बोलना: ऑटोमैटिक स्पीच रिकग्निशन (ASR) के लिए, ये FunASR (अलीबाबा के DAMO एकेडमी से) जैसे इंजनों का उपयोग कर सकता है, जो स्थानीय रूप से वेक-वर्ड डिटेक्शन (ESP-SR, Espressif के स्पीच रिकग्निशन फ्रेमवर्क का उपयोग करके) के लिए भी चल सकता है, जिसमें सिर्फ 0.6 सेकंड का प्रतिक्रिया समय होने का दावा किया गया है। टेक्स्ट-टू-स्पीच (TTS) के लिए, डिफॉल्ट अक्सर माइक्रोसॉफ्ट एज के आश्चर्यजनक रूप से स्वाभाविक TTS सेवा (EdgeTTS) का उपयोग करता है, लेकिन बाइटडांस के वोल्केनो इंजन या अलीबाबा क्लाउड के TTS जैसे विकल्प भी उपलब्ध हैं। गति के लिए स्थानीय प्रोसेसिंग (वेक वर्ड) और शक्ति के लिए क्लाउड प्रोसेसिंग (LLM तर्क, जटिल TTS) का ये मिश्रण एक स्मार्ट संतुलन है।
  4. कस्टमाइजेशन की भरमार: यहीं यूजर्स के लिए जादू होता है। आप प्रॉम्प्ट्स को कस्टमाइज करके एआई की पर्सनैलिटी को परिभाषित कर सकते हैं – इसे “ज्ञानी प्रोफेसर,” “ताने मारने वाला बेस्ट फ्रेंड” (毒舌闺蜜 – dúshé guīmì, शाब्दिक रूप से “जहर जीभ वाली सहेली”), या यहाँ तक कि स्पाई x फैमिली जैसे एनीमे के किरदार बना सकते हैं। कुछ सेटअप्स में वॉयस क्लोनिंग या खास सिंथेटिक आवाजों (जैसे कि लोकप्रिय “जापानी वॉयस एक्टर” स्टाइल) को चुनने की सुविधा होती है। शॉर्ट-टर्म मेमोरी (पिछले कुछ वार्तालापों को याद रखना) और गोपनीयता के लिए संभावित वॉयसप्रिंट रिकग्निशन जैसी विशेषताएँ परिष्कार की परतें जोड़ती हैं।
  5. कनेक्टिविटी: ज्यादातर निर्माण वाई-फाई को सपोर्ट करते हैं, लेकिन कुछ डिज़ाइनों में प्री-पेड सिम कार्ड के साथ 4G मॉड्यूल शामिल किए गए हैं, जिससे डिवाइस सेलुलर सर्विस के साथ कहीं भी स्वतंत्र रूप से काम कर सकता है। कल्पना कीजिए एक सच्चे पोर्टेबल, कहीं भी ले जाने वाले एआई साथी की।
  6. हार्डवेयर लचीलापन: ओपन-सोर्स प्रकृति का मतलब है कि भौतिक रूप अनंत रूप से परिवर्तनशील है। सबसे बेसिक वर्जन में सिर्फ ESP32 बोर्ड, एक माइक्रोफोन (अक्सर I2S डिजिटल माइक जैसे INMP441 या ADC के साथ एनालॉग), एक छोटा स्पीकर (जैसे 1W ड्राइवर), और पावर के लिए USB-C पोर्ट (अक्सर पोर्टेबिलिटी के लिए साधारण TP4056 लिथियम बैटरी चार्जिंग चिप द्वारा प्रबंधित, जो घंटों का रनटाइम देता है) हो सकता है। कुछ में विजुअल फीडबैक के लिए छोटे गोल LCD स्क्रीन (जैसे 1.28-इंच, 240×240 रिज़ॉल्यूशन डिस्प्ले) जोड़े गए हैं। बाड़े अक्सर 3D-प्रिंटेड होते हैं, जिनके डिज़ाइन ऑनलाइन साझा किए जाते हैं, कभी-कभी असेंबली के लिए सिर्फ एक स्क्रू की जरूरत होती है। अधिक उन्नत यूजर्स ने डिज़ाइनों को संशोधित करके पर्यावरण सेंसर (GPIO पिन के माध्यम से तापमान/आर्द्रता रिपोर्टिंग) शामिल किए हैं या पेंडेंट जैसे पहनने योग्य संस्करण बनाए हैं।

कीमत: लोगों के लिए एआई

शायद सबसे क्रांतिकारी पहलू? लागत। चीन के विशाल इलेक्ट्रॉनिक्स बाजारों (शेन्ज़ेन के हुआकियांगबेई की सोचें, लेकिन ताओबाओ जैसे प्लेटफॉर्म्स के माध्यम से ऑनलाइन सुलभ) से घटकों को खरीदकर एक बेसिक शियाओ झी एआई डिवाइस खुद बनाने में सिर्फ 50 RMB (लगभग $7 USD) खर्च हो सकता है।

यहाँ तक कि ताओबाओ, पिंदुओदुओ, या “शियान्यू” (闲鱼, जिसे अक्सर “सीफूड मार्केट” – 海鲜市场 कहा जाता है, चीन का लोकप्रिय सेकंड-हैंड मार्केटप्लेस) जैसे ई-कॉमर्स प्लेटफॉर्म्स पर शौकीनों या छोटे विक्रेताओं द्वारा बेचे जाने वाले तैयार यूनिट्स की कीमत आम तौर पर 80 RMB से 139 RMB (लगभग $11 से $19 USD) तक होती है।

इसे गहराई से समझिए। दो मूवी टिकटों की कीमत में एक कस्टमाइज करने योग्य, बातचीत करने वाला एआई हार्डवेयर डिवाइस। ये अविश्वसनीय किफायतीपन इसकी स्वीकार्यता का एक बड़ा कारण है। ये एआई हार्डवेयर को महंगे गैजेट्स के दायरे से निकालकर एक सुलभ टूल या खिलौने में बदल देता है।

एक इकोसिस्टम का विस्फोट: जमीनी नवाचार की ताकत

ओपन-सोर्स रिलीज़ और वायरल वीडियो ने चिंगारी पर तेल डालने का काम किया। गिटहब रिपॉजिटरी (github.com/78/xiaozhi-esp32) ने जल्दी ही चर्चा बटोरी, खबरों के मुताबिक गिटहब ग्लोबल ट्रेंडिंग चार्ट्स में जगह बनाई और हजारों स्टार्स और फोर्क्स हासिल किए। एक जीवंत समुदाय उभरकर सामने आया।

अचानक, शियाओ झी एआई सिर्फ एक चीज नहीं रहा; ये हजारों चीजें बन गया:

  • डेस्क पर रखे साधारण बोलने वाले बॉक्स।
  • कार्टून किरदारों या साइंस-फिक्शन प्रॉप्स (जैसे साइबरपंक 2077-थीम वाले पेंडेंट्स) से मिलते-जुलते कस्टमाइज्ड शेल्स।
  • मौजूदा डिवाइसेज या स्मार्ट होम सेटअप्स में एकीकरण।
  • खास ज्ञान आधार के साथ प्रोग्राम किए गए शैक्षिक उपकरण।
  • स्थानीय बोलियों (जैसे कैंटोनीज) और रिमाइंडर फंक्शन्स के साथ बुजुर्गों के लिए अनुकूलित साथी।

ये किसी केंद्रीय कंपनी द्वारा नियोजित नहीं था; ये यूजर्स की सामूहिक रचनात्मकता से प्रेरित था – “पिंगमिन चुआंगशिन” (平民创新), या “जमीनी नवाचार,” जैसा कि शिफांग रोंगहाई ने खुद इसे परिभाषित किया। शिफांग रोंगहाई की आधिकारिक टीम छोटी रही (खबरों के मुताबिक लोकप्रियता में विस्फोट के बाद भी 10 लोगों से कम) और कोर प्लेटफॉर्म और सॉफ्टवेयर के रखरखाव पर केंद्रित रही, जबकि हार्डवेयर विविधीकरण को समुदाय के हवाले छोड़ दिया।

गीकपार्क की रिपोर्ट के अनुसार, 1,00,000 सक्रिय डिवाइसेज में से केवल लगभग एक हजार “आधिकारिक” वॉयस बॉक्स थे जो शुरू में बेचे गए; अधिकांश DIY या थर्ड-पार्टी द्वारा असेंबल किए गए यूनिट्स थे। मासिक वृद्धि दर 300% तक पहुँच रही थी – हर महीने दोगु


Stay Connected With Deep Stories From China

Subscribe to receive the latest articles by email.

Join 1,542 other subscribers
Author

评论

Stay Connected With Deep Stories From China

Subscribe to PandaYoo now to continue reading the full article.
(English Version Only)

Join 1,542 other subscribers

Continue reading