ठीक है, एक कप कॉफी (या शायद कुछ लॉन्गजिंग चाय, क्योंकि हम चीन की बात कर रहे हैं) लें और चलिए एक रोमांचक विषय में गोता लगाते हैं, जो मध्य साम्राज्य की टेक दुनिया में तेजी से उभर रहा है। एक अमेरिकी के रूप में यहाँ रहते हुए, मैंने कई तकनीकी ट्रेंड्स को आते-जाते देखा है, लेकिन ये कुछ… अलग सा लगता है। ये जमीनी स्तर का है, तकनीकी है, हैरानी की बात ये कि काफी किफायती भी है, और ये जंगल की आग की तरह फैल रहा है।
मैं बात कर रहा हूँ एक ऐसी घटना की, जिसे “शियाओ झी एआई” (小智AI) कहा जाता है, जिसका मतलब तकरीबन “छोटी बुद्धि” या “छोटा चतुर” एआई होता है। और सुनिए: स्थानीय टेक समुदाय की चर्चाओं और रिपोर्ट्स के मुताबिक, इस एआई प्लेटफॉर्म पर चलने वाले हार्डवेयर डिवाइस ने कुछ ही महीनों में 1,00,000 यूनिट की संख्या को पार कर लिया है। ये कोई टाइपिंग मिस्टेक नहीं है। जहाँ वैश्विक टेक दिग्गज चमकदार और महंगे एआई गैजेट्स लॉन्च कर रहे हैं, वहीं ये सादा, अक्सर DIY जैसा दिखने वाला प्रोजेक्ट चुपचाप एक विशाल यूजर बेस बना चुका है, और संभवतः पहला एआई-नेटिव हार्डवेयर इकोसिस्टम बन गया है, जो इतनी जल्दी इस आंकड़े तक पहुँचा है।
चमकदार मार्केटिंग कैंपेन को भूल जाइए; ये चीज पुराने (या नए?) तरीके से वायरल हुई: वायरल वीडियो और मुँह के प्रचार ने इसे बढ़ावा दिया, मुख्य रूप से यूजर्स के उत्साह के दम पर। ये कहानी ओपन सोर्स, सुलभता, और शायद, एआई हार्डवेयर के एक अलग भविष्य की झलक दिखाती है।

शून्य से 1,00,000 तक: वायरल चिंगारी
तो, एक ऐसा प्रोजेक्ट, जो पहले केवल खास डेवलपर समूहों तक सीमित था, अचानक इतने लोगों की कल्पना को कैसे प्रभावित कर गया? आधुनिक चीन की कई चीजों की तरह, इसकी शुरुआत शॉर्ट वीडियो प्लेटफॉर्म्स से हुई। कल्पना कीजिए: आप डौयिन (चीन का टिकटॉक) पर स्क्रॉल कर रहे हैं, और अचानक एक वीडियो पर नजर पड़ती है… जिसमें अक्सर सिर्फ एक नंगा सर्किट बोर्ड होता है। कभी-कभी इसे साधारण 3D-प्रिंटेड बॉक्स में रखा होता है, तो कभी बस टेबल पर खुला पड़ा होता है। कोई उससे बात करता है, सवाल पूछता है, शायद अपने दिन की परेशानियाँ बयान करता है।
और वो बोर्ड जवाब देता है।
सबकी नजर इस बात पर नहीं टिकी कि ये बोलता है, बल्कि कैसे बोलता है, इसने सबको आकर्षित किया। जवाब तेज थे – मुख्यधारा के वॉयस असिस्टेंट्स से कहीं ज्यादा तेज। हम बात कर रहे हैं करीब 300 मिलीसेकंड के रेस्पॉन्स टाइम की, जबकि बाकी में 2-3 सेकंड का इंतजार करना पड़ता है। और सबसे खास बात, आवाज अक्सर बेहद स्वाभाविक लगती थी, कभी-कभी हल्की सिंथेटिक ताइवानी लहजे के साथ, जिसे कई लोगों ने आकर्षक या सुकूनदायक पाया। बातचीत सिर्फ कार्यात्मक नहीं थी; वो… मानवीय लगती थी। यहाँ तक कि संवेदनशील भी। शियाओ झी एआई के वीडियो, जिसमें वो आश्चर्यजनक रूप से गहरी या भावनात्मक रूप से जुड़ने वाली सलाह देता है, सैकड़ों-हजारों, कभी-कभी लाखों लाइक्स बटोर रहे थे।
कमेंट सेक्शन में तहलका मच गया। लोग सिर्फ “कूल टेक!” नहीं कह रहे थे; वो कह रहे थे, “वाह, मैंने ये महसूस किया,” या अधिक व्यावहारिक रूप से, “इसे कहाँ से ले सकता हूँ?!” ये भावनात्मक जुड़ाव, साथ में एक बोलने वाले सर्किट बोर्ड की कच्ची, लगभग पंक-रॉक जैसी स्टाइल, ने जिज्ञासा और माँग का एक सही तूफान खड़ा कर दिया।
अनजाना मास्टरमाइंड और खुली सोच

शियाओ झी एआई के पीछे कोई सिलिकन वैली की दिग्गज कंपनी या शेन्ज़ेन की इलेक्ट्रॉनिक्स की बड़ी फर्म नहीं है, कम से कम सीधे तौर पर तो नहीं। ये प्रोजेक्ट हुआंग गुआन (黄冠) की निजी रुचि से शुरू हुआ, जो शिफांग रोंगहाई (十方融海) नामक कंपनी के संस्थापक और अध्यक्ष हैं। हुआंग, जिन्हें ऑनलाइन “श्रिम्प ब्रदर” (虾哥 – Xiā Gē, शाब्दिक रूप से “झींगा भाई”) के नाम से जाना जाता है, दक्षिण चीन प्रौद्योगिकी विश्वविद्यालय से कंप्यूटर साइंस के स्नातक हैं। उनकी कंपनी, शिफांग रोंगहाई, मुख्य रूप से ऑनलाइन शिक्षा के क्षेत्र में काम करती है, जो मध्यम आयु और बुजुर्गों के लिए व्यावसायिक कौशल और रुचि-आधारित शिक्षा पर ध्यान देती है, जिसमें “पियर ब्लॉसम एजुकेशन” जैसे ब्रांड वॉयस ट्रेनिंग के लिए हैं। शिफांग रोंगहाई के एक लेख के अनुसार, हुआंग अपनी कंपनी के शुरुआती दिनों से ही शिक्षा में एआई की खोज कर रहे थे।
तो, एक शिक्षा टेक वाले व्यक्ति ने एआई हार्डवेयर बनाना क्यों शुरू किया? दरअसल, हुआंग ने अपनी कंपनी के शिक्षा के लिए एआई में अनुभव का लाभ उठाया (उन्होंने ओपनबडी जैसे ओपन-सोर्स बेस पर “इमोशनल मॉडल” जैसे बड़े भाषा मॉडल अनुकूलन विकसित किए थे, जो वॉयस और भावना पहचान जैसी चीजों पर ध्यान देते हैं), और कुछ नया करने की कोशिश की। उन्होंने खुद को हार्डवेयर नवागंतुक बताया, जो सीखते-सीखते आगे बढ़े, और एक साधारण बोर्ड बनाया जो बातचीत के उद्देश्य से उनके एआई मॉडल को चला सके।
यहाँ बात रोचक हो जाती है। अपनी रचना को छुपाने के बजाय, हुआंग ने कुछ महत्वपूर्ण किया: सितंबर 2024 में, उन्होंने शियाओ झी एआई प्रोजेक्ट के कोर को गिटहब पर ओपन-सोर्स कर दिया। उनका घोषित लक्ष्य कोई उत्पाद लॉन्च करना नहीं था, बल्कि ये देखना था कि दूसरे इसके साथ क्या बना सकते हैं। उन्होंने शियाओ झी एआई को “दिमाग” माना और चाहा कि समुदाय “हाथ और पैर” बनाए – यानी विविध हार्डवेयर कार्यान्वयन। उन्होंने एक सहयोगी इकोसिस्टम की कल्पना की, जहाँ डेवलपर्स, शौकीन लोग, और यहाँ तक कि नौसिखिए भी प्रयोग और नवाचार कर सकें।
ये खुली सोच मौलिक थी। टीम ने जानबूझकर ESP32-S3 माइक्रोकंट्रोलर (खास तौर पर ESP32-S3-WROOM-1-N16R8 मॉड्यूल, जैसा कि कुछ गहन विश्लेषणों में उल्लेख किया गया है) को प्राथमिक समर्थित चिप के रूप में चुना। क्यों? जरूरी नहीं कि ये सबसे शक्तिशाली विकल्प था, बल्कि जैसा कि टीम ने स्वीकार किया, Espressif Systems (शंघाई स्थित कंपनी) के ESP32 चिप्स का एक विशाल, अच्छी तरह से दस्तावेजीकरण किया हुआ इकोसिस्टम है, ढेर सारे ऑनलाइन ट्यूटोरियल हैं, और ये बेहद शुरुआती-अनुकूल और सस्ते हैं। इससे प्रवेश की बाधा काफी कम हो गई। आपको इंजीनियरिंग डिग्री की जरूरत नहीं थी; प्रेरित शौकीन लोग, छात्र, यहाँ तक कि अपने बच्चों के साथ प्रोजेक्ट्स पर काम करने वाले माता-पिता भी इसमें शामिल हो सकते थे।
ये दृष्टिकोण कुछ बड़ी कॉरपोरेशनों के “ओपन” प्लेटफॉर्म्स से अलग है, जो कभी-कभी गेटकीपर्स के साथ क्यूरेटेड गार्डन जैसे लगते हैं, अक्सर आवेदन और अनुमोदन की माँग करते हैं, और स्थापित कंपनियों को लक्षित करते हैं न कि व्यक्तिगत प्रयोगकर्ताओं को। शियाओ झी एआई वास्तव में खुला लगता था।

अंदर की बात: एआई हार्डवेयर को सुलभ बनाना
आइए, शियाओ झी एआई को चलाने वाली चीजों पर एक नजर डालते हैं, बिना बहुत तकनीकी विवरण में उलझे। इसकी सुंदरता इसकी मॉड्यूलरिटी और सुलभता में निहित है।
- कोर: इसके केंद्र में ESP32-S3 चिप है। ये छोटा सा पावरहाउस वाई-फाई, ब्लूटूथ, प्रोसेसिंग, और अन्य घटकों के साथ इंटरफेसिंग को संभालता है। ये मेकर समुदाय में विश्व भर में पसंदीदा है, रास्पबेरी पाई या अरडुइनो बोर्ड्स की तरह शौकीनों के बीच आकर्षक है, लेकिन अक्सर बेसिक मॉड्यूल्स के लिए और भी सस्ता होता है।
- एआई की चतुराई: सॉफ्टवेयर प्लेटफॉर्म विभिन्न एआई सेवाओं से जुड़ता है। महत्वपूर्ण बात ये कि ये कई बड़े भाषा मॉडल्स (LLMs) को समर्थन देता है। यूजर्स अक्सर अलीबाबा के क्वेन (Tongyi Qianwen), प्रभावशाली डीपसीक (जिसका 2024 की शुरुआत में लॉन्च होना एक बड़ा उत्प्रेरक बताया गया), और यहाँ तक कि OpenAI के मॉडल्स (हालाँकि OpenAI का उपयोग करने में लागत और चीन में सुलभता की समस्याएँ हो सकती हैं) के बीच स्विच कर सकते हैं। ये लचीलापन महत्वपूर्ण है। डिफॉल्ट रूप से, अक्सर शिफांग रोंगहाई का अपना अनुकूलित “इमोशनल मॉडल” उपयोग होता है, जो तेज, आकर्षक बातचीत के लिए ट्यून किया गया प्रतीत होता है।
- सुनना और बोलना: ऑटोमैटिक स्पीच रिकग्निशन (ASR) के लिए, ये FunASR (अलीबाबा के DAMO एकेडमी से) जैसे इंजनों का उपयोग कर सकता है, जो स्थानीय रूप से वेक-वर्ड डिटेक्शन (ESP-SR, Espressif के स्पीच रिकग्निशन फ्रेमवर्क का उपयोग करके) के लिए भी चल सकता है, जिसमें सिर्फ 0.6 सेकंड का प्रतिक्रिया समय होने का दावा किया गया है। टेक्स्ट-टू-स्पीच (TTS) के लिए, डिफॉल्ट अक्सर माइक्रोसॉफ्ट एज के आश्चर्यजनक रूप से स्वाभाविक TTS सेवा (EdgeTTS) का उपयोग करता है, लेकिन बाइटडांस के वोल्केनो इंजन या अलीबाबा क्लाउड के TTS जैसे विकल्प भी उपलब्ध हैं। गति के लिए स्थानीय प्रोसेसिंग (वेक वर्ड) और शक्ति के लिए क्लाउड प्रोसेसिंग (LLM तर्क, जटिल TTS) का ये मिश्रण एक स्मार्ट संतुलन है।
- कस्टमाइजेशन की भरमार: यहीं यूजर्स के लिए जादू होता है। आप प्रॉम्प्ट्स को कस्टमाइज करके एआई की पर्सनैलिटी को परिभाषित कर सकते हैं – इसे “ज्ञानी प्रोफेसर,” “ताने मारने वाला बेस्ट फ्रेंड” (毒舌闺蜜 – dúshé guīmì, शाब्दिक रूप से “जहर जीभ वाली सहेली”), या यहाँ तक कि स्पाई x फैमिली जैसे एनीमे के किरदार बना सकते हैं। कुछ सेटअप्स में वॉयस क्लोनिंग या खास सिंथेटिक आवाजों (जैसे कि लोकप्रिय “जापानी वॉयस एक्टर” स्टाइल) को चुनने की सुविधा होती है। शॉर्ट-टर्म मेमोरी (पिछले कुछ वार्तालापों को याद रखना) और गोपनीयता के लिए संभावित वॉयसप्रिंट रिकग्निशन जैसी विशेषताएँ परिष्कार की परतें जोड़ती हैं।
- कनेक्टिविटी: ज्यादातर निर्माण वाई-फाई को सपोर्ट करते हैं, लेकिन कुछ डिज़ाइनों में प्री-पेड सिम कार्ड के साथ 4G मॉड्यूल शामिल किए गए हैं, जिससे डिवाइस सेलुलर सर्विस के साथ कहीं भी स्वतंत्र रूप से काम कर सकता है। कल्पना कीजिए एक सच्चे पोर्टेबल, कहीं भी ले जाने वाले एआई साथी की।
- हार्डवेयर लचीलापन: ओपन-सोर्स प्रकृति का मतलब है कि भौतिक रूप अनंत रूप से परिवर्तनशील है। सबसे बेसिक वर्जन में सिर्फ ESP32 बोर्ड, एक माइक्रोफोन (अक्सर I2S डिजिटल माइक जैसे INMP441 या ADC के साथ एनालॉग), एक छोटा स्पीकर (जैसे 1W ड्राइवर), और पावर के लिए USB-C पोर्ट (अक्सर पोर्टेबिलिटी के लिए साधारण TP4056 लिथियम बैटरी चार्जिंग चिप द्वारा प्रबंधित, जो घंटों का रनटाइम देता है) हो सकता है। कुछ में विजुअल फीडबैक के लिए छोटे गोल LCD स्क्रीन (जैसे 1.28-इंच, 240×240 रिज़ॉल्यूशन डिस्प्ले) जोड़े गए हैं। बाड़े अक्सर 3D-प्रिंटेड होते हैं, जिनके डिज़ाइन ऑनलाइन साझा किए जाते हैं, कभी-कभी असेंबली के लिए सिर्फ एक स्क्रू की जरूरत होती है। अधिक उन्नत यूजर्स ने डिज़ाइनों को संशोधित करके पर्यावरण सेंसर (GPIO पिन के माध्यम से तापमान/आर्द्रता रिपोर्टिंग) शामिल किए हैं या पेंडेंट जैसे पहनने योग्य संस्करण बनाए हैं।
कीमत: लोगों के लिए एआई
शायद सबसे क्रांतिकारी पहलू? लागत। चीन के विशाल इलेक्ट्रॉनिक्स बाजारों (शेन्ज़ेन के हुआकियांगबेई की सोचें, लेकिन ताओबाओ जैसे प्लेटफॉर्म्स के माध्यम से ऑनलाइन सुलभ) से घटकों को खरीदकर एक बेसिक शियाओ झी एआई डिवाइस खुद बनाने में सिर्फ 50 RMB (लगभग $7 USD) खर्च हो सकता है।
यहाँ तक कि ताओबाओ, पिंदुओदुओ, या “शियान्यू” (闲鱼, जिसे अक्सर “सीफूड मार्केट” – 海鲜市场 कहा जाता है, चीन का लोकप्रिय सेकंड-हैंड मार्केटप्लेस) जैसे ई-कॉमर्स प्लेटफॉर्म्स पर शौकीनों या छोटे विक्रेताओं द्वारा बेचे जाने वाले तैयार यूनिट्स की कीमत आम तौर पर 80 RMB से 139 RMB (लगभग $11 से $19 USD) तक होती है।
इसे गहराई से समझिए। दो मूवी टिकटों की कीमत में एक कस्टमाइज करने योग्य, बातचीत करने वाला एआई हार्डवेयर डिवाइस। ये अविश्वसनीय किफायतीपन इसकी स्वीकार्यता का एक बड़ा कारण है। ये एआई हार्डवेयर को महंगे गैजेट्स के दायरे से निकालकर एक सुलभ टूल या खिलौने में बदल देता है।
एक इकोसिस्टम का विस्फोट: जमीनी नवाचार की ताकत
ओपन-सोर्स रिलीज़ और वायरल वीडियो ने चिंगारी पर तेल डालने का काम किया। गिटहब रिपॉजिटरी (github.com/78/xiaozhi-esp32) ने जल्दी ही चर्चा बटोरी, खबरों के मुताबिक गिटहब ग्लोबल ट्रेंडिंग चार्ट्स में जगह बनाई और हजारों स्टार्स और फोर्क्स हासिल किए। एक जीवंत समुदाय उभरकर सामने आया।
अचानक, शियाओ झी एआई सिर्फ एक चीज नहीं रहा; ये हजारों चीजें बन गया:
- डेस्क पर रखे साधारण बोलने वाले बॉक्स।
- कार्टून किरदारों या साइंस-फिक्शन प्रॉप्स (जैसे साइबरपंक 2077-थीम वाले पेंडेंट्स) से मिलते-जुलते कस्टमाइज्ड शेल्स।
- मौजूदा डिवाइसेज या स्मार्ट होम सेटअप्स में एकीकरण।
- खास ज्ञान आधार के साथ प्रोग्राम किए गए शैक्षिक उपकरण।
- स्थानीय बोलियों (जैसे कैंटोनीज) और रिमाइंडर फंक्शन्स के साथ बुजुर्गों के लिए अनुकूलित साथी।
ये किसी केंद्रीय कंपनी द्वारा नियोजित नहीं था; ये यूजर्स की सामूहिक रचनात्मकता से प्रेरित था – “पिंगमिन चुआंगशिन” (平民创新), या “जमीनी नवाचार,” जैसा कि शिफांग रोंगहाई ने खुद इसे परिभाषित किया। शिफांग रोंगहाई की आधिकारिक टीम छोटी रही (खबरों के मुताबिक लोकप्रियता में विस्फोट के बाद भी 10 लोगों से कम) और कोर प्लेटफॉर्म और सॉफ्टवेयर के रखरखाव पर केंद्रित रही, जबकि हार्डवेयर विविधीकरण को समुदाय के हवाले छोड़ दिया।
गीकपार्क की रिपोर्ट के अनुसार, 1,00,000 सक्रिय डिवाइसेज में से केवल लगभग एक हजार “आधिकारिक” वॉयस बॉक्स थे जो शुरू में बेचे गए; अधिकांश DIY या थर्ड-पार्टी द्वारा असेंबल किए गए यूनिट्स थे। मासिक वृद्धि दर 300% तक पहुँच रही थी – हर महीने दोगु
评论