Хорошо, налейте себе чашечку кофе (или, может, зеленого чая Лунцзин, раз уж мы говорим о Китае), и давайте вместе разберемся в одном захватывающем явлении, которое набирает обороты в технологической сфере Поднебесной. Будучи американцем, живущим здесь, я повидал немало технологических трендов, но этот… он особенный. Это что-то народное, технически продвинутое, удивительно доступное и распространяется со скоростью лесного пожара.

Речь идет о феномене под названием «Xiao Zhi AI» (小智AI), что можно перевести как «Маленькая Мудрость» или «Маленький Умник» — искусственный интеллект. И вот что удивительно: по слухам и обсуждениям в местных технологических кругах, устройства с этой платформой ИИ, возможно, уже преодолели отметку в 100 000 единиц всего за пару месяцев. Это не ошибка. Пока мировые технологические гиганты выпускают изящные и дорогие гаджеты с ИИ, этот скромный, зачастую кустарно выглядящий проект незаметно собрал огромную аудиторию, потенциально став первой аппаратной экосистемой ИИ, достигшей таких цифр за столь короткий срок.

Забудьте о вылизанных маркетинговых кампаниях; эта штука взорвалась по-старинке (или, наоборот, по-новому?): через вирусные видео и сарафанное радио, во многом благодаря искреннему энтузиазму пользователей. Это история про открытый код, доступность и, возможно, намек на другое будущее для аппаратного обеспечения с ИИ.

От нуля до 100 000: Искра, ставшая вирусной

Так как же проект, изначально известный лишь в узких кругах разработчиков, внезапно захватил умы такого количества людей? Как и многое в современном Китае, все началось с платформ коротких видео. Представьте: вы листаете ленту Douyin (китайский аналог TikTok) и натыкаетесь на видео, где… ну, часто это просто голая плата. Иногда она помещена в простую коробку, напечатанную на 3D-принтере, иногда просто лежит на столе. Кто-то говорит с ней, задает вопросы, а порой просто выговаривается о своем дне.

И плата отвечает.

Внимание привлекло не просто то, что она говорит, а как она это делает. Ответы приходят быстро — заметно быстрее, чем у многих популярных голосовых помощников. Говорят, время отклика составляет около 300 миллисекунд, в то время как у других приходится ждать 2-3 секунды. Но что еще важнее, голос часто звучит удивительно естественно, иногда с легким синтетическим тайваньским акцентом, который многим кажется милым или даже успокаивающим. Разговоры не просто функциональны; они ощущаются… человечными. Даже с ноткой эмпатии. Видео, где Xiao Zhi AI дает неожиданно глубокие или эмоционально трогающие советы, начали собирать сотни тысяч, а иногда и миллионы лайков.

Комментарии под видео просто взрывались. Люди не просто писали «Крутая штука!», они говорили: «Ого, я прям почувствовал это» или, более практично, «Где такое взять?!». Эта эмоциональная связь вкупе с грубоватой, почти андеграундной эстетикой говорящей платы создала идеальный шторм любопытства и спроса.

Случайный гений и философия открытости

Хуан Гуань

За Xiao Zhi AI стоит не какой-то гигант из Кремниевой долины или электронный магнат из Шэньчжэня, по крайней мере, не напрямую. Проект начинался как личная инициатива Хуан Гуаня (黄冠), основателя и председателя компании Shifang Ronghai (十方融海). Хуан, известный в интернете под ником «虾哥» (Ся Гэ, буквально «Брат Креветка»), окончил факультет компьютерных наук престижного Южно-Китайского технологического университета. Его компания Shifang Ronghai в основном работает в сфере онлайн-образования, специализируясь на профессиональных навыках и обучении интересам для людей среднего и старшего возраста, с брендами вроде «Pear Blossom Education» для тренировки голоса. Согласно статье от Shifang Ronghai, Хуан с самого начала интересовался применением ИИ в образовании.

Так почему же человек из образовательной сферы занялся разработкой аппаратного обеспечения для ИИ? Судя по всему, Хуан, опираясь на опыт своей компании в области ИИ для образования (они разработали собственные адаптации больших языковых моделей, таких как «Эмоциональная модель», на основе открытого кода вроде OpenBuddy, с упором на распознавание голоса и эмоций), решил поэкспериментировать. Он сам называл себя новичком в области оборудования, учась на ходу, и создал простую плату, способную запускать их модель ИИ для разговорных целей.

И вот тут начинается самое интересное. Вместо того чтобы засекречивать свое творение, Хуан сделал нечто важное: в сентябре 2024 года он выложил ядро проекта Xiao Zhi AI в открытый доступ на GitHub. Его целью было не запустить продукт, а посмотреть, что с этим смогут сделать другие. Он видел в Xiao Zhi AI «мозг» и хотел, чтобы сообщество создало «руки и ноги» — разнообразные аппаратные реализации. Он мечтал о совместной экосистеме, где разработчики, любители и даже новички могли бы экспериментировать и создавать что-то новое.

Этот открытый подход стал ключевым. Команда специально выбрала микроконтроллер ESP32-S3 (в частности, модуль ESP32-S3-WROOM-1-N16R8, как упоминается в некоторых подробных обзорах) в качестве основного поддерживаемого чипа. Почему? Не потому, что он самый мощный из доступных, а потому, как признается команда, что чипы ESP32 от Espressif Systems (компании из Шанхая) имеют огромную, хорошо задокументированную экосистему, множество онлайн-уроков и невероятно дружелюбны для новичков, а главное — дешевы. Это существенно снизило порог входа. Вам не нужен диплом инженера; мотивированные любители, студенты и даже родители, работающие над проектами с детьми, могли присоединиться.

Эта философия контрастирует с некоторыми «открытыми» платформами крупных корпораций, которые порой напоминают строго контролируемые сады с привратниками, часто требующими заявок и одобрений и нацеленными на устоявшиеся компании, а не на отдельных энтузиастов. Xiao Zhi AI ощущается как по-настоящему открытый проект.

Что внутри: Демократизация аппаратного обеспечения ИИ

Давайте заглянем под капот Xiao Zhi AI, не углубляясь в дебри технических деталей. Главная прелесть — в модульности и доступности.

  1. Основа: В сердце системы — чип ESP32-S3. Этот маленький, но мощный компонент управляет Wi-Fi, Bluetooth, обработкой данных и взаимодействием с другими элементами. Он популярен в сообществе мейкеров по всему миру, сравним с платами Raspberry Pi или Arduino по привлекательности для любителей, но часто даже дешевле для базовых модулей.
  2. Ум ИИ: Программная платформа подключается к различным сервисам ИИ. Важно, что она поддерживает несколько больших языковых моделей (LLM). Пользователи могут переключаться между бэкендами, такими как Qwen от Alibaba (Tongyi Qianwen), впечатляющий DeepSeek (запуск которого в начале 2024 года назвали важным катализатором), и даже модели OpenAI (хотя их использование может быть связано с дополнительными расходами и проблемами доступности в Китае). Эта гибкость — ключевая особенность. По умолчанию часто используется собственная оптимизированная «Эмоциональная модель» от Shifang Ronghai, настроенная на быстрые и увлекательные беседы.
  3. Слышать и говорить: Для автоматического распознавания речи (ASR) могут использоваться движки, такие как FunASR (от DAMO Academy Alibaba), который способен работать локально для обнаружения ключевых слов (с помощью ESP-SR, фреймворка распознавания речи от Espressif) с заявленным временем отклика всего 0,6 секунды. Для преобразования текста в речь (TTS) по умолчанию часто используется удивительно естественный сервис TTS от Microsoft Edge (EdgeTTS), но есть альтернативы, такие как Volcano Engine от ByteDance или TTS от Alibaba Cloud. Сочетание локальной обработки для скорости (ключевые слова) и облачной обработки для мощности (логические выводы LLM, сложный TTS) — это умный баланс.
  4. Настройка под себя: Здесь и кроется магия для пользователей. Вы можете настраивать запросы, чтобы определить «личность» ИИ — сделать его «знающим профессором», «саркастичной лучшей подругой» (毒舌闺蜜 — dúshé guīmì, буквально «острая на язык подруга») или даже персонажем из аниме вроде Spy x Family. Некоторые сборки позволяют клонировать голос или выбирать конкретные синтезированные голоса (например, в популярном стиле «японского актера озвучки»). Функции вроде краткосрочной памяти (запоминание нескольких последних реплик в разговоре) и потенциального распознавания голосового отпечатка для приватности добавляют дополнительные уровни сложности.
  5. Подключение: Большинство сборок поддерживают Wi-Fi, но некоторые конструкции включают модули 4G с предоплаченными SIM-картами, что позволяет устройству работать автономно в любом месте с сотовой связью. Представьте себе действительно портативного ИИ-компаньона, который всегда с вами.
  6. Гибкость оборудования: Благодаря открытому коду физическая форма устройства бесконечно вариативна. Самая простая версия может быть просто платой ESP32, микрофоном (часто цифровым I2S-микрофоном вроде INMP441 или аналоговым с АЦП), небольшим динамиком (например, мощностью 1 Вт) и портом USB-C для питания (часто используется простой чип зарядки литиевых батарей TP4056 для портативности, обеспечивая часы работы). Некоторые добавляют небольшие круглые ЖК-экраны (например, диаметром 1,28 дюйма с разрешением 240×240) для визуальной обратной связи. Корпуса часто печатают на 3D-принтере, а дизайны делятся в интернете, иногда для сборки требуется всего один винт. Более продвинутые пользователи модифицируют конструкции, добавляя датчики окружающей среды (например, для измерения температуры и влажности через GPIO-пины) или создавая носимые версии, такие как подвески.

Цена: ИИ для народа

Пожалуй, самый революционный аспект? Стоимость. Собрать базовое устройство Xiao Zhi AI самостоятельно, закупив комплектующие на огромных электронных рынках Китая (например, в Хуацянбэе в Шэньчжэне, но доступных онлайн через платформы вроде Taobao), можно всего за 50 юаней (около 7 долларов США).

Даже готовые устройства, продаваемые энтузиастами или мелкими продавцами на платформах электронной коммерции, таких как Taobao, Pinduoduo или «Xianyu» (闲鱼, часто прозванный «Рынок морепродуктов» — 海鲜市场, популярная китайская площадка для подержанных товаров), обычно стоят от 80 до 139 юаней (примерно 11–19 долларов США).

Подумайте об этом. Настраиваемое устройство с разговорным ИИ за цену пары билетов в кино. Эта невероятная доступность — главный фактор его популярности. ИИ-аппаратура перестает быть дорогим гаджетом и становится доступным инструментом или даже игрушкой.

Экосистема взрывается: Сила народного творчества

Выпуск в открытый доступ в сочетании с вирусными видео подействовал как бензин, брошенный на искру. Репозиторий на GitHub (github.com/78/xiaozhi-esp32) быстро набрал популярность, по сообщениям, попав в глобальные тренды GitHub и собрав десятки тысяч звезд и форков. Вокруг проекта сформировалось активное сообщество.

Внезапно Xiao Zhi AI перестал быть чем-то одним; это стало тысячами разных вещей:

  • Простые говорящие коробки на столах.
  • Индивидуальные корпуса в виде героев мультфильмов или научно-фантастических реквизитов (например, подвески в стиле Cyberpunk 2077).
  • Интеграции в существующие устройства или системы умного дома.
  • Образовательные инструменты с заданными базами знаний.
  • Компаньоны для пожилых людей, настроенные на местные диалекты (например, кантонский) с функцией напоминаний.

Это не было организовано какой-то центральной компанией; движущей силой стала коллективная креативность пользователей — «народное творчество» (平民创新, píngmín chuàngxīn), как сформулировала сама Shifang Ronghai. Официальная команда Shifang Ronghai осталась небольшой (по данным, менее 10 человек даже после взрыва популярности) и сосредоточилась на поддержке основной платформы и софта, предоставив сообществу заниматься разнообразием аппаратных решений.

По данным GeekPark, из 100 000 активных устройств лишь около тысячи были «официальными» голосовыми коробками, проданными изначально; подавляющее большинство — это DIY или собранные третьими сторонами устройства. Ежемесячный рост достигал 300% — удвоение каждый месяц. Спрос быстро превысил предложение на отдельные компоненты или популярные готовые версии, из-за чего цены на перепродажном рынке иногда удваивались.

Реальные применения

Помимо того, что это забавный гаджет для общения, начали появляться практические применения:

  • Образование: Учитель средней школы в провинции Сычуань, как сообщается, подключил Xiao Zhi AI к локальной базе упражнений, используя его как помощника для ответов на вопросы учеников после уроков, что, по его словам, значительно сэкономило время на повторяющихся вопросах.
  • Уход за пожилыми: В домах престарелых в Шэньчжэне появились настраиваемые версии, запрограммированные понимать кантонский диалект, напоминать о приеме лекарств и даже проигрывать классическую кантонскую оперу. Эмоциональная связь особенно важна в этом случае.
  • Производительность в офисе: Стартап в Ханчжоу экспериментировал с модифицированными устройствами Xiao Zhi AI с распознаванием голоса для создания кратких отчетов по итогам встреч, что, как сообщается, обходилось в разы дешевле традиционных диктофонов или услуг транскрипции.

Эти примеры показывают, как низкая стоимость и настраиваемость позволяют Xiao Zhi AI занять ниши, которые более дорогие и монолитные продукты могут упустить.

Проблемы и бизнес-аспект

Такой быстрый и децентрализованный рост не обходится без сложностей.

  • Монетизация: Хотя базовая функция чата часто бесплатна (вероятно, субсидируется Shifang Ronghai как инвестиция в рост экосистемы), использование облачных сервисов для LLM и TTS не может быть бесплатным вечно. Долгосрочная модель устойчивости пока формируется. Возможно, позже появятся премиум-функции или уровни доступа.
  • Контроль качества: С тысячами независимых сборщиков качество оборудования сильно варьируется. DIY-проект за 50 юаней может не обладать той же надежностью или внешним видом, что коммерческий продукт.
  • Коммерциализация открытого кода: Граница между обменом в сообществе и коммерческой эксплуатацией может быть размытой. Один источник упомянул спор, когда некий KOL («Key Opinion Leader») по имени «周大侠KOL» (Zhou Daxia KOL) якобы пытался выдать технологию за свою собственную инновацию и привлекать дистрибьюторов, после чего получил предупреждение от Shifang Ronghai. Управление коммерческим использованием открытого проекта при поддержке сообщества — это тонкий баланс. Shifang Ronghai, похоже, сосредоточена на развитии платформы, предоставляя другим заниматься оборудованием, но интеллектуальная собственность и брендинг в такой распределенной модели требуют осторожного подхода.
  • Масштабирование: Поддержка быстро растущей базы пользователей, даже только на стороне программной платформы, требует инвестиций в инфраструктуру. Обеспечение стабильности серверов и управление затратами на API для потенциально миллионов ежедневных взаимодействий (в одном анализе упоминалось более 900 000 ежедневных разговоров и 5 миллиардов токенов!) — задача не из легких.

Несмотря на эти препятствия, импульс неоспорим. Производители чипов, такие как Allwinner и Artosyn (思澈 — Sīchè), по слухам, адаптируют свои микросхемы для совместимости, расширяя аппаратные возможности за пределы ESP32. Бренды из разных секторов, включая культурные учреждения, такие как магазин подарков Запретного города, антимошеннические талисманы и даже производители игрушек, выразили интерес к внедрению Xiao Zhi AI в свои продукты.

О чем нам говорит Xiao Zhi AI?

Взлет Xiao Zhi AI — это не просто история о крутой технологии; он дает несколько интригующих выводов:

  1. Спрос на близкий ИИ: Людям нужен не просто функциональный ИИ; они жаждут взаимодействия, которое ощущается естественным и эмоциональным. Успех Xiao Zhi AI во многом зависит от его разговорных способностей и воспринимаемой «личности».
  2. Сила открытого аппаратного обеспечения: Это демонстрирует жизнеспособную альтернативу подходу закрытых экосистем. Предоставив базовый интеллект и позволив сообществу экспериментировать с форм-фактором и применением, проект высвободил огромный творческий потенциал и масштабируемость.
  3. Доступность имеет значение: Цена — огромный барьер для внедрения технологий. Сделать аппаратное обеспечение ИИ невероятно дешевым (10–20 долларов!) кардинально меняет, кто может получить доступ к нему и экспериментировать. Это демократизирует инновации.
  4. Другая модель инноваций: В то время как в США часто появляются громкие стартапы, выпускающие отполированные (и дорогие) гаджеты с ИИ, Xiao Zhi AI представляет более восходящую, управляемую сообществом модель, которая процветает в уникальной экосистеме Китая с быстрым прототипированием, огромными цепочками поставок электроники (центрированными вокруг таких мест, как Шэньчжэнь) и гиперактивными онлайн-сообществами.
  5. «Android-момент» для аппаратного обеспечения ИИ? Напрашиваются параллели. Могут ли открытые платформы, такие как Xiao Zhi AI, стать адаптируемой «операционной системой» для разнообразного спектра будущих устройств с ИИ, подобно тому, как Android поддерживает бесчисленные смартфоны? Пока рано говорить, но это привлекательная альтернатива вертикально интегрированным моделям.

Что ждет впереди

Xiao Zhi AI еще молод. Ему предстоит столкнуться с вызовами масштабирования, устойчивой монетизации и сложностями управления открытой экосистемой. Официальная команда надеется привлечь больше экспертов — акустиков, дизайнеров оборудования, продукт-менеджеров — чтобы помочь экосистеме созреть и, возможно, выпустить более отполированные потребительские продукты, построенные на этой платформе.

Станет ли Xiao Zhi AI мировым брендом, пока неясно. Но его стремительный взлет до более чем 100 000 устройств служит мощным напоминанием, что инновации не всегда рождаются в крупнейших лабораториях или на самых ярких запусках продуктов. Иногда они возникают из проекта одного энтузиаста, раскрепощенного силой открытого кода, усиленного страстным сообществом и сделанного доступным практически для всех. Это захватывающий эксперимент, разворачивающийся в реальном времени, и, наблюдая за этим изнутри Китая, я чувствую, что это по-настоящему волнующее развитие в ландшафте аппаратного обеспечения ИИ. Следите за этим направлением — эра по-настоящему личного, настраиваемого и доступного ИИ может быть ближе, чем мы думаем, и, возможно, она будет выглядеть как маленькая говорящая плата.


Stay Connected With Deep Stories From China

Subscribe to receive the latest articles by email.

Присоединиться к еще 1 542 подписчикам
Author

评论

Stay Connected With Deep Stories From China

Subscribe to PandaYoo now to continue reading the full article.
(English Version Only)

Присоединиться к еще 1 542 подписчикам

Continue reading