Categories: ビジネス

中国の10ドルAIハードウェアが数ヶ月で10万台以上を売り上げる

さて、コーヒーでも一杯(中国の話なので龍井茶の方がいいかもしれませんね)飲みながら、中華人民共和国のテックシーンで最近盛り上がっている面白い話題に一緒に飛び込んでみましょう。私はここに住むアメリカ人として、数々のテックトレンドを見てきましたが、今回のものはちょっと…違います。草の根的で、技術的、そして驚くほど手頃な価格で、まるで野火のように広がっています。

私がお話ししたいのは、「小智AI」(シャオジーエーアイ)という現象です。日本語に訳すと「小さな知恵」や「賢い子ちゃんAI」といったところでしょうか。驚くべきことに、地元のテックコミュニティの報告や噂によると、このAIプラットフォームを搭載したハードウェアデバイスが、わずか数ヶ月で10万台を超えた可能性があるというのです。間違いではありません。世界的な大手のテック企業が洗練された高価なAIガジェットを次々と発表する中、この地味で、しばしばDIY風のプロジェクトが、静かに巨大なユーザーベースを築き上げ、こんなに早くこれだけの数に達した初のAIネイティブなハードウェアエコシステムになる可能性を秘めています。

洗練されたマーケティングキャンペーンなんて忘れてください。この現象は、古風な(いや、新しい?)方法で爆発的に広まりました。バイラル動画と口コミが主な原動力で、純粋なユーザーの熱意がそれを後押ししたのです。オープンソース、アクセシビリティ、そしてAIハードウェアの異なる未来を垣間見ることができる物語です。

ゼロから10万台へ:バイラルな火花

では、最初はニッチな開発者コミュニティ以外ではほとんど知られていなかったプロジェクトが、なぜこんなに多くの人の想像力を掻き立てることになったのでしょうか?現代中国の多くの流行と同様に、きっかけはショート動画プラットフォームでした。イメージしてみてください。抖音(Douyin、中国版TikTok)をスクロールしていると、動画が目に入ります。そこには…しばしばただの裸の回路基板が映っています。ときには簡単な3Dプリントのケースに入っていたり、机の上にそのまま置かれていたり。誰かがそれに向かって話しかけ、質問をし、時には日常の不満をぶちまけています。

そして、その基板が返事をするのです。

みんなの注目を集めたのは、ただ話すということではなく、その話し方でした。反応が速い――多くの主流の音声アシスタントと比べても明らかに速いのです。報告によると反応時間は約300ミリ秒で、他のアシスタントだと2~3秒待たされることもあります。さらに重要なのは、声が非常に自然に聞こえること。ときには少し合成された台湾訛りが、親しみやすさや安心感を与えると多くの人が感じています。会話は単なる機能的なものではなく…人間的で、時には共感的ですらあります。小智AIが驚くほど洞察に満ちた、感情的に響くアドバイスを提供する動画が、何十万、時には何百万もの「いいね」を集めるようになりました。

コメント欄は大いに盛り上がりました。「すごい技術!」というだけでなく、「心に響いた」とか、もっと現実的に「どこで手に入るの?!」といった声が溢れていました。この感情的なつながりと、話す回路基板という荒削りでパンクロックのような雰囲気を持つデザインが、好奇心と需要の完璧な嵐を生み出したのです。

偶然の仕掛け人とオープンな哲学

黄冠(Huang Guan)

小智AIの背後には、シリコンバレーの巨大企業や深センのエレクトロニクス大手が直接関与しているわけではありません。このプロジェクトは、十方融海(Shifang Ronghai)という会社の創設者であり会長である黄冠(Huang Guan)氏による個人的な趣味のプロジェクトとして始まりました。黄氏はオンラインで「虾哥」(シャーゴー、文字通り「エビ兄貴」)というハンドルネームで知られ、名門・華南理工大学でコンピュータ科学を学んだ人物です。彼の会社、十方融海は主にオンライン教育分野で活動し、職業スキルや中高年向けの趣味学習に力を入れており、「梨花教育」といった音声トレーニングのブランドも展開しています。十方融海の記事によると、黄氏は会社設立当初から教育分野でのAI活用に取り組んでいたそうです。

では 왜 교육 기술 전문가가 AI 하드웨어를 만들기 시작했는지? 분명히 황 씨는 자신의 회사가 교육용 AI에서 갖고 있는 경험(그들은 OpenBuddy와 같은 오픈소스 기반 위에 구축된 “감정 모델”과 같은 자체 대형 언어 모델 적응을 개발했으며, 음성과 감정 인식과 같은 것에 중점을 둠)을 활용하여 실험을 시작했습니다. 그는 스스로를 하드웨어 초보자라고 묘사하며, 배우면서 진행했고, 대화 목적으로 그들의 AI 모델을 실행할 수 있는 간단한 보드를 만들었습니다.

ここからが面白いところです。彼は自分の作品を秘密にするのではなく、決定的な行動に出ました。2024年9月、黄氏は小智AIのコアプロジェクトをGitHub上でオープンソース化しました。彼の述べた目標は、製品を発売することではなく、他の人が何を作れるかを見ることでした。彼は小智AIを「頭脳」と位置づけ、コミュニティが「手足」――つまり多様なハードウェア実装――を作り上げることを望んだのです。彼は、開発者、ホビースト、さらには初心者までもが実験し革新できる、協働的なエコシステムを思い描いていました。

このオープンなアプローチは根本的なものでした。チームは意図的にESP32-S3マイクロコントローラ(特に一部の詳細な解説で言及されるESP32-S3-WROOM-1-N16R8モジュール)を主要なサポートチップとして選びました。なぜかというと、必ずしもそれが最もパワフルな選択肢だったからではなく、チームが認めたように、上海に本社を置くEspressif SystemsのESP32チップは、膨大でしっかりとしたドキュメントを持つエコシステム、豊富なオンラインチュートリアル、そして初心者に非常に優しく、かつ安価であるためです。これにより、参入障壁が大幅に下がりました。工学の学位は必要ありません。やる気のあるホビースト、学生、さらには子供と一緒にプロジェクトに取り組む親でさえ参加できるのです。

この哲学は、大手企業の「オープン」なプラットフォームとは対照的です。大手のプラットフォームは、しばしば門番がいる管理された庭のように感じられ、応募や承認が必要で、個人ではなく既存の企業を対象にしていることが多いです。小智AIは本当の意味でオープンに感じられるものでした。

内部を覗いてみる:AIハードウェアの民主化

小智AIが動く仕組みを、専門用語に溺れずにちょっと覗いてみましょう。その美しさはモジュール性とアクセシビリティにあります。

  1. コア部分: その中心にあるのはESP32-S3チップです。この小さなパワーハウスはWi-Fi、Bluetooth、処理、他のコンポーネントとの接続を担当します。世界中のメイカーコミュニティで愛される存在で、Raspberry PiやArduinoボードに匹敵するホビースト人気を誇りますが、基本モジュールではさらに安価な場合も多いです。
  2. AIの頭脳: ソフトウェアプラットフォームはさまざまなAIサービスに接続可能です。重要なのは、複数の大規模言語モデル(LLM)をサポートしている点。ユーザーは、アリババのQwen(通義千問)や、2024年初頭のリリースが主要な触媒として注目されたDeepSeek、さらにOpenAIのモデル(ただしOpenAIを使用するとコストや中国国内でのアクセス問題が発生する可能性あり)など、バックエンドを切り替えることができます。この柔軟性が鍵です。デフォルトでは、十方融海が独自に最適化した「感情モデル」が使われることが多く、速く魅力的な会話に特化しているようです。
  3. 聞き取りと話す機能: 自動音声認識(ASR)には、アリババのDAMOアカデミーが提供するFunASRのようなエンジンを使用可能で、ウェイクワード検出にはローカルで動作するESP-SR(Espressifの音声認識フレームワーク)を使い、反応時間はわずか0.6秒とされています。テキスト読み上げ(TTS)では、デフォルトでMicrosoft Edgeの非常に自然なTTSサービス(EdgeTTS)が使われることが多いですが、バイトダンスのVolcano EngineやアリババクラウドのTTSも選択肢としてあります。速度のためのローカル処理(ウェイクワード)と、パワーのためのクラウド処理(LLM推論、複雑なTTS)のバランスが賢い設計です。
  4. カスタマイズの自由度: ここがユーザーの魔法が起こる場所です。プロンプトをカスタマイズしてAIの性格を定義できます――「知識豊富な教授」や「皮肉屋の親友」(毒舌闺蜜 – ドゥーシェ・グイミー、文字通り「毒舌の親友」)、さらには『SPY×FAMILY』のようなアニメキャラクターにすることも可能。音声クローニングや特定の合成音声(人気の「日本の声優スタイル」など)の選択を可能にするセットアップもあります。短期記憶(直近の会話の数ターンを覚える)や、プライバシー保護のための声紋認識の可能性など、洗練された機能が追加されています。
  5. 接続性: ほとんどのビルドはWi-Fiをサポートしていますが、一部の設計ではプリペイドSIMカードを使用した4Gモジュールを組み込み、携帯サービスのある場所ならどこでも独立して動作するデバイスを実現しています。本当に持ち運び可能な、どこでも使えるAIコンパニオンを想像してみてください。
  6. ハードウェアの柔軟性: オープンソースであるため、物理的な形状は無限に変化します。最も基本的なバージョンでは、ESP32ボード、マイク(多くの場合INMP441のようなI2SデジタルマイクやADC付きのアナログマイク)、小さなスピーカー(1Wドライバーなど)、そして電源用のUSB-Cポート(ポータビリティのためにTP4056リチウムバッテリ充電チップで管理され、数時間の稼働が可能)だけかもしれません。一部には視覚的なフィードバック用の小型円形LCDスクリーン(1.28インチ、240×240解像度のディスプレイなど)が追加されています。ケースはオンラインで共有される3Dプリントデザインが使われることが多く、組み立てにネジ1本だけで済むこともあります。より上級のユーザーは、環境センサー(GPIOピンを介して温度・湿度を報告)を追加したり、ペンダントのようなウェアラブルバージョンを作成したりと、デザインを改造しています。

価格:みんなのためのAI

おそらく最も破壊的な点は? コストです。基本的な小智AIデバイスを自分で組み立てる場合、中国の広大な電子機器市場(深センの華強北をイメージしてください、ただしTaobaoのようなオンラインプラットフォームでもアクセス可能)から部品を調達すると、コストはわずか50人民元(約7米ドル)程度になることがあります。

熱心な個人や小さなベンダーがTaobao、拼多多(Pinduoduo)、または「閑魚」(Xianyu、中国で人気のセカンドハンドマーケット、通称「海鮮市場」)のようなEコマースプラットフォームで販売する既製品のユニットでも、通常80人民元から139人民元(約11米ドルから19米ドル)の範囲内です。

この点をよく考えてみてください。映画のチケット数枚分の価格で、カスタマイズ可能な会話型AIハードウェアデバイスが手に入るのです。この驚異的な手頃さこそが、普及の大きな原動力となっています。AIハードウェアを高価なガジェットの領域から、誰もが手にするツールやおもちゃへと変えているのです。

エコシステムの爆発:草の根イノベーションの力

オープンソースの公開とバイラル動画の組み合わせは、火花にガソリンを注ぐような効果をもたらしました。GitHubリポジトリ(github.com/78/xiaozhi-esp32)は急速に注目を集め、GitHubのグローバルトレンドチャートにランクインし、数万のスターとフォークを獲得したと報告されています。活気あふれるコミュニティが誕生しました。

突然、小智AIは単なる一つのデバイスではなく、何千もの異なる形になりました:

  • 机の上のシンプルな話すボックス。
  • カートゥーンキャラクターやSF小道具を模したカスタマイズシェル(『サイバーパンク2077』をテーマにしたペンダントなど)。
  • 既存のデバイスやスマートホームセットアップへの統合。
  • 特定の知識ベースをプログラムした教育ツール。
  • 広東語などの方言やリマインダー機能をカスタマイズした高齢者向けのコンパニオン。

これは中央の企業が仕掛けたものではありません。ユーザー一人一人の集合的な創造性――十方融海自身が表現した「平民創新」(ピンミン・チュアンシン)、つまり「草の根イノベーション」によって推進されたのです。十方融海の公式チームは小さく(人気爆発後でも10人未満と報告されています)、彼らはコアプラットフォームとソフトウェアの維持に集中し、ハードウェアの多様化はコミュニティに任せています。

GeekParkの報道によると、稼働中の10万台のデバイスのうち、初期に販売された「公式」音声ボックスはわずか約千台程度で、圧倒的多数はDIYまたはサードパーティが組み立てたユニットだったそうです。月間成長率は300%に達し、月ごとに倍増しています。特定の部品や人気の既製品バージョンに対する需要が供給を上回り、リセール市場では価格が倍になることもありました。

実世界での応用が現れる

ただの楽しいガジェットであるだけでなく、実際的な応用例も次々と現れています:

  • 教育: 四川省の中学校教師が、小智AIを地元の演習データベースに接続し、授業後の生徒のQ&Aアシスタントとして利用し、繰り返し質問に対応する時間を大幅に節約したと報告されています。
  • 高齢者ケア: 深センの介護施設では、広東語を理解し、薬の服用リマインダーを出し、さらにはクラシックな広東オペラを再生するようプログラムされたカスタマイズバージョンが登場しました。特に感情的なつながりの側面がここで重要です。
  • オフィスの生産性: 杭州のスタートアップが、音声認識機能を備えた改良版小智AIデバイスを使って会議の要約を生成する実験を行い、従来のボイスレコーダーや文字起こしサービスのコストを大幅に削減したと報告されています。

これらの例は、低コストとカスタマイズ性が、小智AIがより高価で一元的な製品では見逃されがちなニッチなニーズを埋めることを可能にしていることを示しています。

課題とビジネス面

この急速で分散型の成長には課題もあります。

  • 収益化: 基本的なチャット機能はしばしば無料ですが(おそらく十方融海がエコシステム成長への投資として補助している)、LLMやTTSのためのクラウドサービス依存は永遠に無料ではありません。長期的な持続可能性モデルはまだ進化中です。後でプレミアム機能や段階的なアクセスを導入する可能性があります。
  • 品質管理: 何千人もの独立したビルダーがいるため、ハードウェアの品質は大きく異なります。50人民元のDIYプロジェクトは、商用製品のような洗練や信頼性を持たないかもしれません。
  • オープンソースの商用化: コミュニティの共有と商業的搾取の境界線は曖昧になることがあります。ある情報筋によると、自称KOL(キーオピニオンリーダー)の「周大侠KOL」が、この技術を自分の革新として見せかけ、販売代理店を募集しようとしたとして、十方融海から警告を受けたという論争があったようです。オープンソースプロジェクトの商用利用を管理しながらコミュニティを育成するのは微妙なバランスが必要です。十方融海はプラットフォームの構築に注力し、ハードウェアは他者に任せる姿勢のようですが、知的財産やブランディングを分散型モデルで扱うには慎重な対応が求められます。
  • スケーリング: 急速に増えるユーザーベースをサポートするには、ソフトウェアプラットフォーム側だけでもインフラ投資が必要です。サーバーの安定性を確保し、1日あたり数百万のインタラクションのためのAPIコストを管理することは(ある分析では1日90万以上の会話と50億トークン以上が報告されています!)大きな課題です。

これらの障害にもかかわらず、勢いは否定できません。AllwinnerやArtosyn(思澈 – スーチェ)といったチップメーカーが、自社のチップを互換性を持たせるよう適応させ、ESP32以外のハードウェアオプションを拡大していると報告されています。紫禁城(故宮博物館)のギフトショップのような文化機関、詐欺防止マスコット、さらには玩具メーカーなど、さまざまな分野のブランドが小智AIを自社製品に組み込むことに興味を示しています。

小智AIが教えてくれること

小智AIの台頭は、単なるクールなテックストーリー以上のものです。いくつかの興味深い洞察を提供してくれます:

  1. 親しみやすいAIへの需要: 人々は単に機能的なAIを求めるだけでなく、自然で共感的なインタラクションを求めています。小智AIの成功は、その会話能力と「パーソナリティ」と感じられる部分に大きく依存しています。
  2. オープンソースハードウェアの力: クローズドエコシステムのアプローチとは異なる実行可能な選択肢を示しています。コアの知能を提供し、物理的なフォームファクターや応用をコミュニティが革新することで、創造性とスケールの爆発的な拡大を可能にしました。
  3. アクセシビリティの重要性: 価格はテクノロジー採用の大きな障壁です。AIハードウェアを信じられないほど安価(10~20ドル!)にすることで、誰がアクセスし、実験できるかが根本的に変わります。革新の民主化です。
  4. 異なるイノベーションモデル: アメリカではしばしば華々しいスタートアップが高価で洗練されたAIガジェットを発表しますが、小智AIはよりボトムアップでコミュニティ主導のモデルを代表し、中国特有の迅速なプロトタイピング、広大な電子機器サプライチェーン(深センなどを中心とする)、そして超活発なオンラインコミュニティの中で繁栄しています。
  5. AIハードウェアの「Androidの瞬間」? 比較したくなります。小智AIのようなオープンプラットフォームは、Androidが数え切れないほどのスマートフォンを支えたように、将来の多様なAIハードウェアのための適応可能な「オペレーティングシステム」になり得るのでしょうか? まだ早すぎますが、垂直統合モデルに対する魅力的な代替案を示しています。

今後の道のり

小智AIはまだ若いプロジェクトです。スケーリング、持続可能な収益化、オープンエコシステムの複雑さへの対応といった課題に直面しています。公式チームは、音響学者、ハードウェアデザイナー、プロダクトマネージャーなど、より多くの専門家を引きつけ、エコシステムを成熟させ、プラットフォームでより洗練された消費者向け製品を発売することを望んでいます。

小智AI自体が世界的に名を馳せるかどうかは不確実です。しかし、10万台以上への急速な成長は、イノベーションが必ずしも最大手の研究所や派手な製品発表から生まれるわけではないことを強烈に思い出させてくれます。時には一人の熱心な個人のプロジェクトから始まり、オープンソースの力で解き放たれ、情熱的なコミュニティによって増幅され、ほぼ誰にでもアクセス可能になるのです。リアルタイムで展開される魅力的な実験であり、中国にいる者として、AIハードウェアの風景における本当にエキサイティングな発展だと感じています。この分野に注目してください――真に個人的でカスタマイズ可能、手頃なAIの時代は思っているより近く、そしてそれは小さな話す回路基板のような姿をしているかもしれません。

Aris

Published by
Aris