The English version follows the Japanese version.
otoというサービスのアイデアを共有します。
otoが解決する課題は音声AIの学習データ不足です。これをトークンインセンティブで解決します。 ポイントは、
音声/言語データが不足している地域と、トークンインセンティブに反応する地域がオーバーラップしていること (e.g. アフリカ言語、インディアン諸語、地方方言)
また、これは英語や中国語、日本語などの主要言語であっても、アクセントや方言といった地域差のあるデータが不足していること(つまり、これを読んでいるあなたであってもターゲットユーザであるということ)
1時間あたりの日常会話で推定2,000円 - 10,000円程度の報酬を見込めること (!友達とランチに行ってそこでの会話を提供するだけで、ランチ代がタダになるかもしれません)
日常会話データの統計を取ることができるようになると、とてつもなく大きく新しいマーケットが拓けるということ(世界中の人の会話データの統計を取れる、となった時にどんなサービスが思いつきますか?考えてみて下さい。)
Website: https://www.oto.earth/
音声AIの学習データが枯渇していること。
現代のAI、特に大規模言語モデル(LLM)や音声認識・合成モデルの目覚ましい進歩は、膨大な量の高品質な学習データによって支えられてきました。しかし、その「燃料」となるデータ、特にインターネット上で公開されている高品質なテキストデータや音声データの供給が、AIの進化のスピードに追いつかなくなりつつあります。これが「AI学習データ枯渇問題」であり、今後のAI開発における深刻なボトルネックになると懸念されています。
この問題は単なる量の問題ではありません。AIの性能向上に適した、ノイズが少なく、多様性に富み、倫理的に利用可能な「高品質データ」の限界が近づいているのです。AI開発の最前線では、これまで主要な制約と考えられてきた計算資源(コンピュート)から、データへと制約が移行しつつあるという認識が急速に広がっています。
OpenAIの研究者はこの状況について次のように述べています。
「GPT-4あたりまでは、我々は主にコンピュート(計算資源)に制約された環境にいました。 [...] しかし今、我々ははるかにデータに制約される(data bound)状況にあります。 [...] これは、世界がまだ本当に理解していない(groked)であろう、 クレイジーな変化(crazy update)なのです。」
この「データ制約」への移行は、AI業界のリーダーたちも共有する危機感です。例えば、元OpenAIチーフサイエンティストのイリヤ・サツケバー氏は、NeurIPS 2024の講演で「私たちが知っているような事前学習(pre-training)は間違いなく終わるだろう」と宣言し、「我々にはインターネットが一つしかない。データはAIの化石燃料のようなものだ」と述べ、高品質データの限界が近づいていることを強調しました。一部では「2026年問題」とも称され、高品質データの供給が需要に追いつかなくなる具体的な時期として議論されることもあります。
データ枯渇は、AIモデルの性能向上の鈍化や頭打ち、さらにはAI自身が生成した低品質なデータによる学習(モデル崩壊のリスク)といった問題を引き起こす可能性があります。そして何より、特定の言語や話者層へのAIサービスの偏りを助長し、デジタルデバイドをさらに深刻化させる恐れがあるのです。
世界中の人がスマホで音声を収録して、研究者に提供する。サービス名はotoにしました。("音"から)
otoは、ユーザーが自身のスマートフォンを使って日常会話を簡単に録音し、プライバシーを保護した上でAI研究開発のために提供できるプラットフォームです。これにより、これまでアクセス困難だった「生きた会話データ」を大規模に収集することが可能になります。
データの提供者には収益が入る。 データ提供という貢献に対して、otoは独自のトークンを用いたインセンティブを提供します。ユーザーは自身の会話データを通じて、AIの進化に貢献するだけでなく、経済的なリターンを得ることができます。これは、持続可能なデータ収集エコシステムを構築するための重要な要素です。
以上です。階層的にこのアイデアの詳細を提供することで読者をナビゲートしていこうと思います。
音声AIの学習データが枯渇しているために起きている問題があります。
世界には約7,000もの言語が存在しますが、現在、音声AIが実用レベルで対応できているのは、多く見積もってもわずか150言語程度に過ぎません。これは、全言語の約2%にしか相当せず、実に98%の言語コミュニティが、音声AI技術の恩恵から取り残されている ことを意味します (この数字は、利用可能な音声データセットの言語数を元にした一般的な推定です。例: Common Voice は133言語をカバー )。この深刻な「言語データ格差」は、情報アクセスや教育、文化の保存といった面で、計り知れない不利益を生んでいます。
AIが対応しているとされる英語やスペイン語などの主要言語においても、課題は残ります。特に、地域特有のアクセントや方言、あるいは非ネイティブ話者の発音に対する認識精度は、標準的な発音に比べて著しく低いのが現状です。例えば、アフリカ系アメリカ人英語(AAVE)や、ヒスパニック系の話者が用いる英語(例:Spanglish, Chicano English)では、標準アメリカ英語の話者と比較して単語誤り率(WER: Word Error Rate)が2倍近くになるという研究結果も報告されています。これは、学習データにおける多様性の不足が主な原因であり、特定のグループに対するサービスの質の低下や、意図しないバイアスを生む原因となります。
現在の最先端音声AIでさえ、人間同士の自然なコミュニケーション能力には遠く及びません。例えば、複数人が同時に話す状況(話者分離)、背景ノイズが多い環境での聞き取り(ノイズ耐性)、皮肉やユーモアといった感情やニュアンスの理解(感情・意図理解)、人間のような自然な応答速度や間(ま)の取り方(対話の自然さ)など、多くの側面で人間レベルの能力には到達していません。これらの高度な能力を獲得するには、既存のデータセット(多くは朗読や形式的な発話)では不足しており、より複雑で多様な、インタラクティブな実世界の会話データを用いた学習が不可欠です
私たちが日々交わす会話のほとんどは、記録されることなく揮発していきます。ある推計によれば、人類が1日に話す総時間はおよそ14.5億時間にも上るとされますが、そのうちAI学習などに利用可能な公開音声コーパスは約10万時間程度(例: Common Voice 約3.3万時間、People's Speech 約3万時間など)に過ぎません。これは、実に99.995%以上の膨大な会話データが、AIの進化や他の有益な目的のために活用されることなく、永遠に失われている ことを意味します。この「失われたデータ」には、より人間らしく、偏りのないAIを開発するための計り知れない価値が眠っています。
otoはトークンインセンティブを活用して音声データを収集します。
スマートフォンでotoを起動し、日常会話を録音するだけです。ユーザーはアプリの設定を通じて、録音のオン・オフや録音する状況をコントロールできます。
提供したくない会話だったら、拒否することもできます。録音されたデータは、ユーザーが確認し、AI学習への提供を許可するかどうかを個別に選択できます。プライバシーに関わる会話や、共有したくない内容は、ユーザー自身の判断で簡単に除外することが可能です。
主要言語の場合
英語、スペイン語、中国語などの主要言語のデータは、音声AIのより人間らしい、自然な対話能力向上に活用されます。既存のデータセットでは不足しがちな、感情表現豊かな会話、複数人での議論、多様なアクセントや話し方を含むデータを収集することで、AIの頑健性(ロバストネス)と表現力を高めます。もちろん、提供されるデータは、後述する最先端技術によってプライバシーが厳重に保護されます。
非主要言語
これまでデータ収集が困難だった数千の非主要言語については、otoを通じて収集されたデータが、その言語コミュニティにとっての貴重なデジタル資産となります。これらのデータは、Common Voiceのような公共財としての音声データセット構築を加速させ、各言語での基本的な音声認識・合成技術の開発を可能にします。これにより、言語間のAI格差を是正し、より多くの人々が母語でAI技術の恩恵を受けられる世界の実現を目指します。プライバシー保護は主要言語と同様に最優先事項です。
otoが集める日常会話データは、単にAIを訓練するための燃料ではありません。それは、インターネット検索ログやSNSのテキストデータとは全く異なる、人間のリアルな思考や感情、インタラクションを反映した、未開拓のデータソースです。
otoは音声データをAI学習に提供するだけでなく、それを記録・活用するアプリのエコシステムを作ります。データ提供による直接的な収益(トークンインセンティブ)以外にも、ユーザーはotoエコシステムを通じて様々なメリットを享受できます。
パーソナルAI(未来へのタイムカプセル): 死んだひいおじいちゃんと話してみたいと思ったことや、歴史の偉人と話してみたいと思ったことはありませんか?あなたの発話パターン、知識、個性を学習した音声AIを、未来の友達や家族に残すことができます。
思い出の記録・再生: 発話データを記録することで、友達との楽しい会話や、家族との何気ないやり取りを、音声で振り返ることができます。特定の発言や話題を検索することも可能になるかもしれません。
パーソナル・セーフティ: 発話データを記録することで、何かあった時のためにあなたを守る証拠となる可能性があります。(利用はユーザーの明確な同意に基づきます)
ヘルスモニタリング: 発話データを分析することで、あなたの声の変化から疲労度やストレスレベル、さらには特定の病気の初期兆候を検知できる可能性があります。(研究開発段階の応用例)
自動タスク管理: 発話データを分析することで、会話の中から「来週水曜日11AMにユニオン駅で待ち合わせ」「牛乳を買ってくる」といったタスクを自動で抽出し、カレンダーやToDoリストに追加してくれます。
日常会話データはインターネットにはない全く新しいデータ層です。これを匿名化し、統計的に分析することで、これまでにないインサイトを得ることができます。
リアルタイム・トレンド分析: GoogleやX(旧Twitter)の検索トレンドや投稿内容とは異なる、人々が実際に口にしている話題や関心事をリアルタイムで把握できます。社会の「生の声」を捉えることができます。
正直なレビューデータ: アンケート調査という文化を破壊して、映画やプロダクト、レストラン、商品に関する人々の正直な感想や評価(ポジティブ・ネガティブ両面)を、会話データから抽出・分析して提供できます。これは、より信頼性の高い市場調査や製品改善に繋がります。
Q: なぜ音声AIは重要なのでしょうか?
A: 音声インターフェースは、多くの人々にとって、テキストよりも自然でアクセスしやすいコミュニケーション手段です。
世界の10億人は発話に課題を抱えている: 言語障がい、吃音、加齢による発声困難など、様々な理由でスムーズな発話に課題を抱える人々が世界に10億人以上いると言われています。音声合成(TTS)や音声変換技術の向上は、彼らのコミュニケーションを支援する大きな力となります。
世界の34億人はテキストAIの使用に課題を抱えている:
視覚障がい (22億人): スクリーンリーダーなど既存の支援技術に加え、より自然な音声対話が可能なAIは、情報アクセスを劇的に改善します。
読み書き障がい (12億人): 文字の読み書きが困難な人々にとって、音声は情報取得やデジタルサービス利用のための重要な手段です。
合計34億人もの人々にとって、音声AIはデジタル社会への参加を可能にする鍵となり得ます。otoは、これらの人々を含む、すべての人々がテクノロジーの恩恵を受けられる、よりインクルーシブな世界の実現に貢献します。
Q: プライバシーは保護されますか?
A: はい、otoはプライバシー保護を最優先に考えています。ユーザーからお預かりする繊細な会話データを扱う上で、信頼は何よりも重要です。そのために、otoは以下の最先端技術を組み合わせて利用し、個人の特定に繋がる情報を保護しながら、データの価値を最大限に活用します。
FHE (Fully Homomorphic Encryption): データを暗号化したままAIに学習させることができます。データの内容はotoの運営者にもAIモデルにも知られることはありません。
TEE (Trusted Execution Environment): データを処理するサーバー内に、外部から隔離された安全な領域(金庫のようなもの)を作り、その中でデータ処理を行います。たとえサーバー自体が攻撃を受けても、この領域内のデータは保護されます。
差分プライバシー (Differential Privacy): ユーザーの声色や話し方の癖といった個人を特定しうる特徴に、統計的に計算された微細なノイズを加えます。これにより、個々のユーザーのデータが全体の分析結果に与える影響を極めて小さくし、プライバシーを保護します。
これらの技術的対策に加え、ユーザー自身がデータ提供を完全にコントロールできる仕組みを提供することで、安心してotoに参加いただける環境を構築します。
Q: 合成データは活用できないのですか?
A: 合成データ(AIが生成したデータ)もAI開発において有用な技術であり、特定のタスクやデータが極端に少ない状況では有効活用されています。しかし、合成データだけでは、実世界の会話が持つ複雑さ、多様性、微妙なニュアンス、感情の機微などを完全に再現することは困難です。特に、より人間らしい自然な対話能力を持つAIを開発するためには、otoが集めるような「本物の」日常会話データが持つ独自の価値が不可欠となります。otoは、実データと合成データの両方の利点を活かす未来を目指しています。
世界のために、あなたの力が必要です。
もしあなたの会話音声を1時間提供してくれたら、それが安全に保護され、AIの進化とより良い社会の実現に役立ち、さらに20ドル/h相当の報酬を受け取れるとしたら、あなたは参加したいと思いますか?
English Version
Let us share the idea for a service called "oto."
The problem oto solves is the shortage of training data for voice AI. We aim to solve this using token incentives. Key points include:
The overlap between regions lacking voice/language data and regions responsive to token incentives (e.g., African languages, Indigenous languages of the Americas, regional dialects).
This data shortage also exists even for major languages like English, Chinese, and Japanese, specifically regarding data with regional variations like accents and dialects (meaning you, the reader, could also be a target user).
An estimated reward equivalent to $20 - $100 per hour of daily conversation provided. (Imagine going to lunch with a friend, providing the conversation, and potentially getting your lunch for free!)
The potential to open up a vast new market by enabling statistical analysis of daily conversational data. (What services can you imagine if we could analyze statistics from conversations of people worldwide? Think about it.)
Website: https://www.oto.earth/ (waitlist is open)
Voice AI training data is becoming depleted.
The remarkable progress of modern AI, especially large language models (LLMs) and speech recognition/synthesis models, has been fueled by vast amounts of high-quality training data. However, the supply of this "fuel," particularly high-quality text and audio data publicly available on the internet, is struggling to keep pace with the speed of AI evolution. This is the "AI training data depletion problem," a growing concern cited as a potential major bottleneck for future AI development.
This issue isn't merely about quantity. We are approaching the limits of "high-quality data"—data that is low-noise, diverse, ethically sourced, and suitable for improving AI performance. At the forefront of AI development, there's a rapidly growing recognition that the primary constraint is shifting from computational resources (compute) to data.
An OpenAI researcher described this situation: "up until this rough point in time like if you look even through GPD4 we were largely just in a compute constrained environment... but now we're... much more data bound... it is a crazy update that I don't think the world has really groked yet."
This shift towards being "data bound" reflects a sense of urgency shared by leaders in the AI industry. For instance, former OpenAI Chief Scientist Ilya Sutskever declared at the NeurIPS 2024 conference that "pre-training as we know it will unquestionably end," emphasizing the limits of high-quality data by stating, "We have but one internet. Data is like the fossil fuel of AI." (Quote source: Ilya Sutskever, NeurIPS 2024 via https://theoutpost.ai/news-story/ilya-sutskever-predicts-unpredictable-superintelligent-ai-and-the-end-of-current-pre-training-methods-9581/). This situation is sometimes referred to as the "2026 problem," discussed as a potential timeframe when the supply of high-quality data may fall short of demand.
Data depletion could lead to a slowdown or plateau in AI model performance improvements, and even risks associated with training on lower-quality, AI-generated data (potential for "model collapse"). Most importantly, it risks exacerbating the bias of AI services towards specific languages and speaker groups, further deepening the digital divide.
People worldwide record audio with their smartphones and provide it to researchers. Our answer to this challenge is "oto." oto is a platform enabling users to easily record daily conversations using their smartphones and contribute them for AI research and development while protecting their privacy. This allows for the large-scale collection of "real-life conversational data" that was previously difficult to access.
Data providers earn revenue. In return for their contribution of data, oto offers incentives using its unique token. Users not only contribute to AI evolution through their conversational data but also gain economic returns. This is a crucial element in building a sustainable data collection ecosystem.
That's it. We will navigate the reader by providing details of this idea hierarchically.
There are problems arising from the depletion of voice AI training data.
While there are about 7,000 languages in the world, voice AI currently supports only around 150 languages at a practical level. This represents only about 2% of all languages, meaning a staggering 98% of language communities are excluded from the benefits of voice AI technology. This severe "linguistic data gap" creates immeasurable disadvantages in terms of information access, education, and cultural preservation.
Even for major languages like English and Spanish, which AI supposedly supports, challenges remain. Recognition accuracy for regional accents, dialects, or non-native speaker pronunciations is significantly lower compared to standard pronunciation. When evaluated by Word Error Rate (WER), it's not uncommon for the error rate to multiply under certain conditions. This is primarily due to the lack of diversity in training data.
Even the most advanced current voice AI falls far short of human natural communication abilities. Aspects like handling multiple simultaneous speakers (speaker diarization), understanding speech in noisy environments, comprehending emotions and nuances like sarcasm or humor, and achieving human-like response speed and timing (pauses) are still beyond reach. Acquiring these advanced capabilities requires training on more complex and diverse real-world conversational data.
Most conversations we have daily are ephemeral, vanishing without being recorded. One estimate suggests that less than 0.005% of conversations worldwide are recorded or analyzed in any form. This means over 99.995% of vast conversational data, holding immense potential value for AI training and other beneficial purposes, is lost forever. This "lost data" contains immeasurable value for advancing AI.
oto collects voice data using token incentives.
Simply launch oto on your smartphone and record daily conversations. Users can control recording on/off and the situations for recording through the app settings.
You can also refuse conversations you don't want to provide. Recorded data can be reviewed by the user, who can then individually choose whether to permit its use for AI training. Conversations deemed private or those the user doesn't wish to share can easily be excluded at the user's discretion.
For major languages
Data from major languages like English, Spanish, and Chinese will be used to enhance the more human-like, natural conversational abilities of voice AI. By collecting data often lacking in existing datasets—such as emotionally expressive conversations, multi-person discussions, and diverse accents and speaking styles—we can improve AI's robustness and expressiveness. Of course, the provided data is strictly privacy-protected using the cutting-edge technologies described later.
For non-major languages
For the thousands of non-major languages where data collection has been difficult, data collected through oto becomes a valuable digital asset for those language communities. This data will accelerate the creation of public good voice datasets like Common Voice, enabling the development of basic speech recognition and synthesis technologies in each language. This aims to rectify the AI language gap and realize a world where more people can benefit from AI technology in their native tongue. Privacy protection remains the top priority, just as with major languages.
The daily conversational data collected by oto is not just fuel for training AI. It's an untapped data source reflecting real human thoughts, emotions, and interactions, entirely different from internet search logs or social media text data.
oto not only provides voice data for AI training but also creates an ecosystem of apps for recording and utilizing it. Beyond the direct revenue (token incentives) from data contribution, users can enjoy various benefits through the oto ecosystem.
Personal AI (Time Capsule to the Future): Ever wished you could talk to your deceased great-grandfather or a historical figure? You can leave behind a voice AI trained on your speech patterns, knowledge, and personality for future friends and family.
Memory Recording & Playback: By recording speech data, you can revisit fun conversations with friends or casual exchanges with family through audio. Searching for specific utterances or topics might also become possible.
Personal Safety: Recording speech data could potentially serve as evidence to protect you in case something happens. (Usage based on explicit user consent).
Health Monitoring: Analyzing speech data may allow detection of fatigue levels, stress, or even early signs of certain diseases from changes in your voice. (Application example in R&D stage).
Automatic Task Management: Analyzing speech data can automatically extract tasks from conversations like "Schedule a meeting next Wednesday" or "Buy milk," adding them to your calendar or to-do list.
Daily conversational data is a completely new data layer not found on the internet. By anonymizing and statistically analyzing it, we can gain unprecedented insights.
Real-time Trend Analysis: Understand the topics and interests people are actually talking about in real-time, distinct from search trends or posts on Google or X (formerly Twitter). Capture the "raw voice" of society.
Honest Review Data: Disrupt the culture of surveys by extracting and analyzing people's honest opinions and evaluations (both positive and negative) about movies, products, restaurants, and goods directly from conversational data. This leads to more reliable market research and product improvement.
Q: Why is Voice AI Important?
A: Voice interfaces are, for many people, a more natural and accessible means of communication than text.
1 Billion People Worldwide Face Speech Challenges: Over a billion people globally face challenges with smooth speech due to language disorders, stuttering, age-related vocal difficulties, and other reasons. Improvements in Text-to-Speech (TTS) and voice conversion technologies can significantly aid their communication.
3.4 Billion People Worldwide Face Challenges Using Text AI:
Visual Impairment (2.2 billion): In addition to existing assistive technologies like screen readers, more natural conversational AI can dramatically improve information access.
Literacy Challenges (1.2 billion): For those who struggle with reading and writing, voice is a crucial means of accessing information and utilizing digital services.
For a total of 3.4 billion people, voice AI can be the key to participating in the digital society. oto contributes to realizing a more inclusive world where everyone, including these individuals, can benefit from technology.
Q: Is my privacy protected?
A: Yes, oto prioritizes privacy protection above all else. Trust is paramount when handling the sensitive conversational data entrusted to us by users. To that end, oto combines the following state-of-the-art technologies to protect personally identifiable information while maximizing the value of the data:
FHE (Fully Homomorphic Encryption): Allows AI to learn from data while it remains encrypted. Neither oto operators nor the AI models ever see the content of the data.
TEE (Trusted Execution Environment): Creates a secure, isolated area (like a vault) within the servers processing the data. Even if the server itself is compromised, the data within this environment remains protected.
Differential Privacy: Adds statistically calculated minute noise to user-specific characteristics like voice tone or speaking habits. This minimizes the impact of any individual user's data on the overall analysis results, thus protecting privacy.
In addition to these technical measures, we provide users with mechanisms to fully control their data contributions, building an environment where they can participate in oto with peace of mind.
Q: Can't synthetic data be used?
A: Synthetic data (AI-generated data) is a useful technology in AI development and is effectively utilized for specific tasks or in situations where real data is extremely scarce. However, synthetic data alone struggles to fully replicate the complexity, diversity, subtle nuances, and emotional depth present in real-world conversations. Particularly for developing AI with more human-like, natural conversational abilities, the unique value of "authentic" daily conversational data, like that collected by oto, is indispensable. oto aims for a future that leverages the benefits of both real and synthetic data.
The world needs your help.
If you could contribute one hour of your conversational audio, knowing it would be securely protected, used to advance AI for a better society, and you would receive the equivalent of $20/h in return, would you be willing to participate?
consome