世界中のAIが使用!大規模言語モデルの80%で使用されるCommon CrawlとConstellation Networkが責任あるAIのために協力!
いつもニュースレターをご覧頂きありがとうございます。
2024年10月に開催されたConstellation Networkのイベント「HyDef」では、「Panasonic タフブックとConstellation Networkの連携」が公開されました。
今回は、もうひとつの公開された注目トピックを紹介します。
それが、「Constellation Network と Common Crawl が責任ある AI のために協力」です。
現在、世界中で ChatGPTやその他AIサービスが数多く出現しています。そのAIは大量の学習データを読み込む必要があります。
その学習データとして世界中で活用されているのが、Common Crawlです。
その内容について整理して紹介します。
Constellation Network と Common Crawl が責任ある AI のために協力
Constellation Network が Common Crawl Foundation と提携して AI 大規模言語モデル用のペタバイト級のデータを検証するというもの。
この提携では、AI で使用される大規模言語モデルの改善が試みられる。
Common Crawlは世界中の大規模言語モデルの 80% で使用されている。
これまでに 2,500 億以上の Web ページ (2024 年だけで 190 億ページ) をクロールし、アーカイブされたクロール データのアーカイブが約 9 ペタバイト相当存在する。
Constellation Network の分散ネットワークである Hypergraph を活用して、データの不変性、出所、監査可能性を追加することで、責任ある透明性の高い AI に関する共同ソリューションを提供することを目指す。
現在、 Common Crawl のデータのサブセットを統合するMetagraphをテスト ネットワークで稼働しており、まもなく Constellation のパブリック ネットワークである Hypergraph に展開される予定となっている。(稼働中のMetagraphの詳細は、組織や開発者が参加できる方法とともに、今後数週間で紹介される予定)
AI は 2030 年までに 3 兆ドル規模の産業になると予測されており、大規模な言語モデルのトレーニングに使用される共通データセットの共有、クエリおよびクリーニングされたデータのストレージの改善、データの収益化の機会、およびデータソースの透明性の向上に対する安全なソリューションの需要が高まっています。
既存のインフラストラクチャを分散型および非中央集権型ネットワークに統合するツールを提供する Constellation の独自のアプローチと、Common Crawl のデータの歴史とデータユーティリティの成長により、このパートナーシップはデータのさらなる民主化につながります。
▼Common Crawl Foundation のエグゼクティブ ディレクターである Rich Skrenta 氏
「この提携は、Common Crawl の信頼できる配信の確保に向けた大きな前進です」
「当社の包括的な Web アーカイブと Constellation の実証済みのブロックチェーン技術の実装を組み合わせることで、世界中の研究者や開発者は Common Crawl から得られるものを信頼でき、AI トレーニングに使用されるような大規模なオープン データ セットを認証するためのモデルを手に入れることができます。」
▼Constellation Network の CEO であるBen Jorgensen氏
「Constellation Network と Common Crawl の提携は、暗号のエコーチェンバーの外で Web3ソリューションが主流に採用されていることを示しています。」
「この連携は、データ中心の未来のための公共財としてゼロトラスト ネットワークを使用するという Constellation の使命を継続するものです」
「当社の目標は、デジタル ワークフロー全体に不変性を統合するなどの機能を紹介することで、新しい開発者をさらに引き付け、以前の世代のブロックチェーン テクノロジーとの差別化をさらに図ることです」
Common Crawl Foundationとは
Common Crawl Foundation は、インターネットのコピーを一般の人々に無料で提供することを目的とした 非営利団体。
同団体の Webアーカイブは、長年にわたる Webクロールで収集されたペタバイト級のデータで構成されており、世界中の研究者、企業、開発者にとって重要なリソースとなっている。
毎月あるいは四半期ごとに新たなクロールデータが追加されている。
Chat GPTも活用するCommon Crawl
Chat GPTもCommon Crawlがアーカイブしたデータセットを機械学習に活用している (約60%相当)
Common Crawlデータアーカイブの使い方 (難しい...)
Common Crawlがクロールして大量にアーカイブされたデータを、開発者や研究者たちがどのように利用しているのか、知りたい方は以下リンクを参照。(その道の方でないと難しい...)
Common CrawlがクロールしたデータはAWSに
Common Crawlがクロールして収集されたデータはAmazonのクラウド事業; AWSにアーカイブされており、AWS Open Data Sponsorship Programを通じて、世界中にオープンデータとして公開されている。