世界中のAIが使用！大規模言語モデルの80%で使用されるCommon CrawlとConstellation Networkが責任あるAIのために協力！

これまでに2,500億以上のWebページをクロールし、アーカイブされたクロールデータのアーカイブが約9ペタバイト相当存在！

世界のデジタル投資 2024.11.15

いつもニュースレターをご覧頂きありがとうございます。

2024年10月に開催されたConstellation Networkのイベント「HyDef」では、「Panasonic タフブックとConstellation Networkの連携」が公開されました。

今回は、もうひとつの公開された注目トピックを紹介します。

それが、「Constellation Network と Common Crawl が責任ある AI のために協力」です。

現在、世界中で ChatGPTやその他AIサービスが数多く出現しています。そのAIは大量の学習データを読み込む必要があります。

その学習データとして世界中で活用されているのが、Common Crawlです。

その内容について整理して紹介します。

***

PR newswire

Constellation Network が Common Crawl Foundation と提携して AI 大規模言語モデル用のペタバイト級のデータを検証するというもの。

この提携では、AI で使用される大規模言語モデルの改善が試みられる。

Common Crawlは世界中の大規模言語モデルの 80% で使用されている。

これまでに 2,500 億以上の Web ページ (2024 年だけで 190 億ページ) をクロールし、アーカイブされたクロールデータのアーカイブが約 9 ペタバイト相当存在する。

Constellation Network の分散ネットワークである Hypergraph を活用して、データの不変性、出所、監査可能性を追加することで、責任ある透明性の高い AI に関する共同ソリューションを提供することを目指す。

現在、 Common Crawl のデータのサブセットを統合するMetagraphをテストネットワークで稼働しており、まもなく Constellation のパブリックネットワークである Hypergraph に展開される予定となっている。(稼働中のMetagraphの詳細は、組織や開発者が参加できる方法とともに、今後数週間で紹介される予定)

AI は 2030 年までに 3 兆ドル規模の産業になると予測されており、大規模な言語モデルのトレーニングに使用される共通データセットの共有、クエリおよびクリーニングされたデータのストレージの改善、データの収益化の機会、およびデータソースの透明性の向上に対する安全なソリューションの需要が高まっています。

既存のインフラストラクチャを分散型および非中央集権型ネットワークに統合するツールを提供する Constellation の独自のアプローチと、Common Crawl のデータの歴史とデータユーティリティの成長により、このパートナーシップはデータのさらなる民主化につながります。

▼Common Crawl Foundation のエグゼクティブディレクターである Rich Skrenta 氏

「この提携は、Common Crawl の信頼できる配信の確保に向けた大きな前進です」
「当社の包括的な Web アーカイブと Constellation の実証済みのブロックチェーン技術の実装を組み合わせることで、世界中の研究者や開発者は Common Crawl から得られるものを信頼でき、AI トレーニングに使用されるような大規模なオープンデータセットを認証するためのモデルを手に入れることができます。」

PR newswire

▼Constellation Network の CEO であるBen Jorgensen氏

「Constellation Network と Common Crawl の提携は、暗号のエコーチェンバーの外で Web3ソリューションが主流に採用されていることを示しています。」
「この連携は、データ中心の未来のための公共財としてゼロトラストネットワークを使用するという Constellation の使命を継続するものです」
「当社の目標は、デジタルワークフロー全体に不変性を統合するなどの機能を紹介することで、新しい開発者をさらに引き付け、以前の世代のブロックチェーンテクノロジーとの差別化をさらに図ることです」

PR newswire

***