By Geng Kai, DFG
블록체인에서 데이터의 중요성
데이터는 블록체인 기술의 핵심이며 탈중앙화 애플리케이션(dApp) 개발의 기반입니다. 현재 많은 논의가 데이터 가용성(DA)을 중심으로 이루어지고 있지만, 모든 네트워크 참여자가 검증을 위해 최신 거래 데이터에 액세스할 수 있도록 보장하는 것만큼이나 중요한 측면이 있는데, 바로 데이터 접근성입니다.
모듈형 블록체인의 시대에는 DA 솔루션이 필수 불가결한 요소가 되었습니다. 이러한 솔루션은 모든 참여자가 트랜잭션 데이터를 사용할 수 있도록 하여 실시간 검증을 가능하게 하고 네트워크의 무결성을 유지합니다. 그러나 DA 레이어는 데이터베이스라기보다는 광고판과 같은 기능을 합니다. 즉, 광고판의 포스터가 결국 새 포스터로 교체되는 것처럼 데이터가 무한정 저장되는 것이 아니라 시간이 지나면 삭제됩니다.
반면 데이터 접근성은 과거 데이터를 검색하는 기능에 중점을 두며, 이는 디앱 개발과 블록체인 분석 수행에 매우 중요합니다. 이 측면은 정확한 표현과 실행을 위해 과거 데이터에 액세스해야 하는 작업에 매우 중요합니다. 데이터 접근성은 중요하지만 덜 논의되지만, 데이터 가용성만큼이나 중요합니다. 블록체인 생태계에서 이 두 가지는 서로 다르지만 상호 보완적인 역할을 하며, 강력하고 효율적인 블록체인 애플리케이션을 지원하려면 포괄적인 데이터 관리 접근 방식이 이 두 가지를 모두 다루어야 합니다.
이전까지 블록체인 데이터 검색 방법
초기부터 블록체인은 인프라를 혁신하고 게임, 금융, 소셜 네트워킹 등 다양한 분야에서 탈중앙화된 앱의 성장을 주도해왔습니다. 다양한 분야에서 탈중앙화 애플리케이션(dApp)이 탄생했습니다. 그러나 이러한 dApp을 구축하려면 대량의 블록체인 데이터에 액세스해야 하는데, 이는 어렵고 비용이 많이 듭니다.
dApp 개발자를 위한 한 가지 옵션은 자체 아카이브 RPC 노드를 호스팅하고 실행하는 것입니다. 이러한 노드는 처음부터 모든 과거 블록체인 데이터를 저장하여 데이터에 대한 전체 액세스를 허용합니다. 그러나 아카이브 노드는 유지 비용이 많이 들고 쿼리 기능이 제한되어 있어 개발자가 필요한 형식으로 데이터를 쿼리하는 것이 불가능합니다. 더 저렴한 노드를 실행할 수도 있지만, 이러한 노드는 데이터 검색 기능이 제한되어 있어 디앱의 운영에 지장을 줄 수 있습니다.
또 다른 접근 방식은 상용 RPC(원격 프로시저 호출) 노드 공급자를 사용하는 것입니다. 이러한 공급자는 노드의 비용과 관리를 처리하고 RPC 엔드포인트를 통해 데이터를 사용할 수 있도록 합니다. 퍼블릭 RPC 엔드포인트는 무료이지만 속도에 제한이 있으며, 디앱의 사용자 경험에 부정적인 영향을 미칠 수 있습니다. 프라이빗 RPC 엔드포인트는 혼잡을 줄여 더 나은 성능을 제공하지만, 간단한 데이터 검색에도 많은 양방향 통신이 필요합니다. 따라서 복잡한 데이터 쿼리에는 요청이 많고 비효율적입니다. 또한 사설 RPC 엔드포인트는 확장하기 어렵고 서로 다른 네트워크 간에 호환성이 부족한 경우가 많습니다.
더 나은 대안: 블록체인 인덱서
블록체인 인덱서는 온체인 데이터를 정리하고 쿼리가 용이하도록 데이터베이스로 전송하는 데 중요한 역할을 합니다. 그래서 종종 "블록체인의 구글"이라고 불리기도 합니다. 이들은 블록체인 데이터를 인덱싱하고 SQL과 유사한 쿼리 언어(GraphQL과 같은 API 사용)를 통해 쉽게 사용할 수 있도록 하는 방식으로 작업합니다. 데이터 쿼리를 위한 통합 인터페이스를 제공함으로써 인덱서는 개발자가 표준화된 쿼리 언어를 사용해 필요한 정보를 빠르고 정확하게 검색할 수 있도록 하여 프로세스를 크게 간소화합니다.
다양한 유형의 인덱서가 다양한 방식으로 데이터 검색을 최적화합니다:
완전한 노드 인덱서: 완전한 블록체인 노드를 실행하고 여기에서 직접 데이터를 추출하여 완전하고 정확한 데이터를 보장하지만, 상당한 저장 공간과 처리 능력이 필요합니다.
경량 인덱서: 전체 노드에 의존하여 필요에 따라 특정 데이터를 가져오는 인덱서이므로 스토리지 요구 사항은 줄어들지만 쿼리 시간은 늘어날 수 있습니다.
특수 인덱서: 특정 유형의 데이터 또는 특정 블록체인 전용 인덱서이며, NFT 데이터나 탈중앙 금융 거래와 같은 특정 사용 사례에서 검색에 최적화할 수 있습니다.
집합 인덱서: 이러한 인덱서는 오프체인 정보를 포함해 여러 블록체인과 소스에서 데이터를 가져와 통합된 쿼리 인터페이스를 제공하며, 특히 멀티체인 dApp에 유용합니다.
이더리움에만 3TB의 스토리지가 필요하며, 블록체인이 계속 성장함에 따라 에리곤 아카이브 노드에 저장되는 데이터의 양 또한 증가하고 있습니다. 인덱서 프로토콜은 여러 개의 인덱서를 배포하여 RPC로는 불가능한 빠른 속도로 대량의 데이터를 효율적으로 인덱싱하고 쿼리합니다.
인덱서는 또한 복잡한 쿼리, 다양한 기준에 따른 간편한 데이터 필터링, 데이터의 추출 후 분석도 지원합니다. 또한 일부 인덱서는 여러 소스의 데이터를 집계할 수 있어 멀티체인 dApp에 여러 API를 배포할 필요가 없습니다. 인덱서는 여러 노드에 분산되어 있어 보안과 성능이 강화된 반면, RPC 제공자는 중앙화된 특성으로 인해 중단과 다운타임이 발생할 수 있습니다.
전반적으로, 인덱서는 데이터 검색의 효율성과 안정성을 개선하는 동시에 RPC 노드 제공자에 비해 개별 노드를 배포하는 비용을 절감합니다. 따라서 블록체인 인덱서 프로토콜은 디앱 개발자들이 선호하는 선택입니다.
인덱서 사용 사례
앞에서도 언급했듯이, 서비스를 실행하기 위해서는 블록체인 데이터를 검색하고 읽어와야 합니다. 여기에는 디파이, 대체 불가능한 토큰 플랫폼, 게임, 소셜 네트워크 등 모든 유형의 디앱이 포함되며, 다른 트랜잭션을 실행하기 전에 데이터를 읽어야 합니다.
디파이
디파이 프로토콜은 사용자에게 특정 가격, 금리, 수수료 등을 제시하기 위해 다양한 정보를 필요로 합니다. 자동화된 시장 조성자(AMM)는 스왑 금리를 계산하기 위해 특정 자금 풀에 대한 가격 및 유동성 정보가 필요하고, 대출 프로토콜은 청산을 위한 차입 금리와 부채 비율을 결정하기 위해 이용률이 필요합니다. 사용자가 실행하는 요율을 계산하기 전에 해당 정보를 디앱에 입력하는 것이 필수적입니다.
게임
게임파이에서는 사용자가 게임을 원활하게 플레이할 수 있도록 데이터를 빠르게 색인하고 액세스해야 합니다. 초고속 데이터 검색과 실행을 통해서만 웹3 게임이 웹2 게임의 성능을 따라잡고 더 많은 사용자를 유치할 수 있습니다. 이러한 게임에는 토지 소유권, 게임 내 토큰 잔액, 게임 내 액션과 같은 데이터가 필요합니다. 인덱서를 사용하면 데이터의 꾸준한 흐름과 안정적인 가동 시간을 보장하여 완벽한 게임 경험을 제공할 수 있습니다.
NFT
NFT 마켓플레이스와 대출 플랫폼은 NFT 메타데이터, 소유권 및 전송 데이터, 로열티 정보 등 다양한 정보에 액세스하기 위해 인덱서 데이터가 필요합니다. 등 이러한 데이터를 빠르게 인덱싱하면 소유권이나 NFT 속성 데이터를 찾기 위해 각 NFT를 일일이 살펴볼 필요가 없습니다.
가격과 유동성 정보가 필요한 디파이 자동 시장 메이커(AMM)나 신규 구독자의 게시물을 업데이트해야 하는 소셜파이 앱 등, 데이터를 빠르게 검색할 수 있는 것은 디앱이 제대로 작동하는 데 있어 매우 중요합니다. 인덱서를 사용하면 데이터를 효율적이고 정확하게 검색하여 원활한 사용자 경험을 제공할 수 있습니다.
분석
인덱서는 각 블록의 스마트 컨트랙트 이벤트를 포함해 원시 블록체인 데이터에서 특정 데이터를 추출하는 방법을 제공합니다. 이를 통해 보다 구체적인 데이터 분석을 통해 포괄적인 인사이트를 얻을 수 있습니다. 예를 들어 무기한 거래 프로토콜은 어떤 토큰이 대량으로 거래되고 어떤 토큰에 수수료가 발생하는지 파악하여 해당 토큰을 플랫폼에 무기한 계약으로 상장할지 여부를 결정할 수 있습니다.DEX 개발자는 자체 상품에 대한 대시보드를 생성하여 어떤 자금 풀이 가장 높은 수익률 또는 유동성을 갖는지 가장 높은 수익률 또는 가장 유동적인 자금 풀에 대한 인사이트를 제공할 수 있습니다. 공개 대시보드도 생성할 수 있어 개발자는 차트에 표시하고자 하는 모든 유형의 데이터를 자유롭고 유연하게 쿼리할 수 있습니다.
여러 블록체인 인덱서를 사용할 수 있으므로, 개발자가 자신의 필요에 가장 적합한 인덱서를 선택하려면 인덱싱 프로토콜 간의 차이점을 인식하는 것이 중요합니다.
블록체인 인덱서 개요
인덱서 개요
더 그래프
더 그래프는 이더에서 최초로 출시된 인덱서 프로토콜로, 이전에는 접근할 수 없었던 트랜잭션 데이터를 쉽게 쿼리할 수 있게 해줍니다. 하위 그래프를 사용하여 블록체인에서 수집된 데이터의 하위 집합을 정의하고 필터링합니다(예: 유니스왑 v3 USDC/ETH 풀과 관련된 모든 트랜잭션).
인덱서는 인덱싱 증명을 사용하여 인덱싱 및 쿼리 서비스를 위해 네이티브 토큰 GRT를 서약하며, 주체는 자신의 토큰을 서약하도록 선택할 수 있습니다. 큐레이터는 고품질 하위 그래프에 액세스하여 인덱서가 최상의 쿼리 수수료를 얻기 위해 데이터를 컴파일할 하위 그래프를 결정할 수 있도록 도와줍니다. 더 큰 탈중앙화로 전환하는 과정에서 더 그래프는 결국 호스팅 서비스를 중단하고 서브그래프를 네트워크로 업그레이드하고 인덱서에게 업그레이드를 제공할 것입니다.
이 인프라는 자체 호스팅 노드의 비용보다 훨씬 낮은 백만 쿼리당 평균 40달러의 비용을 가능하게 합니다. 또한 파일 데이터 소스를 사용하여 효율적인 데이터 검색을 위해 온체인 데이터와 오프체인 데이터의 병렬 인덱싱을 지원합니다.
지난 몇 분기 동안 꾸준히 성장하고 있는 The Graph의 인덱서 보상을 살펴보세요. 이는 부분적으로는 쿼리 증가에 따른 것이지만, 향후 AI 지원 쿼리를 통합할 계획에 따라 토큰 가격이 상승했기 때문이기도 합니다.
서브스퀴드
서브스퀴드는 수평적으로 확장 가능한 탈중앙화된 피어 투 피어 데이터 레이크로, 대량의 온체인 및 오프체인 데이터를 효율적으로 집계하고 영지식 증명으로 보호되는 대량의 온체인 및 오프체인 데이터를 효율적으로 수집합니다. 탈중앙화된 작업자 네트워크인 각 노드는 특정 블록 하위 집합의 데이터를 저장하고, 필요한 데이터를 보유한 노드를 빠르게 식별하여 데이터 검색 프로세스의 속도를 높입니다.
서브스퀴드는 또한 실시간 인덱싱을 지원하여 블록이 확정되기 전에 인덱싱할 수 있습니다. 또한 개발자가 선택한 형식으로 데이터를 저장할 수 있도록 지원하므로 BigQuery, Parquet 또는 CSV와 같은 도구를 사용하여 더 쉽게 분석할 수 있습니다. 또한, 하위 그래프는 Squid SDK로 마이그레이션할 필요 없이 서브스퀴드 네트워크에 배포할 수 있어 코드 없이 배포할 수 있습니다.
아직 베타 버전이지만 Subsquid는 이미 8만 명 이상의 베타 사용자, 6만 개 이상의 Squid 인덱서 배포, 20,000명 이상의 검증된 개발자를 확보했습니다. 가장 최근인 6월 3일에는 데이터 레이크의 메인 네트워크를 출시했습니다.
색인 외에도 Subsquid 네트워크 데이터 레이크는 분석, ZK/TEE 코프로세서, AI 에이전트, Oracle과 같은 사용 사례에서 RPC를 대체할 수 있습니다.
SubQuery
SubQuery는 RPC 및 색인된 데이터 서비스를 제공하는 분산형 미들웨어 인프라 네트워크입니다. 처음에는 Polkadot과 Substrate 네트워크를 지원했으며, 현재는 200개 이상의 체인을 포함하도록 확장되었습니다. 이는 인덱서가 데이터를 인덱싱하고 쿼리 요청을 제공하며, 주체가 인덱서에게 지분을 약속하는 인덱싱 증명을 사용하는 그래프와 유사하게 작동합니다. 그러나 관리자가 아닌 인덱서의 수입이 보장된다는 것을 보여주기 위해 소비자가 구매 주문을 제출하도록 유도합니다.
샤딩이 가능한 서브쿼리 데이터 노드를 도입하여 각 노드 간에 새로운 데이터가 지속적으로 동기화되는 것을 방지하고 쿼리 효율성을 최적화하는 동시에 탈중앙화를 향해 나아갈 것입니다. 사용자는 요청 1,000건당 최대 1 SQT 토큰의 계산 수수료를 지불하거나 프로토콜을 통해 인덱서에 대한 사용자 지정 수수료를 설정할 수 있습니다.
서브쿼리는 올해 초에야 토큰을 출시했지만, 노드 및 원금 발행 보상이 달러 가치로 상승하고 있으며, 이는 플랫폼에서 제공되는 쿼리 서비스의 수가 증가하고 있음을 나타냅니다. TGE 이후 약정된 총 SQT는 600만 개에서 1억 2,500만 개로 증가하여 네트워크 참여가 증가하고 있음을 보여줍니다.
Covalent
Covalent는 블록 샘플 생성자(BSP) 네트워크 노드가 있는 탈중앙화된 인덱서 네트워크입니다. 일괄 내보내기를 통해 블록체인 데이터의 사본을 생성하고 코발런트 L1 블록체인에 증명을 게시합니다. 이 데이터는 설정된 규칙에 따라 블록 결과 생성자(BRP) 노드에 의해 정제되어 요구 사항을 충족하는 데이터를 필터링합니다.
통합 API를 사용하면 개발자는 데이터에 액세스하기 위해 복잡한 쿼리를 직접 작성할 필요 없이 일관된 요청 및 응답 형식으로 관련 블록체인 데이터를 쉽게 추출할 수 있습니다. 이렇게 사전 구성된 데이터 세트는 네트워크 운영자로부터 문빔에서 결제 수단으로 정산된 CQT 토큰을 사용하여 추출할 수 있습니다.
Covalent의 보상은 부분적으로는 Covalent 토큰인 CQT의 가격 상승으로 인해 1분기 23분기부터 1분기 24분기까지 전반적으로 상승 추세를 보인 것으로 보입니다.
인덱서 선택 시 고려 사항
데이터의 사용자 지정 가능성
일부 인덱서(예: Covalent)는 API를 통해서만 미리 구성된 표준 데이터 세트를 제공하는 범용 인덱서입니다. 속도가 빠를 수는 있지만, 데이터 세트를 사용자 정의해야 하는 개발자에게는 유연성을 제공하지 않습니다. 인덱서 프레임워크를 사용하면 애플리케이션별 요구 사항을 충족하기 위해 더 많은 사용자 정의 데이터 처리를 할 수 있습니다.
보안
색인된 데이터는 안전해야 하며, 그렇지 않으면 이러한 인덱서를 기반으로 구축된 dApp도 공격에 취약할 수 있습니다. 예를 들어, 트랜잭션과 지갑 잔액이 조작될 수 있다면 디앱은 유동성을 잃을 수 있으며, 이는 사용자에게 영향을 미칠 수 있습니다. 모든 인덱서는 인덱서 서약 토큰을 통해 어떤 형태의 보안을 사용하지만, 다른 인덱서 솔루션은 보안을 더욱 향상시키기 위해 증명을 사용할 수 있습니다.
서브스퀴드는 낙관적 증명과 영지식 증명을 사용할 수 있는 옵션을 제공하며, 코발런트는 블록 해시를 포함하는 증명도 출시했습니다.Graph는 인덱서 쿼리에 대해 낙관적 챌린지 윈도우 기간의 형태로 경쟁 챌린지 기간을 제공하는 반면, 서브쿼리는 다음과 같은 경쟁 챌린지 기간을 제공합니다. 각 블록은 머클 마운틴 증명을 생성하여 데이터베이스에 저장된 모든 데이터의 각 블록에 대한 해시값을 계산합니다.
속도 및 확장성
블록체인이 계속 성장함에 따라 거래량도 증가하기 때문에 대량의 데이터를 색인하는 데는 더 많은 더 많은 처리 능력과 저장 공간이 필요하기 때문입니다. 블록체인 네트워크가 성장함에 따라 효율성을 유지하기가 더욱 어려워지지만, 인덱서 프로토콜은 이러한 증가하는 수요를 충족하기 위한 솔루션을 도입합니다. 예를 들어, 서브스퀴드는 데이터를 저장할 노드를 더 추가하여 수평적으로 확장함으로써 하드웨어가 개선됨에 따라 확장할 수 있으며, 그래프는 데이터의 병렬 스트리밍을 제공하여 데이터를 더 빠르게 동기화하고, 서브쿼리는 노드 샤딩을 도입하여 동기화 프로세스를 가속화합니다.
지원되는 네트워크
블록체인 활동의 대부분은 여전히 이더리움 내에서 이루어지고 있지만, 시간이 지나면서 다양한 블록체인이 점점 더 인기를 얻고 있습니다. 예를 들어 레이어 2, 솔라나, 무브 블록체인, 비트코인 생태계 체인은 모두 자체 개발자와 활동이 증가하고 있으며, 인덱싱 서비스도 필요합니다.
다른 인덱서 프로토콜에서 지원하지 않는 특정 체인을 지원하면 더 많은 시장 점유율 수수료가 발생할 수 있습니다. 솔라나와 같이 데이터 집약적인 네트워크를 인덱싱하는 것은 쉽지 않으며, 지금까지는 서브스퀴드만이 이러한 네트워크에 대한 인덱싱 지원에 성공했습니다.
결론
디앱 개발에서 인덱서가 널리 채택되고 있지만, 특히 AI 통합을 통해 인덱서의 잠재력은 여전히 막대합니다. 웹2.0과 웹3.0에서 AI가 계속 인기를 얻고 있는 가운데, 그 능력은 모델 학습과 AI 에이전트 개발을 위한 관련 데이터에 대한 액세스에 달려 있습니다. 데이터 무결성을 보장하는 것은 모델에 편향되거나 부정확한 정보가 공급되는 것을 방지하기 때문에 AI 애플리케이션에 매우 중요합니다.
인덱서 솔루션 영역에서 서브스퀴드는 성능과 사용자 지표에서 상당한 진전을 이루었습니다. 사용자들은 서브스키드로 AI 에이전트를 구축하는 실험을 시작했으며, 이는 진화하는 데이터 색인 분야에서 플랫폼의 다목적성과 잠재력을 입증하고 있습니다. 또한, AutoAgora와 같은 도구는 색인자가 AI를 사용해 The Graph에서 쿼리 서비스에 대한 동적 가격을 제공하는 데 도움을 주며, 서브쿼리는 투명한 데이터 색인을 위해 OriginTrail 및 Oraichain과 같은 여러 AI 네트워크를 지원합니다.
인덱서와의 AI 통합은 블록체인 생태계에서 데이터 접근성과 사용성을 향상시킬 것으로 기대됩니다. 인덱서는 AI 기술을 활용하여 보다 효율적이고 정확한 데이터 검색을 제공함으로써 개발자들이 보다 정교한 디앱과 분석 도구를 구축할 수 있게 해줍니다. AI와 인덱서가 함께 계속 진화함에 따라, 저희는 데이터 인덱싱의 미래와 탈중앙화된 디지털 환경을 형성하는 데 있어서의 역할에 대해 낙관적인 전망을 유지하고 있습니다.