「让用户拥有自己的数据主权」,这个口号原本承载着整个web3时代的大愿景,不过由于数据上链成本和公开隐私性等挑战问题一直没得到真正应用。最近,由于AGI大模型训练市场对数据源的庞大需求刺激,即将上线币安的@withvana,提出了一套DLP流动性池+TEE的数据所有权解决方案,具体有哪些亮点呢?
1)数据主权和个人数据分红是个很古老的议题。在web2时代个人数据实现了大爆炸但却造成平台的垄断和数据隐私被严重侵犯的问题;在web3时代的初期,不少项目尝试用智能合约管理+去中心化存储+链上确权等来实现这一愿景,却发现链存储成本高昂且链上数据的透明特性加大了保护隐私的挑战。
正因为此,用区块链实现「数据所有权」的探索之路一直因技术瓶颈处于被搁置状态。
2)AI时代来临后,AGI大模型训练、多模态训练、以及数据推理、微调等多样化应用场景,尤其是垂直领域的机器学习和专业模型训练,需要大量非公开的高质量数据作为支撑,这使得个人和机构持有的私有数据成为AI发展的关键资源,因此让数据为AI学习所用成了一个规模庞大的「需求端」。
这是Vana治理为AI时代用户解决数据主权的前提,因为大部分web2环境下的个人对数据所有权、隐私等敏感度都偏低,而把「数据」视为石油资产的AI时代境况就完全不同了。
3)即将上线主网的Vana的解决方案主要针对两大问题:「数据双花」和「隐私权保护」。具体而言:当一个数据在链上被公开、任意复制存储都可能导致数据失去稀缺性继而丧失价值捕获能力。
Vana通过DLP(DataLiquidityPool)数据流动性池来建立数据市场,采用ProofofContribution的特别贡献证明机制来支撑系统运转。
数据所有者可将数据使用权质押到特定领域的数据池中,比如医疗病例池、金融交易池等等。质押后会获得DataDAO&数据代币,以此作为权益凭证。当AI训练需求方应用特定数据池支付的费用会按照比例自动分配给凭证的持有者,数据所有者还能参与DataDAO的治理,参与DLP运营规则、定价策略等共同决策。
这个数据流动性池和常见的DeFi交易池类似,会通过智能合约管理整个数据有效性验证、Pool访问权限、代币分配等等调度性工作。这些也是「数据双花」问题被有效解决的关键,让数据Token代币化实现所有权确权,让流程由智能合约全程记录和协调管理,以确保数据使用的可追溯性和收益分配的自动化。
Vana通过TEE安全飞地环境来解决数据隐私问题,TEE技术特性正是可以实现数据隐私保护前提下的「使用权」,可以实现数据经个人服务器存储、到数据经DLP池访问,再到数据训练使用整个过程中,TEE环境提供「端到端」的安全保护。
比如用户授权了一部分数据给DLP池,该部分数据会处于TEE隐私环境下,访问使用该数据的客户会被授予使用权进行训练,然而却无法对该数据进行备份窃取。
整个过程TEE能提供全程记录和隔离环境处理,确保数据在被使用的同时保持隐私性。TEE这种「可用不可见」的特性完美解决了隐私保护难题。除了此两大特性,Vana对数据Owner给予了完全的数据控制权,用户可以随时撤回或修改数据使用授权;
此外,Vana采用了清晰的分层技术架构:底层支持用户通过轻量化自保管或代理托管方式灵活存储数据;中间以DLP作为协议层,通过智能合约进行精细化的调度管理,包括数据流转、权限控制、收益分配等核心功能;顶层则对接各类AI应用场景,为大模型训练、数据分析等需求提供标准化接口。
这种分层设计既确保了数据主权,又实现了使用场景的可扩展性。
以上。
最后,补充一个观点,Vana为AI时代提供数据所有权的解决方案,是一个被AI场景催生的数据确权「老叙事」,属于整个AINarrative大潮中的重要一环。
Vana要构建的护城河在于,一旦其整个数据收集、使用、权益链条被打通,可能会向更广的场景和领域进行外延拓展。别忘了,数据所有权的大愿景可能会贯穿整个区块链和web3。