Z Potentials 2025-11-03 11:58 北京
“那些高质量数据长期处于碎片化、高敏感或难以获取的领域。在这些地方,数据主权和信任的重要性往往超过了单纯的模型算力或通用能力。”
图片来源:unsplash
Z Highlights
当基础设施提供商同时成为最强劲的竞争对手时,初创企业唯一能构建防御性的路径,是在“数据的围墙花园”中播种。
我看到,真正的护城河不在于模型本身,而在于那些耗时多年、精心构建、无人能复制的数据体系。
模型规模和算力的竞赛终将趋同,唯有掌握高质量、稀缺且可信的数据,才能在AI版图中建立持久优势。
当基础设施向“上层”攀升
当生成式人工智能首次进入主流视野时,像OpenAI和Anthropic这样的公司主要被视为基础设施提供商。开发者被鼓励在它们之上进行构建,并希望AI模型将成为一个庞大的全新应用生态系统的基础层。但如今,这些公司正持续向技术栈更上层进军。
以OpenAI最近发布的Sora2为例——这是一款面向消费者的视频生成应用。曾经那种仅仅提供“文本生成视频”这一原始能力的公司,如今开始将这种能力打包成直接面向终端用户的体验,与那些自认为还有空间构建应用的初创公司正面竞争。同样地,Anthropic也推出了Claude Teams,这不仅仅是提供Claude模型的API接口,还为企业提供现成的生产力套件。
你可以把这些模型公司视为农场。它们过去向餐厅(即初创公司)出售食材,由餐厅烹饪成菜(即开发各种AI应用)。但现在,农场自己也在经营餐厅。所以,如果你想在这样的环境中脱颖而出,要么用相同的食材做出更好的菜,要么找到别人拿不到的独特食材。
这引出了一个关键的战略问题:当基础设施提供商同时也是最强劲的竞争对手时,初创企业该如何构建一个具有防御性的商业模式?
我们的答案是:在“数据的围墙花园”中播种。在这种情况下,数据的围墙花园是指那些信息访问受到限制、具有专有性和高度价值的领域——在这些领域中,数据的排他性本身就构成了护城河。这样的数据集通常具备以下特征:
专有性:无法在开放网络上免费获取;
受监管或敏感性:需要通过合规、许可或资质认证才获取访问权限;
动态且经精选:持续更新并经过验证。
在明确这一概念后,让我们来看两个实例:法律领域的VLex和医学领域的OpenEvidence。
VLex与OpenEvidence:数据护城河的典型案例
西班牙的法律软件公司VLex成立于2000年,起初通过构建一个综合性法律内容平台,并将新兴技术应用于法律检索领域,从而“革新法律信息的获取方式”。西班牙的法院判决、法规与行政命令长期分散在不同地区的司法辖区中,且多数文件无法以机器可读格式获得。多年来,VLex系统性地收购、授权并数字化了这些资料,有效地建立起欧洲最全面的法律数据库之一。它的成果类似于“LexisNexis+Westlaw+BloombergLaw”的组合,专注于西班牙法律体系的历史全貌。
当生成式AI模型变得可行时,VLex已经积累了涵盖数十年判决和评论的专有法律数据语料库。这为它打造原生AI法律检索工具提供了坚实的支撑。与通用大模型不同,VLex的系统能够真正基于权威、完整且实时更新的法律文本进行推理。它的护城河并不在于模型本身,而在于那套耗时多年、精心构建的数据体系——无人能复制。
换句话说,一个要撰写最优法律辩护文书的律师,必须能查阅所有合法且具判例价值的内容。一个通用大模型——即使如OpenAI那样强大——也可能生成语言精妙但缺乏关键案例支撑的论点。而在法律领域,遗漏几条历史判例,可能就意味着从胜诉到败诉的差别。
如果说法律领域的代价已经足够高,那么在医学领域,风险会更高。OpenEvidence在医疗领域采取了与VLex类似的战略。尽管网络上充斥着大量健康相关信息,但大多数都是未经验证或面向消费者的内容(例如WebMD上的通俗文章或论坛帖子)。而临床医生依赖的是同行评审论文、系统性综述以及临床指南——这些内容往往被锁在Elsevier等付费墙之后,或仅限于医疗机构访问。
OpenEvidence花费数年时间,建立合作关系、签署授权协议,并开发数据摄取管道,从而形成一个结构化的高可信医学研究数据库。在此基础上,它的AI能够以基于证据的精确性回答复杂的临床问题,而非像通用模型那样幻觉或依赖不完整的公开数据。在医学领域,信任与准确性是生存根本。因此,这个“数据围墙花园”不仅是一种护城河,更带来了远超通用模型的用户体验。毕竟,当你研究自己的病症时,你更希望得到科学依据的回答,而不是陷入WebMD上那种“病情越查越焦虑”的信息深渊。
这些故事展现了独有且难以获取数据的力量。然而,机遇远不止于法律或医学。在各行各业中,仍有大量碎片化数据集尚无人整合——它们正等待被培育为新的数据围墙花园,成为下一代AI原生公司的根基。接下来,让我们看看几个潜在方向。
潜在的“全新型”数据围墙花园
1.供应链与物流
现状:船运清单、港口记录、报关文件,以及卡车与铁路物流数据分散在不同系统中,且数字化程度低。
机遇:一家初创公司若能整合并清洗全球贸易的专有数据,便可构建一层AI智能层,用于预测性供应链管理、贸易金融或地缘政治风险建模。
为何尚属开放领域:马士基、Flexport等企业各自掌握部分数据,但尚无任何机构拥有完整的全球贸易语料。
2.地方与市政政府记录
现状:建筑许可、分区申请、环境影响报告、检查记录等数据散落在成千上万的地方政府体系中。
机遇:初创公司可以系统性地爬取、数字化并标准化这些数据,形成面向房地产、基础设施与能源开发商的专有数据围墙花园。
为何尚属开放领域:LexisNexis与Westlaw已掌握判例法,但无人大规模整合地方监管数据。
3.前沿科学领域
现状:合成生物学、量子材料与先进化学等领域的研究成果,分散在不同期刊与实验室数据库中。
机遇:若能将实验结果与预印本论文汇聚为结构化数据集,即可训练AI模型,加速科研创新与R&D进程。
为何尚属开放领域:与医学领域(由Elsevier与PubMed主导)不同,前沿科学的知识生态仍相对分散,尚待占领。
4.文化与创意档案
现状:博物馆、历史学会与文化档案馆拥有海量收藏(图像、手稿、录音),但大多仍处于碎片化、未数字化状态,或封存在孤立的数据孤岛中。
机遇:企业可通过数据授权与结构化处理,将这些资源转化为训练AI模型的数据底座,用于文化遗产保护、教育或娱乐应用(如高拟真历史沉浸式体验)。
为何尚属开放领域:这些资源大多未被有效商业化,仍处于线下机构内部,且缺乏AI化意愿。
5.垂直细分行业流程
现状:许多行业产生专有但非结构化的数据,例如兽医病例、建筑蓝图、小众制造规范等。
机遇:初创公司可瞄准这些被大公司忽视的细分垂直市场,通过数据排他性建立竞争防御力。
为何尚属开放领域:行业巨头通常认为这些细分市场规模有限,不值得打造数据围墙;然而AI的加入可能使其重新焕发商业价值。
6.气候与环境数据
现状:气候与排放数据分散于政府机构、非政府组织(NGOs)与科研机构,且往往以PDF等不可读格式存储。
机遇:企业可通过授权整合排放量、供应链碳强度、地方气候风险等数据,建立专有气候数据语料库。若结构化得当,这些数据可支撑AI产品,用于合规报告(如美国证券交易委员会气候信息披露)、风险评估与保险定价、或清洁能源项目开发。
为何尚属开放领域:至今尚无类似“气候领域的彭博”的统一数据平台。
为什么这很重要:通往可防御性的路径
模型公司永远会在模型规模更大、计算资源更强和分发渠道更广上占据优势——这三项是初创企业很难赢的赛道。
但在某些生态系统中,却存在着另一种破口:那些高质量数据长期处于碎片化、高敏感或难以获取的领域。在这些地方,数据主权和信任的重要性往往超过了单纯的模型算力或通用能力。
构建新的数据护城河并不容易——它需要巨大的前期投入和极为细致的基础建设,包括在不同公司、政府与机构之间达成授权协议或数据交易。但一旦成功,这样的体系几乎无法被复制,能够在竞争激烈的人工智能版图中形成少数真正持久且可防御的优势。
你是否正在打造下一个数据护城河?我们非常期待听到你的故事。
原文:Fruits of the Walled Garden——Marc Andrusko and Alex Rampellhttps://a16z.com/fruits-of-the-walled-garden/编泽:Chang Sun请注意,本文编译自文未载明的原始链接,不代表ZPotentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。
Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们滅邀对未来充满懂漫的您加入我们的社群,与我们共同分享、学习、成长。
-----------END-----------🚀 我们正在招募新一期的实习生🚀 我们正在寻找有创造力的00后创业关于Z Potentials