集智俱乐部 09月23日
图神经网络模型预测初创企业成功率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

来自上海科技大学等机构的研究团队开发了一种基于图神经网络(GNN)的模型,该模型利用创业者和投资人之间的连接关系来预测初创企业的成功率。实证结果显示,该模型识别出的早期初创企业成功概率是专业投资者选择的两倍。研究团队已开源模型源代码,以支持实践应用和未来研究。文章还将分享该研究成果,并探讨网络科学在创业金融领域的应用。

💡 **创新图神经网络模型预测初创企业成功率:** 研究团队开发了一种新颖的图神经网络模型,通过分析创业者与投资人之间的动态连接关系,来预测初创企业的未来成功概率。与传统方法相比,该模型在识别高潜力早期初创企业方面表现出显著优势。

📈 **实证结果双倍提升成功预测率:** 该模型在实证研究中发现,其识别出的早期初创企业,最终实现成功的概率是专业投资者所选企业的两倍。这为风险投资领域提供了更科学、更精准的决策支持工具。

💻 **模型开源与实践应用支持:** 为了促进研究成果的广泛应用和进一步发展,研究团队已将该图神经网络模型的源代码公开。这使得其他研究者和实践者能够便捷地使用该模型,并在此基础上进行拓展和创新。

🌐 **跨机构合作与国际期刊发表:** 该研究由上海科技大学、西交利物浦大学、美国马里兰大学、香港城市大学等多家机构的学者联合完成,并发表在国际知名期刊《ACM Transactions on Intelligent Systems and Technology》上,体现了其学术价值和影响力。

原创 洪苏婷、张海鹏 2025-09-23 16:44 上海

本周六下午2点,作者亲自领读

导语

近日,由上海科技大学、西交利物浦大学、美国马里兰大学、香港城市大学等机构的学者组成的跨学科团队,在国际期刊《ACM Transactions on Intelligent Systems and Technology》上发表文章,基于创业者和投资人之间的连接关系,开发图神经网络模型,用于预测初创企业成功率,实证结果表明,该模型识别出的早期初创企业,其成功概率是专业投资者选择的两倍。该模型的源代码已开发,用于支持实践应用和未来研究。

本周六(9月27日)14:00-16:00将由论文作者洪苏婷、张海鹏在集智俱乐部主办的金融复杂性读书会上分享最新成果,主题为“基于网络科学视角的创业金融研究:特征、趋势与实证探索”,欢迎预约直播!

关键词:AI,图神经网络,创业网络

洪苏婷、张海鹏丨作者

长按海报识别图中二维码报名即可加入社群交流⬇️

文章题目:Help Me Screen: Analyzing and Predicting the Success of Start-ups in Dynamic Venture Capital Networks

文章网址:https://dl.acm.org/doi/10.1145/3763001

背景介绍

风险投资(venture capital, VC)为科技创新型企业的发展提供融资支持。根据Pitchbook数据统计,2024年全球风险投资总金额达到了3680亿美元。在美国,近五十年成立的上市公司中,有一半的企业曾接受了VC支持 (Gonarll & Strebulaev, 2021)在中国进行公开股票募集 (IPO) 的公司中,有超过30%曾获得风险投资 (Huang & Tian, 2020)。然而,即便是经验丰富的创业投资机构,依然难以准确预测科技创新企业的成功。本文的数据统计显示,全球所有在2007至2019获得了至少一轮风险投资的初创企业中,仅有1.88%的企业最终实现了IPO仅有13.54%的企业被收购。

预测科技创新型企业的成功存在诸多挑战。初创企业的营历史短、缺乏完善的财务与运营数据,加之成长迭代快、商业模式和战略常常调整,从而导致传统分析和估值模型难以适用。当前,投资机构对这类企业的评估多依赖投资者个人经验与主观判断,因而方法缺乏系统性,决策也充满不确定性

基于盖40年的全球VC数据集,本文将VC生态系统动态建模为由初创企业和个人构成的二部网络,考虑了历史时期的时间依赖性、VC网络的结构信息以及节点属性文将该模型应用于筛选识别具有成功潜力的期初创企业,其预测成功率是专业投资者选择的两倍。

模型与方法

图1模型整体框架

本文的模型构建方法由5个主要部分组成,包括VC投资网络构建(图1(a))、图自注意力学习(图3)、结合微调的增量图表征学习(图1(b)、序列图表征学习(图1(c)和成功预测(图1(d)

本文基于风险投资中的丰富节点和连接关系构建网络。本文的异构创业投资网络是一系列二部图,图中的节点有两种类型个人包括投资人或创业公司团队成员以及创业公司。2提供的示例所示该网络的连接由个人和创业公司之间由投资、雇佣/创立关系组成。初始网络G0考虑了至某一预设时间点之前的所有投资活动。此后,网络以增量方式逐步扩展,从而能够捕捉到投资格局的动态变化

2风投网络连接关系示例

本文采用自注意力机制在单个VC投资网络中进行节点层面的表示学习,以无监督方式更新新节点、边及其邻居的图嵌入受自然语言处理(NLP)应用中自注意力机制成功经验的启发 (Ashish et al., 2017),本文设计了一种图自注意力(Graph Self-attention, GST)神经网络,用于聚合投资者和初创团队成员的信息,从而在VC网络中获得更优的初创企业表示。与强调全局结构聚合的图自注意力框架不同,GST 更注重局部跳邻域 (n-hop neighborhood) 关系,同时减轻全局信息过载的问题。这一设计在VC网络中尤为关键,因为直接连接关系对预测初创企业的成功具有强大的解释力

3图自注意力学习Graph self-attention learning

具体而言,GST 的工作方式如下。假设在(l-1)次迭代中,所有节点的嵌入已经学习完毕,记作对于每条边(s-d),本文计算源节点s对目标节点t的重要性(即注意力)本文采用h头注意力机制,其中每个注意力头的值分别计算i头的注意力值ATT-headi(s,t)如下

其中为可训练的参数,用于将目标节点和源节点映射为查询向量和向量(s-t)的注意力值ATT-headi(s,t)定义为它们的点积。随后,通过(s-t)节点s传递到节点t的信息表示为

其中是一个可训练的参数,用于将原节点映射为向量,而参数用于聚合来自h个注意力头的信息在接收到来自所有邻居的聚合信息后,将节点t本身与其邻居的信息进行拼接(⊕),其中可训练参数为最终加入残差层,以获得在第l次迭代时目标节点t的嵌入,记为Hl[t]

本文提出了一种带有微调的表学习方法,对下游的成功预测任务具有良好效果。这种增量式策略能够在不同时间段内学习到处于同一维度空间的表示,从而保证其在后续应用中的可比性和稳健性。本文将这一增量表征学习问题构建为一个有监督的连接预测/节点分类任务,具体如下(1)使用GST(记为 GST-1)来获取Gt中新增节点的表示,并更新Gt-1时期已有节点的表示,:Rt=GST-1(Et-1)(2)这些学习得到的嵌入Rt可能并非最优,尤其是在新增节点的情况下,仅通过少量层级的邻居聚合所得到的表示可能存在不足。为了优化所有嵌入,本文设计了一种结合连接预测和节点分类任务的优化流程连接预测任务中,将所有新增的边作为训练集中的正样本,同时Gt中随机选取相同数量的不实际存在边作为负样本。在节点分类任务中,每个节点被标记为“初创企业”或“个人”两类之一。公式如下:

Rt[*]是节点*的表示,DecLP(u,v)预测u,v之间是否存在连接关系,DecNC(v)识别了节点v的类型。整体的损失函数为:

其中LLPLNC分别表示连接预测与节点分类的二元交叉熵损失,β用于平衡两者的贡献

在获得每个时间段的图表征之后,我们进一步捕捉这些时间段之间的依赖关系,以便为下游应用(在本文情境下为预测成功生成更优的初创企业表示。对于在第t时间段获得首次投资的初创企业,我们利用其前k个时间段的全部信息(在本研究中设定k为10个时间段),来预测该企业是否会取得成功

给定在各时间段中学习得到的嵌E(t-k),E(t-k+1),…,E(t)序列化的图表学习可写

表示从历史嵌入中学习得到的序列化表示,即LSTM的最后一个隐藏层输出

本文将对初创企业成功的预测问题设计为一个二元分类问题,其输入包括前一步骤学习得到的表示,以及节点属性(如投资者人口统计信息、行业领域等)。不同于直接将这些输入送入三层多层感知机(Multilayer PerceptronMLP)我们首先将其与GST(记为 GST-2)融合,然后将新的表示输入至 MLP。MLP 的前两层激活函数采用 tanh,最后一层采用 sigmoid。训练集在初创企业层面构建,其中部分初创企业在获得VC 投资后实现了成功退出(IPO或者被收购)而另一些则未能成功。

数据与实验

本文使用全球金融服务提供商晨星(Morningstar)旗下子公司Pitchbook收集的风险投资数据集,该数据涵盖了1977年至今全球范围内的创业投资交易,具有广泛的地理和行业跨度。本文的数据包含从1977年至2019年间全球共116,764家创业公司获得的187,346笔投资,并且涵盖了244,267名创始人或联合创始人以及62,424名投资人之前的雇佣和投资关系信息。

4(a)显示了收到不同轮次融资的创业公司数量和它们的成功率本文将成功定义为创业企业完成IPO或者被收购获得第一轮融资的公司的成功率是最低的,仅为15.71%,当创业公司进入后续融资轮次,其成功率随之上升。这也显示了在首轮融资时,预测企业最终成功退出的难度和重要价值。图4(b)4(c)分别显示了7个一级行业类别的创业公司占比和行业平均成功率。93.6%的创业公司属于IT、B2C、B2B或医疗保健(图4(b),相较于其它行业,医疗保健和IT行业的创业公司取得了较高的成功率(图4(c)。 

4. 数据描述

(a) 不同融资轮次下初创企业的数量及其对应的成功率标准差;(b)初创企业在不同行业领域的分布,其中 FS 表示金融服务业,M&R 表示材料与资源;(c)各行业领域的成功率及其标准

本文使用2007年至2014年全球创业投资首轮融资的数据来训练和测试模型。训练集包括从200711日至2008930日期间全球所有获得首轮风险投资的企业。鉴于完整的数据截止至2019年,使用该训练集,将有至少五年时间观测获得首轮融资企业的退出表现。验证集包括从2008101日至20131231日期间获得首轮风险投资的企业。验证集的数据将用以更新模型的一系列超参数,包括网络层数、网络节点数、迭代次数、学习率等。验证集的选择依据,是能够充分利用数据,在正样本之外,获取一定量负样本对模型参数进行更新,从而更好地评估模型的预测效果。本文的测试集包括从201411日到20141231日所有获得首轮融资的企业数据,对于其中的每个观测值,都有至少五年的观测窗口,标注其是否成功实现退出。

本文使用多种常见指标来评估预测任务的表现,包括精确率Precision召回率RecallF1 AUC(曲线下面积)。其中,精确率指在所有被预测为成功的初创企业中,实际成功的比例;相反,召回率表示在所有真实成功的初创企业中,模型正确预测到的比例。为了贴近现实中投资者需要从众多初创企业中进行选择的情境,本文采用Precision at K (AP@K)作为主要指标,用以衡量在模型按置信度排序所推荐的前 K 家初创企业中,实际成功的比例该指标的选择与已有的风险投资预测研究保持一致。进一步地,我们通过对一年中每月预测得到的 12  P@K 值取平均,来计算AP@K。较高的 AP@K 值意味着该模型可能成为一种有效的投资决策工具。

除了上文提到的模型,本文同时评估比较了多个模型的预测表现。所考虑的模型分为两大类:静态模型和动态模型。前者包括基于随机游走的嵌入方法node2vec、广泛使用的图卷积神经网络模型GCN、基于注意力机制的图神经网络GATs、作为传统机器学习方法的梯度提升决策树模型GBDT,以及一个用于初创企业成功预测的最新模型SHGMNN。相比之下,本文提出的方法以及两种时序图卷积网络模型EvolveGCN MPNNLSTM被归类为动态模型。为了对比,还构建了一个基准模型Human Investors,该模型模拟真实投资者在数据集中的表现。8种基准模型的具体介绍如下:

Human Investors:真实VC投资人的表现。在测试集中的所有初创企业中,如果某家初创企业根据记录获得了第二轮投资(表明真实投资者继续投资),那么 Human Investor 模拟器将判定该企业预测为成功。在 Human Investors 选择的这些企业中,最终有 10.7% 按照我们的标准取得了成(即完成IPO或者被收购)

GBDT:梯度提升决策树模型,通过提升方法集成多个决策树,在初创企业预测任务中被证明是有效的。我们使用XGBoost实现该模型,并采用结合网络信息与属性信息的特征向量。

node2vec:一种经典的节点嵌入方法,利用二阶随机游走来学习表示,广泛应用于节点分类、聚类和链路预测等任务。

GCN:一种静态图神经网络,通过图卷积聚合邻居信息,在图结构数据集上实现了最先进的性能。

GATs:一种静态图神经网络,利用注意力机制自适应地加权并整合邻居特征,从而缓解了 GCN 固有的过度平滑问题。

EvolveGCN:一种动态图神经网络,能够随时间动态调整 GCN 参数以捕捉图结构的演化,在时序图数据集上的表现优于静态模型。

MPNNLSTM:一种动态图神经网络,采用双层 LSTM 来建模长期时序依赖,能够跨时间步聚合历史与当前的节点特征,在许多时序预测任务中表现出色。

SHGMNN:一种图神经网络框架,通过端到端训练学习初创企业表示,并通过 MAP 推断来建模标签依赖。使用静态数据时,它在短期的 A 轮预测(通常在融资后2年内)中达到了当前最优性能SOTA,而这与我们设定的 5 年观察窗口来预测成功或失败形成对比。

表1比较了不同方法的预测表现。Human Investors的表现与传统的机器学习方法 GBDT 大体相当,但在与专门用于图建模的方法对比时则处于劣势。总体而言,本文的模型在几乎所有指标上都处于领先地位。就实践中更为重要的指标AP@而言,本文的模型取得了最高分,在 AP@10 上的表现比 Human Investors 高出 1.94 倍(20.8% 对比 10.7%)。尽管在召回率(Recall)上仅排在 8 个方法中的第 5 位,但这一不足通过较高的精确率(Precision)得以弥补,从而实现了最高的 F1 值和 AUC此外,在现实世界中,对于投资者而言,他们的首要任务是投资于少数几个高置信度的选择(以 AP@ 衡量),而不是找出所有最终会成功的初创企业(以召回率衡量)。有趣的是,在包括 EvolveGCN、MPNNLSTM、SHGMNN 以及我们的方法在内的图方法中,精准率召回率之间似乎存在一种权衡。与召回率表现最佳的 GATs(51.7%)相比,这些方法的召回率明显更低——EvolveGCN 为 44.1%,MPNNLSTM 为 37.9%,SHGMNN 为 23.2%,而我们的模型为 28.6%。然而,它们的精准率得分更高,从而带来了更高的 F1 分数。这表明,这些方法对图信息的更有效利用,可能帮助它们在选择具有成功潜力的公司时,做出更为谨慎和准确的决策

表1不同模型的预测表现

讨论与启示

2报告了本文所开发的模型对不同行业领域创业企业的预测精准率。所有这些行业中,我们的模型都优于 Human Investors,甚至在医疗健康领域的表现是 Human Investors 的三倍。进一步分析网络发现精确率较高的行业通常具有更好的连通性,即其更多关联节点落在最大连通分量(LCC)中。按照节点在 LCC 中比例(% in LCC)排序的前三个行业(IT、医疗健康和 B2C)的精确率明显高于排名靠后的两个行业(金融服务和 B2B)

表2模型在不同行业领域的预测表现

注:IT: Information Technology, B2C: Consumer Products and ServicesB2B: Business Products and Services

本文还对初创企业分布在 86 个国家中的前 5 个热门国家的预测结果进行了对比,每个国家每月选取 5 成功可能性最高的初创企业。如表3所示,本文的模型在这些国家的表现均优于 Human Investors,精确率在 10.0%  26.7% 之间。美国在 LCC 中的比例最高77.2%,其精确率也最高。在这些国家中,精确率总体上随着 LCC 占比的提高而增加(中国除外)

3. 模型在不同国家初创企业成功率预测中的表

本文进一步讨论了模型判定为重要的人员特征。我们使用图自注意力值来衡量节点的重要性。在前文测试集中的每家初创企业中,我们基于 GST-2 模型所生成的与该初创企业相关人员的自注意力值,识别出其中一位最重要的人员。随后,我们将这 5,652 重要人员的特征与测试集中其他人员进行比较。

如表4所示,重要人员往往拥有更高的教育背景。在这些重要人员中,66.1% 拥有学士及以上学位,而其他人员这一比例为 38.6%。其中,45.0% 的重要人员拥有硕士或博士学位,而其他人员中这一比例仅为 32.6%。这表明学术训练对于 VC 投资结果具有价值,尽管我们无法完全区分获取高等学位的正向效应与教育在筛选具有较强能力人群上的选择效应

表4测试集中重要人物的学历分布及其他人员的占比情况

此外,我们还发现重要人员在网络中的度中心性更高。具体而言,这些重要人员的平均度中心性为 4.83,而测试集中其他人员的平均值为 2.71。这与文献中强调的社交网络在创业成功中扮演关键作用的观点一致 (Hochberg et al., 2007)

参考文献

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need.Advances in Neural Information Processing Systems,30.

Gornall, W., & Strebulaev, I. A. (2021). The economic impact of venture capital: Evidence from public companies.Available at SSRN 2681841.

Hochberg, Y. V., Ljungqvist, A., & Lu, Y. (2007). Whom you know matters: Venture capital networks and investment performance.The journal of finance,62(1), 251-301.

Huang, Z., & Tian, X. (2020). China’s venture capital market.The Handbook of China’s Financial System, 383-418.

作者简介

洪苏婷,现任西交利物浦大学产金融合学院副教授。洪苏婷博士拥有美国德雷赛尔大学经济学博士学位,和南京大学金融学学士学位她的研究兴趣在金融与高科技创业的交叉领域,特别关注金融市场在支持创新型初创企业以及塑造人工智能、生物技术等新兴技术发展中的作用。她的研究成果发表在Journal of Financial and Quantitative Analysis》、《Entrepreneurship Theory & Practice》等国际学术期刊上,并获得国家自然科学基金和上海市科委的支持教学成果获得教育部和上海市教委的奖励及教育教学改革项目资助。

张海鹏博士是上海科技大学助理教授、研究员、博士生导师。他的研究主要聚焦于大规模人类行为数据的挖掘与建模,探索人类在金融投资、社交、人文构建等方面行为模式与内在机制。张博士的研究成果发表在包括WWWWSDMTKDDICWSMCIKMICMLICLRNeurIPSAAAIIJCAI在内的学术会议和期刊上,相关工作也曾被《新科学家》(New Scientist)杂志ACM 通讯Communications of the ACM)网站以及麻省理工科技评论中文版(MIT Tech Review报道,获得蚂蚁集团最佳论文奖、上海市金融学会青年课题一等奖,并入选《2024上海科技年鉴》。他于 2014 年在美国印第安纳大学获得计算机科学博士学位;2009 年获南京大学软件工程学士学位。

金融复杂性读书会

当前,全球金融系统正遭受多重不确定性冲击,如气候风险加剧、中美贸易摩擦及俄乌冲突等,导致金融系统复杂性与不确定性达到前所未有的高度。在金融复杂系统中,市场、机构及异质利益相关者的行为呈现非线性与网络化特征,常引发意想不到的结果。

正如“知己知彼,百战不殆”所言,我们需系统探究金融复杂系统的理论基础、量化识别方法、生成演化机制及风险治理路径,以更有效地认知、建模与决策。为此,集智俱乐部联合北京师范大学李红刚教授、爱尔兰都柏林圣三一学院Brain Lucey教授、中国地质大学(北京)黄书培副教授、首都师范大学王泽讲师、北京林业大学幸小云副教授及北京化工大学王欣雅副教授,共同发起“金融复杂性”主题读书会。读书会自2025年8月4日起,每周一19:00-21:00举行,预计持续10周。欢迎扫码加入,共建“金融复杂性”社区。

详情请见:如何有效建模金融复杂系统,做好风险管理与决策? | 金融复杂性读书会发布

推荐阅读

1. 从种子AI到奇点——人工智能的递归式自我改进

2. AI要“读懂”你?拆解登上Nature杂志的“半人马”AI心理模型

3. AI 的思维地图:揭秘大模型的“推理图”

4. 涌现动力学如何用来分析复杂系统? | 新课上线

5. 集智学园精品课程免费开放,解锁系统科学与 AI 新世界

6. 高考分数只是张入场券,你的科研冒险在这里启航!

7. 重整化群与非线性物理,寻找复杂系统跨尺度的分析方法丨新课发布

点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

图神经网络 创业金融 风险投资 初创企业成功率预测 网络科学 AI Graph Neural Network Entrepreneurial Finance Venture Capital Startup Success Prediction Network Science AI
相关文章