原创 Jina AI 2025-05-29 11:25 北京
只许你vibe coding,不许我vibe testing?

🔍 氛围测试对于评估向量模型在无标注样本和新领域的表现至关重要,而 Jina AI 内部工具 Correlations 可以帮助用户进行定性分析和模式探索。
📊 Correlations 通过生成交互式热图展示内容片段之间的余弦相似度,用户可以直观地分析相似性模式,并进行悬停检查、区域选择和阈值过滤等操作。
🧩 Correlations 支持多种内容类型和分块策略,可用于内容去重、验证引文、分块策略探索和跨模态分析等场景,为向量模型调试和优化提供有力支持。
📈 Correlations 还可以用于提取一些指标,如矩阵密度、特征值分布、矩阵秩和条件数等,以量化地描述内容之间的关系,并识别最具代表性的语义簇。
原创 Jina AI 2025-05-29 11:25 北京
只许你vibe coding,不许我vibe testing?
npm run embed
先调用 Jina Embeddings API 生成向量,它提供了多种灵活的内容分块策略,可以按换行符、标点符号、固定字符数,也可以按自定义的正则表达式模式切分输入。第二步:npm run corr
这一步会在你的浏览器中启动一个用户界面(UI),以动态交互的热图形式直观展示向量间的相关性。快速上手体验:npm installexport JINA_API_KEY=your_jina_key_herenpm run embed -- https://jina.ai/news/jina-embeddings-v3-a-frontier-multilingual-embedding-model -o v3-blog.jsonl -t retrieval.querynpm run embed -- https://arxiv.org/pdf/2409.10173 -o v3-arxiv.jsonl -t retrieval.passagenpm run corr -- v3-blog.jsonl v3-arxiv.jsonl
JINA_API_KEY
主要是在你需要利用 Jina API 生成向量或从网络链接(URL)读取内容时派上用场。工具本身也完全支持直接读取本地的文本文件。如果你手头已经有了预先计算好的向量数据(遵循特定的 JSONL 格式),那么完全可以跳过第一步,直接运行 npm run corr 命令进行可视化分析。这种情况下,自然也就不再需要 JINA_API_KEY 了。无论是对单一数据集内部的内容进行自相关分析,还是比较两个不同数据集之间的互相关性,Correlations 都能轻松拿捏。用例1. 内容去重和对齐分析譬如,以我们自家jina-embeddings-v3
模型的学术论文和对应的官方技术博客为例。通过 Correlations 生成的热图,可以观察到,它呈现出清晰的对角线模式。这种对角线模式直观地显示了两份文档间内容块的高度对齐,也说明技术章节中存在内容复用,尤其是在描述 LoRA 任务类型的技术部分中。这种直观的验证,比单纯的数字报告更具说服力。2. 验证引文和参考文献在检索增强生成(RAG)系统中,一个绕不开的问题是:如何确保检索到的段落确实支持了模型生成的内容?Correlations 在这里提供了一种直观的校验方法,它计算并展示检索段落与生成声明之间的相似度,帮助我们判断引文是否准确。实际上,这种基于相似性的分析方法本身就十分强大且直观,尤其是在探索大规模数据集时。它能帮助我们把相似的东西归到一起,从而发现数据中隐藏的模式和规律。3. 分块策略探索如何对内容进行分块(chunking)是一个很讲究的事情,不同的分割方法(比如是否启用迟分(Late Chunking))会直接影响语义的连贯性。Correlations 能直观地展示出不同策略下相似性模式的变化,帮助评估和选择更合适的内容块边界,也让优化分块这件事更有依据,能省去不少反复调试分块策略的功夫。4. 跨模态分析现在多模态应用越来越普遍,一个基本的需求就是分析文本和图像之间的关联性。当配合jina-clip-v2
这类多模态模型时,Correlations 的能力就不再局限于文本,同样可以处理图像向量。这样一来,我们就能直观地分析文本与图像间的相关性模式,也为多模态应用提供了一种实用的可视化分析途径。向量模型可视化相关工作当我们在处理高维向量时,一个老大难问题,就是它们的可解释性。市面上已经有不少向量模型的可视化技术,各有各的侧重点和适用场景。这些方法大致可以这么归类:有些是 基于降维的方法:大家可能都熟悉 PCA、t-SNE、UMAP 这些,它们做的事情就是把高维空间“压扁”到我们能直观感受的 2D 或 3D。还有些是 基于交互式探索的方法:比如 Parallax 和 TextEssence 这样的工具,用户可以直接操作和探索数据,自己去发现里面的门道。另外,也有 特定领域的解决方案:像 Clustergrammer,主要针对生物数据这种特定类型的数据。最后一种,就是 直接相似性可视化:Correlations 采用的就是这种思路,通过热图来直接展示。这种方法的特点是,它力求保留所有内容片段之间的完整成对关系信息。也就是说,当我们需要细致地调试文本相似性,或者分析不同内容块之间的对齐情况时,Correlations 能提供一个非常直接的视角。比如当你想知道“这两个具体的东西到底有多像”并且想看到“所有东西两两之间有多像”时,它就派上用场了。这与那些依赖降维(可能会丢失一些细节信息)或者侧重宏观探索的方法形成了有益的补充。为了更清晰地了解 Correlations 在整个可视化工具生态中的位置,我们可以看看下面这个表,它列举了一些常见工具及其主要特点和用途:AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑