企业 AI 数据优化新工具 Blockify 5 月 9 日由 akshay_pachaar 整理推广、宣称在 RAG(Retrieval-Augmented Generation)流程中、可把企业数据库压缩 40 倍、查询 token 用量减 3 倍、向量搜索准确率提升 2.3 倍。Blockify 官方 GitHub 说明:产品由 Iternal Technologies 推出、用「IdeaBlock」结构化知识单元取代传统 chunking、并通过去重合并让知识库保持精简、连贯、可治理。
核心概念:用 IdeaBlock 取代传统 chunking
Blockify 的技术设计:
传统做法:把长文件切成固定大小的 chunk、嵌入向量、检索时取 top-k
Blockify 做法:把原始内容转换为 IdeaBlock—XML 结构化知识单元
每个 IdeaBlock 内含:自带问题、可信答案、tag、实体、关键词
相似 IdeaBlock 自动去重合并、知识库不会随内容增长膨胀
传统 chunking 的问题是同一信息可能在多个 chunk 中重复出现、造成检索冗余与 token 浪费;IdeaBlock 通过去重把信息密度提升、同样内容用更小的存储空间表达。
具体效益:压缩 40 倍、token 减 3 倍、准确率升 2.3 倍
Blockify 公布的具体效益指标:
数据压缩:企业数据库缩减至原大小约 2.5%(40 倍压缩)、保留 99% 以上信息
每次查询 token:从约 303 个(传统 chunk)降至约 98 个(IdeaBlock)—3.09 倍效率
向量检索准确率:提升 2.29 倍
整体准确率改善:约 78 倍(含去重与检索改进综合效应)
成本节省试算:1 亿次查询/年、节省 token 成本约 73.8 万美元
78 倍的整体准确率提升是综合效应—去重减少噪音、IdeaBlock 结构化内容对向量检索友善、单次回答 token 数下降同时减少模型出错空间。
整合范围:LlamaIndex、LangChain、Milvus、Cloudflare 等主流框架
Blockify 已整合的开发者工具与基础设施:
RAG 框架:LlamaIndex、LangChain
知识管理:Obsidian
向量数据库:Milvus、Elastic、Supabase
边缘运算:Cloudflare
低代码整合:n8n(通过工作流程模板)
Blockify 的整合策略是「不取代既有 RAG 框架、而是作为前置数据优化层」。开发者可在现有 LlamaIndex 或 LangChain 流程中、用 Blockify 替换原本的 chunking 步骤,其余流程不变。
后续可追踪的具体事件:Blockify GitHub 星数增长与社群采用率、Iternal Technologies 是否就 IdeaBlock 结构申请或披露技术细节(目前标榜「patented ingestion」)、以及主流 RAG 框架是否将类似去重逻辑内建为默认功能。
这篇文章 Blockify 改写企业 RAG:用 IdeaBlock 取代 chunking、压缩 40 倍、token 减 3 倍 最早出现在 链新闻 ABMedia。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
阿里云今日推出团队代币计划,包含 10+ 个模型
Beating称,阿里云今天推出其团队代币计划,为 10+ 大型语言模型提供订阅,包括 Qwen 3.6、Kimi-K2.6、GLM-5.1 和 Wan 2.7。用户可以为代码生成、图像合成和其他任务在模型之间灵活切换。 团队版本通过企业管理功能区别于个人计划。管理员可以管理座位分配、跟踪使用情况,并在三个层级中设置预算控制:Standard、Premium 和 Elite。该平台包含多租户隔离以及企业级数据隐私保护,并与主要 AI 工具兼容,包括 Claude Code 和 Cursor。
GateNews4小时前
东莞将在 2025 年生产全球一半的 AI 眼镜
根据研究机构 Omdia 的数据,2025 年,东莞本地公司共出货超过 400 万副 AI 眼镜,占全球 870 万副总量的近一半。该广东城市按出货量在全球排名第一,同时全球 AI 眼镜出货量较前一年增长 322%。 东莞的市场地位与政府支持 东莞在 AI 眼镜制造方面的领先地位,既体现了其既有的电子产业基础,也反映了近期的政策举措。东莞近期推出了一系列措施,支持 XR 智能终端,覆盖技术、企业发展、应用和资金等领域。 东莞市常务副市长曾建鹏将该市的实力归因于其已建立的电子供应链,该供应链既服务于代工制造商,也服务于本地品牌。 制造生态系统:中小型生产商 东莞 AI 眼镜热潮由中国珠江三角洲地区更广泛的一组 6 到 8 家中小型制造商共同推动。许多公司采用“双模式”策略:一方面以自有品牌销售低成本产品;另一方面承接代工业务,为面向商用与消费市场的原始设计制造(ODM)客户提供服务。该模式在实现销量增长的同时,也有助于分散财务风险。 较低的研发成本支撑了这一制造模式。根据行业参与者的说法,公司可用少于 1,000 万元人民币(约 141 万美元)的成本打造新款 AI 眼镜,并且每 6 个
Crypto Frontier7小时前
UXLINK 集成 Origins Network 的 AI 计算基础设施,用于 Web3 扩容
据 UXLINK 于 5 月 11 日发布的官方公告,这一 Web3 社交协议宣布与 Origins Network 达成战略合作,旨在将去中心化的 AI 计算基础设施整合到其生态系统中。该合作旨在通过引入 Origins Network 的模块化区块链基础设施来增强 UXLINK 的平台,提高面向 AI 驱动的去中心化应用的计算能力。 此次整合将利用 Origins Network 的 Proof-of-Computation 机制以及去中心化 GPU 计算,以提升 AI 模型训练、数据处理和交易效率,同时降低运营成本。支持社交去中心化交易所交易、流动性质押以及 AI 驱动应用的 UXLINK 平台,将通过此次合作获得更好的可扩展性和跨链功能。
GateNews11小时前
腾讯云在上线当天为 50,000 名用户提供 Ryt Bank 的 AI 银行业务
据腾讯云称,5月11日,该公司与马来西亚的数字银行 Ryt Bank 达成合作,使用腾讯云 Chat 为其由 AI 驱动的对话式银行服务提供实时消息支持。该系统在上线当天无宕机运行,处理了 50,000 名活跃用户,使客户能够用通俗语言发出支付指令,而无需浏览应用菜单。Ryt Bank 在超过七个月内已覆盖 120 万用户。
GateNews12小时前
Reactor 发布实时世界模型演示,获得 780 万次浏览
据 Beating 称,Reactor 于今天推出其实时世界模型演示,使用户能够通过基于云的 AI 处理生成交互式 3D 场景。该模型运行在公司全球低延迟云基础设施上,无需本地硬件。在一段演示视频中,红色跑车穿行于外星沙漠景观之中,AI 在实时渲染地形物理效果与远处的行星物体的同时,还跟踪玩家的操控,吸引了超过 780 万次观看。
GateNews13小时前
Minara 今日推出首个 Hyperliquid HIP-4 预测市场 AI Copilot
据 BlockBeats,Minara AI 于今日(5 月 11 日)推出 AI Prediction Copilot,成为首个与 Hyperliquid 的 HIP-4 市场集成的预测市场 AI 工具。该系统分析 BTC 的短期趋势、支撑与阻力位,以及市场定价偏差,以提供 YES/NO 交易建议。Copilot 会实时输出 AI 概率、市场隐含概率、优势值以及预期收益。
GateNews13小时前