2007/03/22
1.概述在技术规范书中提出了“系统(以2×3.0G CPU、2G内存、2×146G 15KRPM硬盘配置档次的PC Server为标准)平均创建100万条记录索引的时间< 1小时;系统在创建索引时对主机的CPU和内存的占用率不得高于30%。;系统索引膨胀率小于2.5,最多不能超过3.0。”等索引方面技术和性能的要求。
根据TRS全文数据库的测试数据,在Dell2850 2xCPU,4G内存,10000转硬盘,Redhat AS4.0测试环境下,数据加载和索引速度单机最高可达每小时3.5G。
1、索引创建时间
索引创建时间跟被创建索引的记录数无关,由记录大小决定的,普通新闻稿记录,100万条基本上是2GB左右,如果按词索引,用时30分钟,按字索引用时60分钟,全冗余(字词混和)用时120分钟。据了解,114项目的数据记录内容较少,100万条应该在1G以内,若笼统的按半数大小,索引耗时应该在1小时左右。
2、CPU和内存的占有
这个值没有专门做过检查,但创建索引主要是对磁盘的读写繁忙,没有过多的计算,所以CPU的占用应该不会多,至于内存,介于内存的读写速度比硬盘快很多,所以会占用一定数量的内存缓存,考虑到100万条记录的大小不会超过1G,所以影响也不会大
3、索引空间膨胀率
目前测试情况,按膨胀率最高的全冗余(字词混和)模式创建索引,膨胀率接近3.0。
4.11成功的应用模式和丰富的应用经验
TRS 公司多年来服务于众多的关键信息系统建设,在应用集成能力和服务能力上得到了用户的认可。
如国务院新闻办三网一库的核心数据库建设、国家计委纵向网、卫生部信息发布网站,国家统计局综合网站信息服务系统,北京市劳动和社会保障局网站、外交部新闻监控采集系统、新华社多媒体数据库平台、中央人民广播电台网站内容管理平台、央视在线主持系统、人民日报资料库、中粮、中国五矿等等,我们对资源库建设、入库、编辑、生成、展示等整个信息的生产和服务的应用需求有着深刻的理解,这是领先其他公司的显著优势,通过这些服务,我们与客户建立了良好的合作关系,赢得了客户的信任。特别是我们为新华社多媒体数据库进行的提速工作,再次展现了公司在信息检索技术领域国际化的领先水平,我们通过并行检索、Bi-Gram索引、服务器群集和数据库智能化自我管理以及多层次Cache技术等,使得多媒体数据库在千万级数据库记录的综合查询性能获得了成倍的提高,这是对关键业务的关键性突破。
4.12专注的服务
TRS专注于咨询和开发服务,采用开放的体系结构、技术和产品,确保用户的利益,保护现有投资。
TRS公司专注于软件产品的提供和技术服务,在咨询和服务能力上居于领先地位,在本项目中,我们在关键性平台上采用了TRS成熟产品,并且保证提供开放的技术体系,提供完整和可扩充性,提供应用集成能力,同时根据用户需求,推荐针对应用的行业内具有优势的相关产品,总体设计方案强调系统组件的最佳组合,选择合适的技术和产品。
企业•广东移动搜索引擎服务
在广东移动搜索引擎服务的系统建设中,TRS重点解决了资源信息的整合和安全问题。
资源信息的整合包括了对办公自动化数据的整合、对论坛数据的整合、对CM系统数据的整合,通过整合,实现统一的检索入口,实现统一的Portal服务。此外,各种数据对原有系统中的权限(主要是Notes系统中的权限)得到了很好的继承,只有相关的授权用户才能对自己权限范围内的信息进行浏览和检索。

广东移动的搜索引擎从技术上可以分为三个部分:Notes业务平台,TRS检索系统,权限过滤和显示模块。用户进行全文检索首先在TRS中命中相应检索记录,然后通过权限过滤命中相应的数据集合,最终通过显示模块展示给相关人员经过安全验证的信息内容。
通过这种方式,Notes中的全部业务权限得到了充分的继承,有效体现了TRS企业搜索引擎的开放性和可集成能力,充分体现了TRS安全检索的概念。
通过共享资源库的建设,为内部工作人员提供了一个题材丰富的信息资源系统,采用TRS企业搜索引擎系统,将各部门信息资源整理加工,形成集公文、政务信息、行业规章、地方特色信息等资源的数据库,为各级领导提供决策服务参考,为相关工作人员提供信息快速查询平台。
安全检索和资源整合服务,使内部的信息得到有序的共享,并进一步优化了管理流程,实现“一站式”信息发布和办公服务模式。
CTI论坛编辑