极速体育,足球即时比分直播

图片

北大方正:新华网内容管理系统数据中心解决方案
来源: 作者: 发布时间: 2005-11-03

一、行业应用

    项目背景 

  新华网作为国内最大新闻网站之一,凭借信息的真实、丰富、快捷等特点一直处于行业权威地位。为了适应信息快速发展的市场需求,更好的服务新闻领域,新华网不断完善采编流程,提高制作效率,增强网站的页面效果,更快更好的凸显新华网的优势。多年来,新华网坚持以内容为核心思想,强调数据内容管理过程,为了能够快速、自动、安全的管理并使用好这些数据,构建一个数据中心成为新华网新的需求。

  北大方正技术研究院自主知识产权的核心技术产品方正智思知识管理软件是方正技术研究院携多年积累的中文信息处理的技术精华,研发推出的一个中文智能信息挖掘与知识管理的软件开发包与服务系统。它根据新华网的具体特点,方正知思知识管理软件能够快速实现具有智能信息挖掘与知识管理功能的应用,帮助新华网完成海量信息的智能分析处理,推动新华网的信息化进程。


    需求分析

  项目总体目标是:新华网利用方正智思知识管理软件完成数据中心建设,具体体现功能为:数据采集、数据挖掘、数据加工推送、数据输出、数据管理等。通过数据中心整合新华网总网的数据和各地分网的数据,形成完整的不重复的内容。并且在这个基础上,利用数据挖掘与自然语言处理等先进技术,充分发挥新华网内容极其丰富的优势,构建以内容管理为中心的知识管理的系统,形成以知识为基础的数据自动处理与深度加工,从而提高工作效率、产生新的功能价值。

    新华网内容管理系统数据中心的功能分成几个部分:

    1、数据采集:采集原始数据进入数据中心,并在进入数据中心前进行智能化地敏感稿件分析、自动消重、自动分类、自动关键字与摘要提取等数据加工工作;

    2、数据挖掘:利用数据中心已存贮的信息进行分析挖掘,为编辑人员进行智能检索、专题制作、新闻追踪、热点分析等提供辅助支持;

    3、数据加工推送:当编辑进行稿件编辑时,数据中心为编辑人员提供服务,包括:为稿件提取关键字、摘要,推荐图片、多媒体及专题等;

    4、数据输出:对数据中心稿件及分析挖掘的结果按格式要求输出到指定文件存储位置以便WEB、电子邮件、短信等系统进行发布;

    5、数据管理:包括系统管理、权限控制等功能。

二、应用方案

该系统从功能需求上分为五大部分:数据采集、数据挖掘、数据服务、数据输出、数据管理。

应用系统采用多层客户端/服务器和浏览器/服务器结构,以IBM CM 8作为数据存储系统,采用“方正智思”知识管理产品实现应用需求。

三、体系结构

方正智思是一个中文智能信息挖掘与知识管理软件开发包。它是以方正多年积累的中文信息处理技术、中文自然语言理解技术和图形图像处理技术为基础,融合了最新的人工智能、信息检索、文本挖掘的研究成果,进行严格的产品化开发而形成的软件开发包。它提供对海量文档、图片、视音频等数字化内容进行智能检索、智能分析及智能化自动处理的功能。在其上可方便地进行应用系统的开发,快速实现具有智能信息挖掘与知识管理功能的应用。

四、产品特点

    1、全文检索

  全文检索是海量文档数据检索的重要而基础的技术手段。方正智思的全文检索引擎将企业的全文检索技术与WEB搜索技术相结合,大大提高检索引擎的性能指标。

    以基于中文分词的混合字词为索引单位;

    以索引项为单位的多信息域的索引方式;

    以hash table为基本索引映射方式;

    以分段逐层合并为索引组织模式;

    以分页延迟排序实现快速响应。

    丰富的检索功能与检索手段

  融合了多种相关技术,提供丰富的检索手段,除传统的表达式条件检索外,还提供基于中文词典支持智能查询。对检索结果集提供相关度排序、动态摘要、自动聚类构建树状结构等功能。该检索引擎在速度、准确性与功能丰富性方面具有领先的优势。

    2、自动分类

方正智思的自动分类引擎采用文档向量空间模型与分类算法的概率统计模型。其核心算法的基本原型是当前被学术界认为最好的SVM文本分类模型。算法在此模型基础上结合了智能学习的方法,采用了优化的算法实现技术,适合于文本及其他类型数据的快速分类。

    3、自动聚类

方正智思的自动聚类引擎采用文档向量空间模型与K-means聚类算法。针对文档与媒体数据的海量高维特性以及孤立点特性,引擎算法中融合了我们最新的研究成果,在处理海量文档及媒体数据时具有优异的品质。

    4、主题检索/追踪

  方正智思的主题检测/追踪引擎采用了最新的国际研究成果,引入新的时间窗算法,结合我们在中文信息处理方面的优势而实现的引擎核心,它对中英文文章均具有很好实用性能。实际应用系统中,在该引擎核心上可实现对新闻事件的分析,辅助进行专题报道,快速识别新事件、追踪热点事件。

    5、相关推荐与消重

    自动文本消重是利用文档的内在特征信息进行智能分析,判断文档的相似性与重复性。方正智思的文本文档自动消重引擎采用了我们最新的文章相似度量技术与相似索引技术的研究成果,适合于海量文档场合的快速相似判断。方正智思的这一引擎功能同样适用于图像的消重与相似检索。

    6、关联分析与趋势分析

   关联分析是从海量数据中挖掘信息之间的关联关系,趋势分析是实现与时间相关的分析。

    7、自动摘要与自动关键词提取

  自动摘要是通过智能的手段为文档自动形成摘要的技术。自动关键词提取是通过智能的手段为文档自动提取关键词的技术。方正智思的自动摘要与自动关键词提取引擎采用了我们在篇章分析与指代消解方面的最新研究成果,大大提高摘要与关键词的准确性与可读性。同时,该引擎提供静态摘要与动态摘要的功能。

    8、基于图片内容检索

  传统的图片检索主要是通过图片的描述信息进行检索,方正智思的图片检索引擎不仅提供基于图片描述的检索,还提供对图片内容的检索,如:颜色、纹理、以及整体相似性的检索,以及结合描述信息与内容信息的综合检索。该引擎中采用了我们的特征提取技术与索引技术的研究成果,能够从海量数据中进行快速检索。

    9、视频检索

  方正智思的视频检索引擎不仅提供基于视频描述的检索,还提供对视频内容的检索,如:关键帧、场景、主题,以及结合描述与内容的综合检索。该引擎中采用了我们的特征提取技术与索引技术的研究成果,能够从海量数据中进行快速检索。

五、小结

  新华网利用方正智思知识管理软件,建设以知识管理为特征的数据中心,不仅有效的整合了总网与各分网的数据,而且通过智能化的手段,实现了稿件自动消重、自动分类、自动摘要等工作,大大降低了编辑的工作强度。另外,新华网通过方正智思知识管理软件实现了智能检索、聚类分析、主题追踪等功能,很好的实现了专题深度报道、热点分析等新的功能,对于提高新闻报道的质量起到了很大的推动作用。

地方动态

中国信息协会会长王金平出席2024低空经济发展大会

2024中国国际大数据产业博览会“数字政府”交流活动在贵阳成功举办

中国信息协会数据要素专业委员会正式成立

王金平会长出席2024太阳岛企业家年会,中国信息协会通航分会与新华网携手推动低空经济新篇章

  • 协会要闻
  • 通知公告