中国工程论文网
代写工程论文
当前位置:工程论文网 > 工程硕士论文 > 软件工程硕士论文 > 资本市场企业信息系统人物和企业关系图谱的软件设计与实现

资本市场企业信息系统人物和企业关系图谱的软件设计与实现

时间:2018-01-18 18:20来源:www.e-lunwen.com 作者:lgg 点击:
本文是软件工程论文,本课题研究的主要内容是,在资本市场领域,如何利用信息抽取技术,针对网络上的多源异构数据(包括结构化、半结构化和非结构化),提取出其中与证券交易
第 1 章 绪 论
 
1.1 课题背景及研究的目的和意义
资本市场风云变幻,面对着错综复杂的企业与人物关系和日益增长的行业数据,如何利用计算机技术准确而高效地对信息进行整合与组织已成为监管机构所关注的重点。知识图谱作为一种新兴的信息组织方式,自 2012 年谷歌发布至今已经引起了学术界与工业界广泛的关注。本课题尝试将知识图谱技术应用于资本市场,以企业和人物实体为点、以人物和企业之间的资本关系为实体连接边,从而构建一张面向资本市场的关系图谱,以期提供更加全面和立体的信息展示及业务建模基础。本课题《资本市场企业信息系统人物和企业关系图谱的设计与实现》来源于深圳证券交易所下属子公司深圳证券信息有限公司,是该公司建设资本市场人物和企业数据库项目的子项目。本课题所设计和实现的关系图谱是该项目的重要组成部分。主要工作是应用信息抽取技术,从工商信息、新闻报道、行业研究报告、公司公告等多种方式获取的多源异构数据中提取出结构化的实体关联关系,并以此构建资本市场人物和企业的关系图谱。近年来,计算机网络与信息技术持续快速发展,不断渗透并深刻影响着社会的各个行业和领域,随之而来的是网络世界数据的爆炸式增长。国际数据公司(IDC)的研究报告[1]显示,2011 年,全球被创建和复制的数据总量为 1.8ZB(约1.8 万亿 GB),并且这个数字正以每年超过 50%的速度增加,预计到 2020 年全球数据总量将超过 40ZB。可以说,数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘与运用,预示着新一波生产率增长和消费者盈余浪潮的到来。而这,正是大数据时代产生的深刻背景。在互联网+大数据时代,不论是在商业、经济或是其他领域中,决策将日益基于数据和分析而做出,而并非基于经验和直觉。时至今日,大数据或者说大数据的思维已经深刻影响到了许多行业。在商业领域,企业通过数据分析制定广告策略,从而实现精准投放;在媒体行业,门户网站通过分析用户行为数据,对其进行个性化推荐;在体育竞技行业,大数据可以用于提升运动员训练效果,并了解自身及对手竞技状态……而最近几年,随着大数据技术在信贷、消费等领域个人“用户画像”的成功应用,在金融监管及投资融资领域,如何为一个企业对象进行全方位、深层次,多角度的刻画与展示成为了金融行业的一个新热点。本课题研究涉及的项目正是在这样的背景下提出。
..........
 
1.2 课题相关领域的国内外研究现状
本文研究课题主要面向资本市场的多源异构数据(包括结构化、半结构化或非结构化数据)进行信息提取,并针对目标对象进行属性及关联关系分析,最后以实体关联图谱的形式展现。因此从文本处理的角度看,主要涉及命名实体识别、实体关系抽取等方面的技术,从关系图谱的构建来看,主要涉及知识图谱的研究。下面将分别针对这几种技术作简要介绍。命名实体识别(Named Entity Recognition,简称 NER),是指从文本中分辨提取出各类命名实体的任务。在信息抽取(Information Extraction)领域,命名实体(Named Entities)是文本语句中的基本元素。命名实体识别任务旨在从文本语句中识别人名(person names, PER)、地名(locations, LOC),机构名(organizations,ORG),时间表达( temporal, TIMEX)以及数字表达( number expressions,NUMEX)等文本实体[2]。从本质上来说,命名实体识别任务的目的在于识别并提取出文本中一切具有独立意义的名词片段。命名实体识别是文本挖掘、信息提取、机器翻译等领域的重要基础性工作。命名实体识别最初于1995年在MUC-6(Message Understanding Conference)上作为一个子任务提出的[3]。由于英文命名实体的识别中只需考虑词本身的特征而不涉及分词问题,因此实现难度相对较低。根据 MUC 以及 ACE(AutomaticContent Extraction)的评测结果,测试的准确率、召回率及 F 值目前大多可以达到 90%左右[4]。在 MUC-7 的评测中,Language Technology Group Summary所开发的命名实体识别系统取得第一名,评测的准确率及召回率分别为 95%和92%[5,6]。早期的命名实体识别方法多采用手工构造有限状态机的方法,通过字符串的模式匹配来达到识别的目的。这种识别方法是典型的基于规则的思路,需要有相关领域专家给出的比较成熟而准确的匹配模板,但由于规则始终有限,相对于文本规模近似无限的实际应用场景来说,其准确率及召回率会明显降低,如 MUC-7 上展示的 FACILE[7]系统。此外,除了基于规则的方法,以统计学理论为基础的命名实体识别方案是目前学术界更为关注的方法。基于统计的方法主要有 n 元模型、隐马尔科夫模型(HMM:Hidden Markov Model)、最大熵模型(ME:Maximum Entropy Model)、决策树(Decision Tree)、基于转换的学习方法、推进方法以及条件马尔科夫模型等[8]。
..........
 
第 2 章 资本市场企业信息系统需求分析与总体设计
 
本课题所设计与实现的人物和企业关系图谱基于实际的资本市场企业信息系统项目开发,系统需求来自深圳证券交易所内部监管业务,本系统需要对资本市场的参与实体进行全方位的数据刻画,并且根据数据建立刻画模型最终在系统中提供查询和展示。
 
2.1 系统整体需求分析
资本市场企业信息系统系统聚焦资本市场、紧密围绕深交所监管需求,在总体业务需求上分为基础功能和智能监管两大层次。前者从基本信息与资质、关联方图谱、诉讼处罚、经营情况、网络舆情等五个环节将重点企业及人物相关信息进行全息展示,并提供多角度便捷的查询服务;后者则针对关联方风险、任职资格、并购重组及定增、行业信批、市场监察、IPO 审核等重要业务场景提供针对性的异常点识别和告警服务,主动向用户推送相关风险提示。如图 2-1所示:同时,本系统还要求充分考虑可视化和功能角度的易用性,实现关联方拓扑图、统计图表、逐点逐层链接、定制化告警等便捷功能。并且充分考虑系统的安全性,所有环节均落地部署在所内,做到对用户行为的充分保密。本系统所依赖的数据源可分为权威和非权威两类。前者包括工商登记、诉讼、行政处罚、专利软著、商标、统计、税务等等,后者包括新闻、微博、微信、贴吧、论坛、招聘等从互联网公开环境采集加工的数据。获取方式包括网页爬虫自行爬取和购买两类,而实施策略上则应结合业务需要与成本综合考虑,重要常用信息应全量采集落地,高成本非常用信息则可按需获取。根据本系统的总体需求层次,在所有基础功能实现之后才可以进行高层次的智能监管部分的应用开发,因而系统在现阶段的主要开发目标是实现基础功能需求。
.........
 
2.2 关系图谱需求分析
在整个系统中,关系图谱是核心功能之一。从用户的角度来说,关系图谱是了解一个公司在资本市场中的定位以及公司资本结构的形象化展示,通过关系图谱,用户可以直观地获取公司的基本信息,如名称、法人、董监高人员等,其次用户可以获取公司的法定资本构成信息,如上层公司持股或个人持股、公司投资构成以及公司的子公司/分公司,甚至是产业上下游的供应链关系。从而,通过一张关系图谱,用户能够非常清晰地把握一家公司在资本市场的活跃度和复杂的资本关系,不仅服务于基础的信息获取,还可以为更高层次的市场监管需求服务。当系统用户需要对某一金融事件开展调查时,关系图谱可以快速提供关联方的基本信息查询,并且建立事件相关各方的临时关系图谱,方便用户快速构建事件脉络并进行深入分析调查。更进一步的情况是,构建起来的企业与人物关系图谱可以作为后续建立上层模型的基础,应用在如关联方风险、资格审核、行业信批等业务场景中,运用图计算技术和建模分析技术帮助用户分析市场及企业行为,做出市场预判和警告,达到服务于监管决策的目的。
.......
 
第 3 章 关系图谱的设计.......26
3.1 关系图谱构建方案设计 ........... 26
3.2 关系图谱展示模块设计 ........... 39
3.2.1 关系图谱前台功能设计 ......... 39
3.2.2 关系图谱功能接口设计 ......... 40
3.2.3 关系图谱后台服务设计 ......... 41
3.3 本章小结...... 42
第 4 章 关系图谱的实现.......43
4.1 关系图谱构建方案实现 ........... 43
4.2 关系图谱展示模块实现 ........... 44
4.3 关系图谱实现效果 ......... 51
4.4 本章小结...... 56
第 5 章 关系图谱的测试.......57
5.1 测试方案...... 57
5.2 功能测试...... 58
5.3 性能测试...... 59
5.4 本章小结...... 63
 
第 5 章 关系图谱的测试
 
本章主要介绍本系统的测试方案,主要针对关系图谱的测试说明。包括测试目的、范围等。针对本系统的功能需求定义,将给出主要功能的测试用例及测试结果,并且给出系统在测试环境下的性能表现。
 
5.1 测试方案
本章测试的主要目标分为两个方面。首先是验证设计功能的正确性及完整性,确认系统的可用性以及数据的正确性;其次测试系统在正常用户操作下的服务性能,分析性能瓶颈。本章测试的范围将限于关系图谱部分的功能及性能测试。本次测试中,功能测试部分主要采用手工黑盒测试方法,根据用户需求说明确定测试用例,执行全部可执行测试用例,并记录测试结果。性能测试部分以实际的浏览器操作流程为基础,通过分析浏览器记录的加载及渲染指标来测试系统性能。从表内结果可以看出,模型的识别效果准确率在 97%左右,在法律文书上达到了相当不错的识别性能。这一方面是由于法律文书的文本语言较为严谨和规范,使得其行文逻辑能够被很好的“学习到”;另一方面也是由于法律文书包含的命名实体通常较为领域相关的公司、人名等,基本很少出现未登录词或实体,这些实体在训练过程中得到了很好的学习效果。从结果来看,本课题的 NER模型在领域相关语料中表现优异。
........
 
结 论
 
本论文《资本市场企业信息系统人物和企业关系图谱的设计与实现》依托实际开发的项目,面向资本市场的参与实体即企业与人物,设计构建了关系图谱模型,从分散、冗余、低价值密度的多源异构数据提取出结构化的实体及关系信息,并且设计实现了包括关系图谱在内的信息系统,为证券交易所等机构对资本市场投资、监管、调查等业务提供了支持。总结来说,本论文研究课题主要实现了以下几点成果:
1、设计了关系图谱的构建框架。近年来知识图谱的研究与应用成果较为突出,主要体现在搜索引擎公司利用知识图谱来构建客观世界的数据模型,并且用其来帮助更好地理解用户语义搜索,改进搜索体验。本课题参考知识图谱的一般构建框架,设计了在资本市场构建人物和企业关系图谱的构建框架,并且详细说明了构建步骤。该框架对于研究和工程领域都有一定的参考价值。
2、应用深度学习技术,设计命名实体识别方案。要完成关系图谱的构建,第一步便是获取构成关系图谱的节点,也即资本市场的企业实体。在本课题中,针对互联网爬虫系统等数据源获取的多源异构数据,在处理中文文本时采用了以双向长短时记忆网络的特征学习模型以及条件随机场作为序列标注模型。应用机器学习方法,可以免去传统的人工编写规则以及用户词典的步骤,节省人力。该模型从大量的训练预料中学习语言模型以及命名实体构成规则,训练出来的模型理论上具有全局的最优识别效果。而在实际的模型训练及测试环境中,该方案的识别效果超过了90%。
3、设计并实现了关系图谱的展示方案。构建关系图谱是本课题的核心研究内容,而作为实际的项目开发,如何将关系图谱模型展示并且提供服务是一个工程问题。在结合了系统业务需求分析后,本文设计了关系图谱的查询展示功能,并且为了提升系统相应效果,设计了 Web 服务于关系图谱服务分离的实现方案,将图谱数据保留在内存中以提供高速的查询服务。在图谱展示的前端,用 svg 图片提供了动态、可交互式的图谱,实现了良好的用户体验。
..........
参考文献(略)
(责任编辑:工程论文)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
栏目列表
点击提交代写需求
点击提交代写需求
点击提交代写需求
推荐内容