中国工程论文网
代写工程论文
当前位置:工程论文网 > 物流工程论文 > 大数据背景下道路物流运输运营管理数据挖掘研究与应用

大数据背景下道路物流运输运营管理数据挖掘研究与应用

时间:2017-11-04 18:16来源:www.e-lunwen.com 作者:lgg 点击:
本文是物流工程论文,本文在借鉴国内外研究成果的基础上,利用大数据技术中的数据挖掘方法,基于信息技术和车联网技术下积累的大量道路运输信息数据,通过合理选取挖掘算法,
第 1 章   绪论 
 
1.1   研究背景及意义 
随着计算机、互联网、传感技术的飞速发展及广泛应用,信息系统在各行各业中的应用规模不断扩张,由此产生的信息量也呈现出爆炸性增长的态势,催生了“大数据”这一高科技时代的产物。2012 年“大数据”潮流一时兴起并迅速风靡各个行业,2015 年 9 月,国务院公开发布了《促进大数据发展行动纲要》,为未来大数据的发展指明了方向,使人们深刻的认识到,DT(Data  Technology)时代即将取代 IT 时代成为未来社会的主流[1]。顺应时代潮流,在道路运输领域,已有的交通信息系统为该领域积累了大量数据信息,同时,信息技术和车联网技术的应用也加速了数据的积累,丰富了数据的内容,使道路运输领域的数据环境呈现出大数据的特征。 然而,“大数据”的出现是为了更好的服务整个行业,造福社会,其战略意义的重点在于对庞大的数据信息进行专业化处理,通过提高对数据的“加工”能力来实现数据的“增值”作用。表现在道路运输领域,即掌握行业发展规律和管理方法,为道路运输的宏观管理提供决策支持,如进行安全监管,预测旅客出行行为特征,优化现有运输路线,简化管理环节的流程等,通过有效的数据分析实现更科学的决策和更精准的服务[2]。 道路运输信息数据具有规模性、多样性、高速性、复杂性等特征,如何对这些信息进行过滤、筛选,对大量分散且异构的数据进行整合并获得高效的分析结果一直是行业面临的挑战。传统的数学分析手段显然已经难以满足多源、多维数据分析及知识挖掘的要求,因此作为大数据分析方法之一的数据挖掘(Data Mining)越来越受到广大学者的热爱。数据挖掘在 1989 年被首次提出,是通过应用多种数学算法从大量的模糊、噪声、随机数据中搜索出潜在的有用知识,特别地,需要数据库系统提供有效的存储、索引和查询等处理支持[1]。 
........
 
1.2   国内外研究现状 
数据挖掘自 1989 年在国际人工智能联合会议上被首次提出后,其核心技术历经了数十年的发展,包括数理统计、分类、预测、关联规则、聚类、粗糙集等。国内外各学科领域的专家学者不断从方法理论的角度推陈出新,在原有的方法体系框架中寻求创新突破。 国内学者王丽娜(2009)[3]在传统的属性约简算法基础上,借助于树型结构中的多叉树理论,提出了一种新的基于多叉树的属性约简算法,该算法降低了数据的空间复杂度,适用于对大批数据量进行属性约简,并通过三类不同的数据验证了方法的合理有效性。周涛,陆慧玲(2012)[4]在总结五类传统聚类算法的基础上,根据样本的不同属性,例如归属关系、预处理方式、相似度、更新策略、高维性等特征,详细归纳了近 20 种聚类新算法及其应用方向,宏观把握聚类方法的整体发展趋势。董林(2014)[5]将经典的关联规则方法扩展应用于基于有限测度的时空数据挖掘,实现了事务数据、时空数据的关联分析通用模型框架,解决了 LUCC 轨迹提取问题和覆被变化轨迹的空间可视化。赵小强,张露(2016)[6]针对模糊支持向量机存在的缺点,提出了改进的 FSCM 算法,可减小训练样本数目,降低噪声点对分类的影响,提高了算法运行速率和分类精确度,且在样本数目较大时可有效实现数据分类。
........
 
第 2 章   相关理论综述
 
2.1   大数据相关概念与技术
近几年,大数据伴随着各种高新科技的发展风靡全球,但对于“大数据”一词的定义却一直众说纷纭。从宏观世界的角度看,大数据作为一条连接三元世界的纽带,将物理世界、信息空间和人类社会相融合,这是由于物联网、互联网等技术在物理世界的应用催生了大数据在信息空间中的反映,而人类社会通过人机界面、社交网络等方法在信息空间中成功映像了自己的大数据。从社会经济角度来看,大数据是第二经济的核心内涵和重要载体,《技术的本质》作者、著名经济学家 Brian Arthur 提出“第二经济”概念,即现实中的实体业务流程正在通过电子方式来实现,逐步转换为数字业务,其本质是使国民经济活动智能化,这当然离不开大数据的环境支撑。从信息产业的角度来看,大数据是云计算、移动互联网的动力源泉,它们共同构成了第三代信息技术产业平台,是 IT 产业发展的催化剂[31]。 2011 年,国际著名公司麦肯锡在关于大数据的行业分析报告中指出,大数据是行走在创新、竞争和生产力发展前沿的产物,并予以定义:大数据是指数据集的容量大小超越了一般数据库中采集、存储、分析和管理的能力的集合[1]。从大数据的基本特征出发,最早人们将其总结为 3V 特性:规模性(volume)、多样性(variety)和高速性(velocity),随着对大数据的深入理解与广泛应用,国际数据公司 IDC 认为大数据还应当具有低价值密度特性(value),而 IBM 公司又在原来特征的基础上扩展了真实性(veracity)的特征,最终,大数据的 5V 特性普遍被业界所接受[32]。相对于海量数据特征,大数据的类型多样和数据质量的精确度要求是真正具有挑战性的,这些数据中包含着结构化、半结构化和非结构化数据,如何在面临数据仓库、视频、文本、语音等海量、多样化资源情况下,既能保证数据的有效性,又能以最快的时间效益来实现资源的价值,是所有学者的共同追求目标。  
.........
 
2.2   数据挖掘概述
数据挖掘(DM),又可称为数据采集、知识勘探。其在 20 世纪 80 年代末被首次提出,并很快吸引了各界学者的关注,从 1995 年开始,国际上成立了知识发现(KDD)年度会议,这为数据挖掘技术的研究和发展奠定了坚实的基础。数据挖掘是一门包含多种知识领域的新兴课题,它是融合了人工智能、机器学习、数理统计、数据库技术、模式识别、数据可视化等多领域的技术方法。 对于数据挖掘的概念还没有一个完全统一的口径,不同的应用领域有着相异的内涵偏向,目前公认的是 Fayyad  U 等人对数据挖掘内涵的定义:数据挖掘就是从海量有噪声的、不完整且随机模糊的应用信息中抽取出有规律的、隐晦的、预先未知却又存在潜在价值的知识的非平凡过程[33]。其中“非平凡过程”是指数据挖掘的实现过程,包括数据的预处理、模式提取、知识评估、过程优化,不是简单的数值统计和计算,知识隐藏在现象的内部,需要专门的处理工具和方法进行大量的分析、比较来得出结论。 数据挖掘流程主要分为四大步骤:问题定义和数据理解、数据准备和预处理、数据挖掘方法实施、结论评估。如图 2.2 所示。 
.........
 
第 3 章   道路运输大数据分析探讨 ......... 19 
3.1   道路运输信息资源 ...... 19 
3.2   核心信息系统简介 ...... 20 
3.3   道路运输大数据分析需求 ............ 22 
3.3.1   数据资源共享 ....... 22 
3.3.2   决策支持目标 ....... 24 
3.4   本章小结..... 26 
第 4 章   基于聚类分析的班线客运运营优化分析 ............ 27
4.1   Two Step 聚类分析 ...... 27 
4.1.1   构建 CF 树 .... 27 
4.1.2   正式聚类 ...... 30 
4.2   班线客运运营状况聚类分析 ........ 32 
4.3   本章小结..... 42 
第 5 章   基于粗糙集和关联规则的运输业户考核数据挖掘 ..... 43 
5.1   数据挖掘设计 ..... 43
5.2   运输业户考核数据挖掘 ....... 49 
5.3   本章小结..... 57 
 
第 5 章   基于粗糙集和关联规则的运输业户考核数据挖掘 
 
5.1   数据挖掘设计
粗糙集是一种以不可分辨关系为核心思想的处理不精确、不完整信息的方法,其研究对象为离散性指标,因此,在应用粗糙集进行属性约简之前,需首先将所处理的数据进行离散化。连续数据的离散化是在数据的值域范围内,通过科学的数学运算利用断点将属性所构成的空间划分为有限个区间,并用不同的数字或符号来定义每个区间的数据值。其关键在于明确离散化断点的位置和数量,使得原属性的信息保留达到最大化。 根据对信息系统具体属性值的理解,现有的离散化方法可以分为无监督离散化方法和监督离散化方法,其中基于信息熵的离散化方法[56]是一种经典的监督式方法,其通过候选区间的类信息熵来确定离散的限值边界,信息熵越小,集合中某些属性值对决策属性起关键作用,集合的混乱程度越小,保证了算法不会改变决策表的相容度,因此被广泛应用于数据离散化领域。 
........
 
总结 
 
随着全球互联网技术和信息、计算机技术等的迅猛发展,“大数据”一词愈演愈烈,成为各行各业炙手可热的信息技术。与此同时,交通行业紧跟时代潮流,在信息技术和车联网技术的催化下,道路运输信息数据呈现出规模性、多样性、高速性、复杂性等特征,如何高效利用这些数据为行业管理提供决策支持是一直存在的挑战。 数据挖掘是大数据技术中重要的数据处理方法,它融合了人工智能、机器学习、数理统计、数据库技术、数据可视化等多领域的技术和方法。本文基于某省道路信息信息系统中的相关数据,根据数据的具体特征和挖掘目的,将数据挖掘中的聚类分析、粗糙集、关联规则方法应用于对现有信息数据的分析。主要研究内容及成果有以下几个方面: 
(1)理论概述。从不同角度定义“大数据”的概念,明确其“5V”特性,总结大数据分析挖掘的基本流程;详细归纳数据挖掘的概念、流程、数据预处理方法;并理论阐述、概括总结了本文应用的三种数据挖掘方法。 
(2)道路运输相关信息及大数据分析的需求探讨。分析道路运输中的七大类信息资源;从系统的结构功能与信息类型角度简要介绍道路运输中的三大核心业务应用系统;提出道路运输进行大数据分析的前提需求,即数据资源共享与融合、决策支持目标的支撑,以三大业务应用系统为例介绍了资源共享需求,从七大类信息资源角度分析了决策目标。 
(3)班线客运运营优化分析。根据某省班线客运运营现状中存在的问题,提出从客运线路、发车日期、发车时间三个方面进行数据挖掘。通过合理的数据预处理和分析指标的选择,利用 SPSS Modeler 构建了数据流模型,应用 Two Step聚类算法进行分析,得到旅客出行热点路线、热点日、热点时段。使对客运经营线路管理、客票发售特点和规律得到很好的掌控,便于客运站开展灵活的客运发班经营模式。 
.........
参考文献(略)
(责任编辑:gufeng)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
栏目列表
点击提交代写需求
点击提交代写需求
点击提交代写需求
推荐内容