当前位置:大学毕业论文> 发表论文>材料浏览

图书馆相关硕士学位论文范文 与基于关联规则的图书馆流通数据挖掘以深圳大学城图书馆为例有关硕士学位论文范文

主题:图书馆论文写作 时间:2024-04-11

基于关联规则的图书馆流通数据挖掘以深圳大学城图书馆为例,本文是图书馆相关论文写作参考范文和深圳大学城和关联规则和数据挖掘相关毕业论文格式范文.

图书馆论文参考文献:

图书馆论文参考文献 有关大数据的论文图书馆杂志图书馆建设杂志数据挖掘论文

[摘 要]图书馆存储着的大量流通数据是其重要的无形资产.运用经典关联规则Apriori算法,选取深圳大学城图书馆2015级全体学生于第一学年的流通数据,在数据挖掘软件SPSS Modeler上挖掘得到满足最低条件支持度和最小规则置信度的规则,以尝试发现隐藏在数据背后有价值的信息,用于指导图书馆实际业务工作.

[关键词]Apriori 流通数据图书推荐

[分类号]G251

达尔文曾说过:“科学就是整理事实,以便从中得出普遍的规律或结论.”随着信息技术的不断发展,各行各业正经历着前所未有的信息浪潮,图书馆作为一个信息资源的存储与服务中心,也应顺应信息化潮流,向前发展.在业务进行过程中,图书馆积累了大量的数字信息资源:图书馆每年购买大量的纸质图书,每天都会产生数千条流通数据,以及图书馆所管理的各种类型的读者信息.有时读者面对图书馆海量的文献信息反而不知所措,选择自己所需的文献资源成了读者的一个难题.数字图书馆集成管理系统多年运行所积累下来的大量图书流通历史记录,除了用于日常图书馆事务的统计工作以外,挖掘其背后蕴藏的隐性知识越来越成为图书馆界关注的主流话题.人们将数据挖掘技术引入到图书馆海量数据的研究中,为图书馆指明了一个很好的解决问题的方向,变被动服务为主动服务.

数据挖掘又名资料探勘,它是数据库知识发现中的一个步骤.数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程[1].关联规则作为数据挖掘领域里的一个重要组成部分,就是通过分析,找出给定项目组与事务记录集合中项目之间未知的依赖关系[2].笔者运用关联规则算法挖掘读者的借阅行为模式,并给出实践意义.

1 Apriori 算法相关内容

1.1 基本概念简介

在关联规则研究中,最著名的算法是Agrawal等人于1994年提出的Apriori算法.Apriori算法是一种最有影响力的挖掘布尔关联规则频繁项集的算法,是一个采用两阶段挖掘的思想,并且基于多次扫描事务数据库来执行[3].其基本思想是:首先找出所有的频繁项集,这些项集的频繁性满足预定义的最低条件支持度,然后由频繁集产生强关联规则,这些规则满足预定义的最低条件支持度和最小规则置信度.本算法涉及到的基本概念见表1.

1.2 算法实现步骤

Apriori算法主要分为两步:

第一步:求出事务集D 中满足最小支持度minsup的所有频繁项集;

第二步:利用频繁项集生成满足最小置信度min-conf的所有关联规则.

具体步骤如下:

(1)每个项都是候选1-项集C1的成员,扫描数据库D,对每个项集出现次数计数得到支持度.

(2)根据预定义的最低条件支持度阈值,找出频繁1-项集L1.

(3)连接步:利用K-项集Lk的自连接,找出((K+1)-项集,再重新扫描数据库D,计算他们的支持度.

(4)剪枝步:通过扫描所有的事务,确定每个候选集的计数,如果计数大于最小支持度计数,则认为该候选集是频繁的,否则将其删除.

(5)重复执行以上操作,直到有某个值为空,算法结束,确定出最终的频繁项集.

其中步骤(2)和步骤(3)是Apriori 算法的核心——Apriori-gen算法.在计算产生频繁项集时,为了提高其逐层产生的效率,Apriori算法利用了两个重要的性质用于压缩搜索空间:

(1)频繁项集的所有子集都是频繁项集;

(2)非频繁项集的所有超集都是非频繁项集.因此在连接时若存在子集不属于频繁项集的候选集,可直接将其删除.其算法流程如图1所示.

2 数据背景及来源

笔者选取的数据为深圳大学城图书馆2015级新生入学一年以来的全部借阅记录,共27400条原始数据.

深圳大学城图书馆(又名深圳科技图书馆)同时拥有高校图书馆与公共图书馆的双重身份,笔者着重挖掘其作为高校图书馆对在校学生的服务情况.首先给出深圳大学城图书馆截至2016年6月的藏书量情况,如表2所示.

表2 深圳大学城图书馆藏书情况

可见,馆藏量最大的图书是T类图书,这也符合深圳大学城图书馆作为科技图书馆的性质.鉴于此笔者从两个角度出发,运用关联规则对图书馆流通数据进行挖掘:不同大类图书之间的关联规则、T类图书内部的关联规则.

在进行挖掘之前首先将原始数据按照需求转换成布尔型事务数据表,以每个读者个体为统计单位,首先按照《中国图书馆分类法》[4],图书分为22大类,各大类下面分为若干二级类目.以二级类目作为事务类型,经重新整理得到稀疏表共1372 条数据,见表3.

鉴于深圳大学城图书馆馆藏量和借阅量最多的图书是T类,继续单独对T类图书的借阅历史进行深入分析,笔者以T类图书的索书号作为事务类型,经重新整理得到稀疏表共725条数据.见表4.

数据建模使用SPSS Modeler14.1 工具,建模之前首先应用网络节点工具以便直观地认识不同类图书间的关联程度,图中线条的粗细代表关联强度,线条越粗表示越强关联.图2(a)设定的参数是显示链接数大于100人次的网络节点.从图中可看出,TP类与O1类、TP类与TN类、TP类与I2类、I2类与H3类这四组具有较高的关联性.图2(b)设定的参数是显示链接数大于25人次的网络节点.从图中可看出,TP3类与TN91类、TP3类与TP2类、TP3类与TP1类具有较高的关联性.但这并不能体现事务之间深层次的关系,笔者将在第3节利用Apriori算法建立数学模型以挖掘更深层次的关联规则.

3 模型建立及结果分析

3.1 模型1——所有图书二级类目间关联关系

按照《中国图书馆分类法》,得到所有图书的二级类目,这些类目间是否存在联系,读者经常借哪几类图书,哪几类图书间存在关联性,笔者利用Apriori算法进行研究,找出图书类目之间的关联规则.根据多次实验结果,模型1确定最低条件支持度为10%,即满足规则前项的集合占全集的10%以上,确定最小规则置信度为50%,即规则要满足借阅前项的人至少有50%借阅了后项类别.运行结果如表5所示.

模型1挖掘出不同大类目间图书的6条强关联规则.对于Aprior算法,当提升度<1表示前项与后项为负相关,当提升度等于1,表明前项与后项独立,当提升度>1,表明前项与后项正相关,前项的出现才会导致后项同时出现的可能.因此提升度>1的规则才有意义.本结果的提升度基本均大于1.5,结果关联性较强.

以规则1为例进行详细解释说明,其他规则以此类推,此规则中得到频繁二项集L2等于{O1,TP},根据表5可知,有26.458%的读者借阅过O1(经济计划与管理)类图书;借阅了O1图书的人中有60.331%的人同时借阅了TP(自动化、计算机类)类图书;同时借阅O1和TP类图书的人占总人数的15.962%;提升度等于1.607,表明根据此规则的图书推荐后,读者在借阅了O1类图书的同时,借阅TP类图书的概率是读者随机借阅TP类的1.607倍.

3.2 模型2——T类图书类目间关联关系结合深圳大学城图书馆(深圳科技图书馆)的实际借阅情况,笔者对T类(工业技术类)图书类目间存在的借阅关联关系进行挖掘,找出T类图书间的借阅关联规则.根据多次实验结果,模型2确定最低条件支持度为10%,即满足规则前项的集合占全集的10%以上,确定最小规则置信度为20%,即规则需满足借阅了前项的人至少有20%借阅了后项.模型运行结果如表6所示.

以规则1为例进行详细解释说明,其他规则以此类推,此规则中得到频繁二项集L2等于{TN91,TN3},根据表6 可知,有16.828%的读者借阅过TN91(通信)类图书;借阅了TN91图书的人中有84.426%的人同时借阅了TP3(计算机技术)类图书;同时借阅TN91和TP3类图书的人占总人数的14.207%;提升度等于1.275,表明根据此规则的图书推荐后,读者在借阅了TN91类图书的同时,借阅TP3类图书的概率是未推荐前的1.275倍.

4 实践意义

科学管理学科中,最基本的模型是DIKW层次模型,如图3所示,即数据、信息、知识、智慧的金字塔层次体系模型.

数据是原始素材,对应图书馆所管理的所有基本数据;信息是经过加工处理后有逻辑的数据,体现在对原始数据的重组、清理、转换等;知识是从相关信息中过滤、提炼及加工而得到的有用资料,体现在本课题中就是运用Apriori关联规则算法得到的规则模型;智慧即做出正确判断和决定的能力,包括对知识的最佳使用,体现在使用知识指导实际工作,建立智慧图书馆、智慧校园.

图书管理系统传统的查询统计功能,已无法从大量数据中发现未知的知识模式,无法为读者提供更便利高效的服务.而采用数据挖掘技术从图书馆这个大的数据仓库中自动地发现有用信息,为读者提供个性化服务、指导馆员工作,具有重大实践意义[5].主要表现在如下几个方面:

①优化馆藏建设:通过对图书馆流通数据的分析,主动识别读者的兴趣模式,为图书馆书籍的采购、上架、排架及剔旧提供数据依据,提高馆藏质量.②提供个性化服务:对流通数据挖掘,找出读者借阅行为模式,进行图书推荐个性化服务.

通过关联规则找出强关联性的图书,提取规则模式,建立知识库,从而设计个性化图书推荐系统模型.如图4所示,模型分为两大模块,下层虚线框内为离线数据挖掘模块,即Apriori算法应用模块;上层实线框内为图书个性化在线推荐系统模块.通过此模型,在读者还没有明确需要的资源时,图书馆系统可根据读者的借阅历史及其预测读者的借阅行为和兴趣方向,从而个性化地为读者提供服务;

③解决借阅流失问题:随着电子图书的发展以及读者阅读行为的改变,每年入馆借阅图书的读者比例呈现下降趋势,借助数据挖掘,将被动服务转为主动服务,转变服务模式,在一定程度上可减少借阅流失的现象,提高阅读率.

④学科研究:高校图书馆在学校科研、教学中担任重要角色,通过挖掘读者借阅行为模式,可发现学科之间隐藏的关系,辅助高校优化课程设置.

5 结语

图书馆从来不缺大数据这种新型的经济资产,我们需要做的工作是找出数据之上的信息、知识,凝结成智慧指导业务工作.通过挖掘深圳大学城图书馆(深圳科技图书馆)2015级学生在入学一年内的流通借阅记录,从两个不同的维度出发,利用关联规则Apriori算法分析其借阅行为,挖掘所有图书二级类目间的借阅关联规则以及T类图书类目间的借阅关联规则.后续根据实际业务需求,可进一步对读者群进行细分(如按照学院或专业细分)后再执行此算法,也可将关联粒度细分为所有类目间的关联规则.可动态定期执行本算法,更新知识库,也可辅助学校动态掌握学生的兴趣方向,科学安排课程等工作.

参考文献:

[1] 罗森林,马俊,潘丽敏.数据挖掘理论与技术[M].北京:电子工业出版社,2013.

[2] AGRAWAL R,SHAFER J.Parallel mining of as?sociation rule[J].IEEE Trans.On Knowledge andData Engineering,1996(6).

[3] 王培吉,赵玉琳,吕剑峰.基于Apriori算法的关联规则数据挖掘研究[J].统计与决策,2011(23):19-21.

[4] 国家图书馆.中国图书馆分类法[M].北京:北京图书馆出版社,2010.

[5] 周志超,张远,侯胜超.高校图书馆流通数据挖掘的新思路[J].现代情报,2013(10):143-148.侯贺女,1987年生,硕士.研究方向:数据分析.

(收稿日期:2016-12-10;责编:徐向东.)

上文点评,本文是大学硕士与图书馆本科图书馆毕业论文开题报告范文和相关优秀学术职称论文参考文献资料,关于免费教你怎么写深圳大学城和关联规则和数据挖掘方面论文范文.

关联规则挖掘Apriori算法的一种改进
屈鑫乙,……关联规则挖掘Apriori算法的一种改进关联规则挖掘Apriori算法的一种改进屈鑫乙,王迪,刘滏(成都理工大学管理科学学院,四川成都610059)摘要Apriori算法是关联规则挖掘中的.

基于线性链表的关联规则数据挖掘技术在数字图书馆中的应用
数据挖掘(Data Mining) 是通过分析每个数据,从大量数据中寻找其规律的技术,一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rulelearning)的.

基于数据挖掘技术解决业务指标预测的方案
摘要信息中心目前涉及的业务有固定电话、宽带、GPS、无线市话、信息服务、数字电视、IPTV电视、无线 宽带…… 每年的基础收入将近1亿,随着经营压力不断增加,能否准确预测下一年的收入成为关键问题 如何.

基于食品检验数据的关联规则
摘 要食品安全监管数据量大、隐含的信息以及数据之间的规律不易被发觉 本文研究了Excel 数据挖掘模块的关联规则对食品检测数据进行挖掘的方法,研究结果表明,关联模型得出的规则对食品安全监管有一定的指导.

论文大全