论文摘要:现有的网络教学系统,虽然自身信息量极其丰富,但教师对学生的学习情况缺乏了解,无法满足学生个性化的学习需求。Web日志全面记录学生网上学习的行为,是解决问题的有效方法,文章设计并实现了Web日志挖掘系统,从中发现相似的学生群体,以及浏览兴趣路径,帮助教师及时调整站点结构提供宝贵的建议参考。
一、引言
针对某课程的网络教学系统网站的服务器上每天记录了大量的学生网上学习的行为记录的,通过对Web日志进行挖掘可[1]以帮助任课教师了解哪些教学内容学生比较感兴趣,网站的使用情况,根据发现的信息对网站结构进行改进,以吸引更多的学生来进行网上学习,提高网站的服务效率。
二、系统需求分析
基于以上的目的,以某职业院校的某课程的网络教学系统为研究对象,设计并实现了Web日志挖掘系统,取得了较好的实验效果。系统主要是对该网络教学系统的日志数据进行采样、预处理[2],然后运用基于选择路径和浏览页面的聚类算法对处理后的数据进行模式分析,获得Web站点用户的浏览兴趣路径和用户聚类群。
三、系统功能模块
系统的功能包含管理员和用户两部分。管理员主要是设置采样时间、配置挖掘参数,修改网站拓扑结构信息;用户主要是实施Web日志挖掘,进行用户[3]识别、会话识别、事务识别、最后得到用户浏览兴趣路径。
(一)管理员功能
管理员主要是该网站的建设者以及该课程的实训指导教师负责设置采样时间、设置挖掘参数、添加网页改变网站结构。
1.设定采样时间:实现从大量的Web日志数据中选取基于配置文件中的采样时间段的日志数据的功能,并将获取该时间段的日志数据存储到数据库中。管理员通过修改配置文件更改采样时间段(以天为单位)。
2.设置挖掘参数:挖掘参数包括会话超时时间、选择路径兴趣度所占的权重wr、浏览页面兴趣度所占的权重wn、浏览兴趣[4]路径使用的阈值。会话超时时间前人实验得到的经验值为25.5分钟,管理员可重新设定;选择路径兴趣度所占权重与浏览页面兴趣度所占权重之和为1。默认设定为wr=0.5,wn=0.5,可进行更改。
3.调整网站拓扑结构:包括调整页面顺序,添加新的页面,删除过时的页面等。
(二)普通用户功能
普通用户主要指该课程的任课教师、学生以及该系部的教务员。 1.用户识别:依据规则从日志中识别不同用户,并保存用户访问信息。主要有2个规则:第一,不同的用户名(UserID)代表不同的用户;第二,不同的IP地址代表不同的用户。
2.会话识别:根据会话识别规则,对用户数据进行会话识别,得到用户一系列的会话数据。同时提供了基本的会话信息,如用户的浏览路径序列。会话识别后,将会话信息保存会话信息表中,以备事务识别使用。
3.事务识别:根据规则将用户会话序列分割为事务,并将事务序列信息存储事务信息表中,作为用户聚类的数据输入。
4.用户聚类:依照聚类算法,把所有用户划分为不同的用户群,并将用户群信息存入用户群表中,作为系统的最终数据。
5.浏览兴趣路径:找出用户浏览兴趣模式,同时得到浏览兴趣路径的相关信息,包括浏览兴趣路径序列。
四、系统结果分析
实验以某职业院校网络教学管理系统服务器上的日志为研究对象,搜集了8周的数据,作为系统的测试用例。从实验结果中可以看到,浏览兴趣路径的长度一般不超过5。这就表示在设计教学网站时网站深度不要太深,避免给用户访问造成不便。从总体来看,学生浏览的路径分为3大类,分别是查看作业、通知、课件。而教学大纲以及视频查看的人寥寥无几。本算法的执行时间与网站的URL数目n有关系,它的时间复杂度为O(n2)。因此在该网站中当不断的增加新的页面时,算法的执行时间也会随之增加。当网站的页面数目超过20时,该算法有待于进一步验证。
参考文献:
[1]胡迎松,宁海霞.一种新型的Web挖掘数据采集模型[J].计算机工程与科学,2007,29(2):36-39
[2]陈峰.基于Web日志的用户兴趣聚类研究[D][硕士学位论文].合肥:合肥工业大学,2008
[3]任晓霞.一种Web日志数据挖掘系统的设计与实现[D][硕士学位论文].北京:北京邮电大学,2008
[4]胡可云,田凤占,黄厚宽.数据挖据理论与应用[M].北京:清华大学出版社,北京交通大学出版社,2008