加入收藏 | 设为首页 | 会员中心 | 我要投稿 无锡站长网 (https://www.0510zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【3】 文本挖掘方法论

发布时间:2021-02-23 16:13:20 所属栏目:大数据 来源:网络整理
导读:转自 NLP论坛 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threedweb.cn/thread-1286-1-1.html 文本挖掘流程 第1阶段:确定研究目的 像任何其他项目一样,文本挖掘的研究开始于研究目的的决策。

在一项令人感趣的文本挖掘研究中,关联分析是用来研究已发表的文献(新闻,学术刊物和网上的帖子),绘制出禽流感的爆发和进展(Mahgoub等,2008)。此研究的主要目的是为了自动识别出地理区域,种群传播,物种间传播之间的关联,并提出应对措施。
关联分析的一个特殊情况是,一些概念都以一种有序的方式关联另外的概念(例如,一个序列的概念往往会出现一种趋势),或者在一个特定的时间段有关。这种类型的关联分析被称为趋势分析,其简要地在下面的部分说明。

趋势分析

趋势分析的主要目的是找到对象或事件根据时间的变化规律。通常,文本挖掘中的趋势分析是基于时间间隔的各种类型的概念分布;也就是说,相同主题的不同集合在不同的时间间隔可能会导致不同的概念分布。因此,比较两种概念的时间变化是有可能的,除非它们来自相同的文档子集。这种类型分析的一个显著方向是具有相同的源的两个集合(如由一组相同的学术期刊),但是时间点不同。 Delen和Crossland (2008) 对大量的学术文章应用趋势分析,(发表在三种高度关注的学术期刊),以识别信息系统领域的关键概念的演变。

(编辑:无锡站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读