详细信息
试论短文本聚类算法在微博的应用
文献类型:期刊文献
中文题名:试论短文本聚类算法在微博的应用
作者:莫紫娟
第一作者:莫紫娟
机构:[1]贵州理工学院
第一机构:贵州理工学院
年份:2014
期号:9
起止页码:193-193
中文期刊名:科技致富向导
语种:中文
中文关键词:短文本;聚类算法;微博话题发现
摘要:文本聚类是文本挖掘领域的热门研究内容,目前已经有很多文本聚类的方法,不同的方法适用于不同的应用需求。关于微博数据的收集,可以假定一个数据量和用户量,然后通过文本聚类算法,对这些微博用户发表的内容进行聚类,从中提取这些微博用户发表的热点内容。由于微博短文本难以展开传统的文本内容分析方法。因此可以依据微博特点(用户转发、评论、关注等关系)将多条微博组合成长文本进行聚类分析。通常可以使用基于频繁词集的短文聚类和基于密度的短文聚类方法来实现。基于频繁词集的方法适合从海量微博短文本中发现热门话题.而基于密度的聚类方法适合从海量微博短文本中发现异常内容。这两种方法都结合了语义信息来提高聚类的准确度,同时通过并行化的方法来提高聚类的性能。
参考文献:
正在载入数据...