[1]邵晓根,鞠训光,胡局新,等.基于改进权重的贝叶斯推理和TFIDF算法文本主题词提取研究[J].南京师大学报(自然科学版),2014,37(01):57.
 Shao Xiaogen,Ju Xunguang,Hu Juxin,et al.Research of Text Subject Extraction Based on Improved Weight for Bayesian Reasoning and TFIDF Algorithm[J].Journal of Nanjing Normal University(Natural Science Edition),2014,37(01):57.
点击复制

基于改进权重的贝叶斯推理和TFIDF算法文本主题词提取研究()
分享到:

《南京师大学报(自然科学版)》[ISSN:1001-4616/CN:32-1239/N]

卷:
第37卷
期数:
2014年01期
页码:
57
栏目:
计算机科学
出版日期:
2014-03-30

文章信息/Info

Title:
Research of Text Subject Extraction Based on Improved Weight for Bayesian Reasoning and TFIDF Algorithm
作者:
邵晓根1鞠训光1胡局新1马忠伟2
(1.徐州工程学院信电工程学院,江苏 徐州 221111) (2.湘潭大学信息工程学院,湖南 湘潭 411105)
Author(s):
Shao Xiaogen1Ju Xunguang1Hu Juxin1Ma Zhongwei2
(1.Department of Information and Electrical Engineering,Xuzhou Institute of Technology,Xuzhou 221111,China) (2.College of Information Engineering,Xiangtan University,Xiangtan 411105,China)
关键词:
贝叶斯推理位置权重主题词提取TFIDF算法
Keywords:
Bayesian reasoningposition weighttopic words extractionTFIDF algorithm
分类号:
TP391; TP301
文献标志码:
A
摘要:
本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯TFIDF算法正向提取平均准确率提高了6.2%.
Abstract:
The shortcoming of the TFIDF algorithm is improved for Chinese text topic word extraction.This paper considers the keywords appearing frequency,position weight in the text,the hybrid algorithm of Bayesian Reasoning and TFIDF was designed to extracte topic words,and the topic words was extracted from forward,reverse and middle based on sorting position of the candidate words.The results was higher average accuracy than the simple TFIDF by 6.2%.

参考文献/References:

[1] 施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,6(29):167-170.
[2]刘兴林,彭宏,马千里.基于增量词集频率的文本主题词提取算法研究[J].计算机应用研究,2010,27(9):3 237-3 238.
[3]饶丽丽,刘雄辉,张东站.基于特征相关的改进加权朴素贝叶斯分类算法[J].厦门大学学报:自然科学版,2012,51(4):682-685.
[4]刘林.基于词语权重改进的朴素贝叶斯分类算法的研究与应用[D].广州:中山大学软件学院,2009.
[5]管瑞霞,陆蓓.TFLD:一种中文文本关键词自动提取方法[J].机电工程,2010,27(9):123-126.
[6]李艳美,张卓奎.基于贝叶斯网络的数据挖掘方法[J].计算机仿真,2008,25(2):117-119.
[7]Sarah Petersen,Mari Ostendorf.Assessing the reading level of web pages[C]//Proceedings of Interspeech(poster).Pittsburgh,2006:833-836..
[8]Christopher D Manning,Prabhakar Raghavan,Hinrich Schutze.Introduction to Information Retrieval[M].Cambridge:Cambridge University Press,2008:96-100.
[9]Harry Zhang,Shengli Sheng.Learning weighted naive bayes with accurate ranking[C]//Fourth IEEE International Conference on Data Mining(ICDM’04).Brighton,2004.DOI:10.1109/ICDM.2004.10030
[10]卫洁,石洪波,冀素琴.基于Hadoop的分布式朴素贝叶斯文本分类[J].计算机系统应用,2012,212:210-212.
[11]胡局新,鞠训光.自学习分词算法在科研项目查重系统中的应用[J].科技通报,2013,29(6):14-19.
[12]胡局新,鞠训光.基于贝叶斯推理和TFIDF算法的中文关键词智能抽取[J].微电子学与计算机,2012,29(9):197-200.

备注/Memo

备注/Memo:
收稿日期:2013-07-13.
基金项目:科技部国家中小企业创新
基金项目(11C26213204533)、徐州市科技计划项目(XF11C052).
通讯联系人:鞠训光,博士,副教授,研究方向:智能计算、数据挖掘、云计算.E-mail:375768447@qq.com
更新日期/Last Update: 2014-03-30