基于词频和情景语义的产品特征提取方法Product feature extraction method based on word frequency and context semantics
陈可嘉;郑晶晶;靳健;赵政;
摘要(Abstract):
为解决目前产品特征提取方法在种子特征词集构建上存在需要大量人工标注、代表性不足等问题,提出一种基于词频和情景语义的产品特征提取方法。通过少量高频名词和关联规则构建种子特征词集,采用神经网络语言模型进行词向量训练,再通过计算向量间余弦相似度对种子特征词集进行扩充,最后经人工分类后得到完整的产品特征词典。实验结果显示,该方法采用种子特征词集相似度排名前九的单词(top9)来进行产品特征扩充时效果最好,F_1值达到了76.44%。此外,与K-means+Word2vec、LDA等方法在top5,top10,top15,top20水平上的对比实验表明,无论是准确率、召回率还是F_1值,该方法都更优。
关键词(KeyWords): 产品特征提取;词频;情景语义;种子特征词集;词向量;文本挖掘
基金项目(Foundation): 国家自然科学基金资助项目(71701019)
作者(Author): 陈可嘉;郑晶晶;靳健;赵政;
Email:
DOI: 10.13624/j.cnki.issn.1001-7445.2020.1413
参考文献(References):
- [1] 聂卉,李通,何欢,等.基于在线评论的商业竞争情报自动获取[J].情报杂志,2018,37(10):167-173.
- [2] 李光敏,陈炽,邢江,等.网络文本评论中产品特征抽取综述[J].现代情报,2016,36(8):168-173.
- [3] HU M,LIU B.Mining and summarizing customer reviews[C]//Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2004:168-177.
- [4] LI S,ZHOU L,LI Y.Improving aspect extraction by augmenting a frequency-based method with web-based similarity measures[J].Information Processing & Management,2015,51(1):58-67.
- [5] YANG L,LIU B,LIN H,et al.Combining local and global information for product feature extraction in opinion documents[J].Information Processing Letters,2016,116(10):623-627.
- [6] QIU G,LIU B,BU J,et al.Opinion word expansion and target extraction through double propagation[J].Computational Linguistics,2011,37(1):9-27.
- [7] 邱云飞,陈艺方,王伟,等.基于词性特征与句法分析的商品评价对象提取[J].计算机工程,2016,42(7):173-180.
- [8] 陶永才,海朝阳,石磊,等.中文词语搭配特征提取及文本校对研究[J].小型微型计算机系统,2018,39(11):2485-2490.
- [9] 鲍翠梅.支持向量机在文本特征提取中的应用研究[J].计算机应用与软件,2010,27(5):197-199.
- [10] 李杰,李欢.基于深度学习的短文本评论产品特征提取及情感分类研究[J].情报理论与实践,2018,41(2):143-148.
- [11] XIE F,WU X,ZHU X.Efficient sequential pattern mining with wildcards for keyphrase extraction[J].Knowledge-Based Systems,2017,115:27-39.
- [12] 熊蜀峰,姬东鸿.面向产品评论分析的短文本情感主题模型[J].自动化学报,2016,42(8):1227-1237.
- [13] 彭云,万常选,江腾蛟,等.基于语义约束LDA的商品特征和情感词提取[J].软件学报,2017,28(3):676-693.
- [14] 彭云,万红新,钟林辉.一种语义弱监督LDA的商品评论细粒度情感分析算法[J].小型微型计算机系统,2018,39(5):978-985.
- [15] 董苑,钱丽萍.基于语义词典和词频信息的文本相似度计算[J].计算机科学,2017,44(S2):422-427.
- [16] 马思丹,刘东苏.基于加权Word2vec的文本分类方法研究[J].情报科学,2019,37(11):38-42.
- [17] 李伟卿,王伟军.基于大规模评论数据的产品特征词典构建方法研究[J].数据分析与知识发现,2018,2(1):41-50.
- [18] ALRABABAH S A A,GAN K H,TAN T P.Mining opinionated product features using WordNet lexicographer files[J].Journal of Information Science,2017,43(6):769-785.
- [19] LIU Z,HU L,WU C,et al.A novel process-based association rule approach through maximal frequent itemsets for big data processing[J].Future Generation Computer Systems,2018,81:414-424.
- [20] 熊富林,邓怡豪,唐晓晟.Word2vec的核心架构及其应用[J].南京师范大学学报(工程技术版),2015,15(1):43-48.
- [21] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(4-5):993-1022.