基于半监督与集成学习的文本分类方法

当前位置:首页 > 计算机/网络 > 家庭与办公室用书 > 基于半监督与集成学习的文本分类方法

  • 版 次:1
  • 页 数:
  • 字 数:
  • 印刷时间:2013年09月01日
  • 开 本:12k
  • 纸 张:胶版纸
  • 包 装:平装
  • 是否套装:否
  • 国际标准书号ISBN:9787121212567
作者:唐焕玲出版社:电子工业出版社出版时间:2013年08月 
内容简介
文本分类技术广泛应用于新闻媒体、网络期刊文献、数字图书馆、互联网等领域,是人类处理海量文本信息的重要手段。
本书重点探讨了利用信息论中的评估函数量化特征权值的方法;基于权值调整改进Co-training的算法;利用互信息或CHI统计量构造特征独立模型,进行特征子集划分的方法;基于投票熵维护样本权重的BoostVE分类模型;融合半监督学习和集成学习的SemiBoost-CR分类模型。
其中特征选择和权值调整方法、基于特征独立模型划分特征子集的方法适用于文本分类,其他算法不仅适用于文本分类,对机器学习和数据挖掘的其他研究也有较大的参考价值和借鉴作用。
作者简介
山东工商学院计算机科学与技术学院

目  录
第1章 绪论 1
1.1 研究背景及意义 1
1.1.1 数据挖掘和文本挖掘 1
1.1.2 文本分类及其面临的问题 3
1.2 国内外相关研究 7
1.2.1 半监督学习 7
1.2.2 集成学习 10
1.3 本书内容组织 14
第2章 文本分类技术概述 17
2.1 文本分类预处理 17
2.2 文本的表示 19
2.3 特征选择 21
2.3.1 初始特征选择 22
2.3.2 特征选择算法 22
前  言
前言
文本分类(Text/Document Categorization)是指按照预先定义的主题类别,通过一定的学习机制,在对带有类别标签的训练文本进行学习的基础上,给未知文本分配一个或多个类别标签的过程。文本分类技术广泛应用于新闻媒体、网络期刊文献、数字图书馆、互联网等领域,是人类处理海量文本信息的重要手段。数据挖掘技术在信息检索、邮件过滤、Web个性化服务等领域的成功应用均在一定程度上依赖于准确的文本分类技术。因此,文本分类技术的相关研究一直是近年来国际学术界的研究热点。
本书对文本分类的关键技术进行了概述,阐述了基于半监督学习和集成学习的国内外相关研究,重点对基于半监督学习和集成学习的文本分类方法进行了深入探讨。

 基于半监督与集成学习的文本分类方法下载



发布书评

 
 

 

PDF图书网 

PDF图书网 @ 2017