网络舆情分析技术

当前位置:首页 > 社会科学 > 新闻传播出版 > 网络舆情分析技术

  • 版 次:1
  • 页 数:
  • 字 数:
  • 印刷时间:2014年10月01日
  • 开 本:16开
  • 纸 张:胶版纸
  • 包 装:精装
  • 是否套装:否
  • 国际标准书号ISBN:9787118093032
作者:王兰成 著出版社:国防工业出版社出版时间:2014年10月 
内容简介
  王兰成编著的《网络舆情分析技术(精)》以国家社科基金专项课题和全军专项研究生课题的研究成果为背景,对互联网主题舆情分析的理论、方法、技术和实现进行研究。将国内外领先的知识技术运用于网络舆情的采集和网络舆情的分析过程,抛砖引玉促进我国在网络舆情采集、处理和服务方法与技术领域的深入研究,推动军内外网络舆情信息系统中新技术的研究和应用创新。在网络舆情智能采集方面,本书的主要工作是:研究网络舆情情报规划与获取,研究主题网络舆情的语义特征抽取,研究舆情网页内容相关性的判定,研究舆情网页链接相关性的判定等。在网络舆情智能处理方面,本书的主要工作是:研究主题网络舆情的本体构建,研究语义层的舆情信息聚类和分类方法,研究基于情感本体的网络舆情倾向性分析等。在网络舆情智能服务方面,本书的主要工作是:研究舆情事件网页内容的词汇关联分析,研究基于网络论坛的舆情话题追踪方法和技术,研究网络舆情检索系统中的查询主题分类技术等。
目  录
第1章 导论
1.1 互联网舆情信息
1.2 网络舆情采集
1.3 网络舆情处理
1.4 网络舆情服务
1.5 内容概览
第2章 网络舆情的分析
2.1 网络舆情的信息采集
2.1.1 网络舆情的采集方法
2.1.2 搜索引擎的研究进展
2.1.3 网络信息的分类及其抽取
2.2 舆情话题的搜索技术
2.2.1 话题搜索的基本原理
2.2.2 话题搜索的若干技术
在线试读部分章节

  1)网页链接预测
  网页中的链接是网络爬虫持续工作的前提,然而网页中既包含了主题相关的链接,也包含了大量与主题无关的链接,面向主题的网络爬虫技术需要对即将要下载的链接进行预测,以免下载到与主题无关的网页。网页链接预测就是判断当前已经下载的网页中的链接所指向的网页是否与需要的主题相关,这是主题爬行系统的关键所在,任何一个主题爬行系统都要求尽可能爬行到和主题相关的网页,这样在一定程度上可以避免出现主题漂移现象,也可以以最小的带宽资源获得最多的主题相关网页。近年来,国内外研究者们所做的工作大致归为两类:一类是对整个页面进行综合评价,但是现在的网页很多都是多主题的,也就是说在一个网页内并存几个主题,或者虽然有个比较主要的主题但是其他主题的内容也很多。面对这样的网页,页面中的每个链接被赋予相同的权重,势必会有大量的不相关的链接被提取出来,甚至很可能造成下文所述的“隧道”问题。第二类是基于链接的判断,即网页中的每一个链接依据它附近的文本赋予不同的权重,有些甚至还考虑了链接所在各级标题,但标题的加入有时候反而会使得主题变模糊,基于链接的判断最大的问题是因为所取的信息量偏少,可能有大量的相关链接不能够被提取出来。
  网页分块技术能把网页分成不同的内容块,每一个内容块赋予不同的权重,超过一定阈值的内容块可以认为是和主题相关的。与主题相关的内容块里面的链接就假设都是和爬行主题相关的,把这些块中的链接放到爬行池等待下一步爬行,而把那些和主题不相关的块去掉,不爬行里面的链接。这种方法能更好地预测网页,既避免了针对整个网页进行评价的粒度过粗,又避免了基于链接判断方法的粒度过细,很大程度上能保证爬行下来的网页是和主题相关的。
  2)多主题和隧道问题
  随着网页制作技术和网站商业化进程的推进,当今网页中的内容和传统的文本相比有更多的表示形式,网页中的主题也不再单一。网页中有用户需要的主题内容,有与主题内容相关联的其他主题链接,还有很多信息只是为了方便浏览,如导航条、广告、版权信息等。网页中包含的多主题对于用户来说并不是什么问题,因为用户可以快速地识别出哪些是自己需要的主题信息,哪些是无关紧要的主题信息。然而这种多主题的网页却对网络爬虫产生了巨大的干扰,让机器去识别对用户有用的主题信息则困难较大。在web中还存在着一种现象,就是从当前已经得到的页面到目标网页有时往往需要经过几个不相关网页才能够达到,但是这几个网页之间都有着链接的联系。这些无关的链接就像长长的隧道一样连接着两个主题相关页面,因此,这种现象被称为“隧道现象”。

  ……


 网络舆情分析技术下载



发布书评

 
 

 

PDF图书网 

PDF图书网 @ 2017