当前位置:首页 > 社会科学 > 新闻传播出版 > 网络舆情分析技术
作者:王兰成 著出版社:国防工业出版社出版时间:2014年10月
- 版 次:1
- 页 数:
- 字 数:
- 印刷时间:2014年10月01日
- 开 本:16开
- 纸 张:胶版纸
- 包 装:精装
- 是否套装:否
- 国际标准书号ISBN:9787118093032
1)网页链接预测
网页中的链接是网络爬虫持续工作的前提,然而网页中既包含了主题相关的链接,也包含了大量与主题无关的链接,面向主题的网络爬虫技术需要对即将要下载的链接进行预测,以免下载到与主题无关的网页。网页链接预测就是判断当前已经下载的网页中的链接所指向的网页是否与需要的主题相关,这是主题爬行系统的关键所在,任何一个主题爬行系统都要求尽可能爬行到和主题相关的网页,这样在一定程度上可以避免出现主题漂移现象,也可以以最小的带宽资源获得最多的主题相关网页。近年来,国内外研究者们所做的工作大致归为两类:一类是对整个页面进行综合评价,但是现在的网页很多都是多主题的,也就是说在一个网页内并存几个主题,或者虽然有个比较主要的主题但是其他主题的内容也很多。面对这样的网页,页面中的每个链接被赋予相同的权重,势必会有大量的不相关的链接被提取出来,甚至很可能造成下文所述的“隧道”问题。第二类是基于链接的判断,即网页中的每一个链接依据它附近的文本赋予不同的权重,有些甚至还考虑了链接所在各级标题,但标题的加入有时候反而会使得主题变模糊,基于链接的判断最大的问题是因为所取的信息量偏少,可能有大量的相关链接不能够被提取出来。
网页分块技术能把网页分成不同的内容块,每一个内容块赋予不同的权重,超过一定阈值的内容块可以认为是和主题相关的。与主题相关的内容块里面的链接就假设都是和爬行主题相关的,把这些块中的链接放到爬行池等待下一步爬行,而把那些和主题不相关的块去掉,不爬行里面的链接。这种方法能更好地预测网页,既避免了针对整个网页进行评价的粒度过粗,又避免了基于链接判断方法的粒度过细,很大程度上能保证爬行下来的网页是和主题相关的。
2)多主题和隧道问题
随着网页制作技术和网站商业化进程的推进,当今网页中的内容和传统的文本相比有更多的表示形式,网页中的主题也不再单一。网页中有用户需要的主题内容,有与主题内容相关联的其他主题链接,还有很多信息只是为了方便浏览,如导航条、广告、版权信息等。网页中包含的多主题对于用户来说并不是什么问题,因为用户可以快速地识别出哪些是自己需要的主题信息,哪些是无关紧要的主题信息。然而这种多主题的网页却对网络爬虫产生了巨大的干扰,让机器去识别对用户有用的主题信息则困难较大。在web中还存在着一种现象,就是从当前已经得到的页面到目标网页有时往往需要经过几个不相关网页才能够达到,但是这几个网页之间都有着链接的联系。这些无关的链接就像长长的隧道一样连接着两个主题相关页面,因此,这种现象被称为“隧道现象”。
……