现代汉语词语级歧义自动消解研究

当前位置:首页 > 社会科学 > 语言文字 > 现代汉语词语级歧义自动消解研究

  • 版 次:4
  • 页 数:
  • 字 数:280000
  • 印刷时间:2008年12月01日
  • 开 本:12k
  • 纸 张:胶版纸
  • 包 装:平装
  • 是否套装:否
  • 国际标准书号ISBN:9787030236463
作者:曲维光著出版社:科学出版社出版时间:2008年12月 
内容简介
本文提出基于词语搭配强度计算的语境计算模RFR_SUM(SUM of Relative Frequency Ratio),用于处理各类词语级的歧义消解问题。各章节的顺序大致勾勒出该模型形成和发展的轨迹。提出广义组配理论框架,并据此建立语境计算模型RFR—SUM,用以处理语言中广泛存在的词语级歧义现象。将RFR—SUM模型应用于中文信息处理中的组合型切分歧义和交集型切分歧义的消解、兼类词的消解、多音词的消解以及词义消歧、语料库精加工、隐喻识别等多项任务中,均取得满意的结果,验证了该理论的普适性。本书可以作为从事自然语言处理和计算语言学相关研究人员的参考书。
目  录
序一
序二
绪论
1 自然语言处理的根本问题
2 词语搭配问题的研究
3 本书的主要研究内容
第1章 词语组配的研究现状
1.1 汉语词语组配及其性质
1.2 国外词语搭配研究现状
1.3 国内词语搭配研究现状
第2章 词语搭配的自动抽取研究
 2.1 词语搭配的抽取方法
 2.2 搭配抽取框架的建立
 2.3 实验及其结果
在线试读部分章节
第2章 词语搭配的自动抽取研究
  对于词语搭配的自动抽取,国外较早开展了相关领域的研究。Smadja的Xtract系统是迄今为止关于搭配定量分析最为成功的工作。在Xtract系统中,Smadja提出了度量词语对之间搭配强度的汁算公式,引入了位置信息以及相关统计数据分布的离散度计算公式,集成了语料库语言学中词性自动标注技术,在一个规模为一千万词语的股票市场闻报告语料库上运行Xtract得到的结果显示,搭配提取的准确率达到80%。
  我国学者也在汉语词语搭配研究领域做了大量辛勤的工作,出版了多部词语搭配词典。但这些词典的编纂,主要还是使用手工抽词的方式,其搭配词语的客观性、覆盖度,以及对中文信息处理的贡献都有待进一步检验。对中文词语搭配的自动抽取研究相对比较少,其中以孙松的工作最为完整和深入,但其算法自动发现搭配的准确率只有33.94%。这对于建立大规模词语搭配知识库来说,无疑会加重人工校对的负担,而且使搭配获取的客观性受到影响。
  对现有中文词语的搭配抽取方法进行研究,发现需要在以下几个方面加以改进:
 (1)实验所用的语料,大多只经过分词处理,没有经过词性标注,这使得语料中缺少了搭配所需的重要信息。
  (2)抽取搭配词汇的同时,没有抽取出搭配的结构信息。
  (3)搭配抽取方案中没有充分利用语言学知识。
  ……

 现代汉语词语级歧义自动消解研究下载



发布书评

 
 

 

PDF图书网 

PDF图书网 @ 2017