现代汉语词语级歧义自动消解研究pdf/txt下载_在线阅读全文

内容简介

本文提出基于词语搭配强度计算的语境计算模RFR_SUM（SUM of Relative Frequency Ratio），用于处理各类词语级的歧义消解问题。各章节的顺序大致勾勒出该模型形成和发展的轨迹。提出广义组配理论框架，并据此建立语境计算模型RFR—SUM，用以处理语言中广泛存在的词语级歧义现象。将RFR—SUM模型应用于中文信息处理中的组合型切分歧义和交集型切分歧义的消解、兼类词的消解、多音词的消解以及词义消歧、语料库精加工、隐喻识别等多项任务中，均取得满意的结果，验证了该理论的普适性。本书可以作为从事自然语言处理和计算语言学相关研究人员的参考书。

目　　录

序一
序二
绪论
1 自然语言处理的根本问题
2　词语搭配问题的研究
3　本书的主要研究内容
第1章　词语组配的研究现状
1.1　汉语词语组配及其性质
1.2　国外词语搭配研究现状
1.3　国内词语搭配研究现状
第2章　词语搭配的自动抽取研究
　2.1　词语搭配的抽取方法
　2.2　搭配抽取框架的建立
　2.3　实验及其结果

序一 序二 绪论 1 自然语言处理的根本问题 2　词语搭配问题的研究 3　本书的主要研究内容 第1章　词语组配的研究现状 1.1　汉语词语组配及其性质 1.2　国外词语搭配研究现状 1.3　国内词语搭配研究现状 第2章　词语搭配的自动抽取研究 　2.1　词语搭配的抽取方法 　2.2　搭配抽取框架的建立 　2.3　实验及其结果 第3章　广义组配理论 3.1　广义组配理论的提出 3.2　语境的可计算性 第4章　语境计算模型RFR_SUM 　4.1　相对词频比RFR 　4.2　基本RFR_SUM模型 第5章　RFR_SUM模型在分词消歧中的应用 5.1 RFR_SUM模型应用于组合型消歧 　5.2　RFR_SUM模型应用于交集型消歧 第6章兼类词与多音词的消歧 　6.1 RFR_SUM模型在兼类词消解中的应用 　6.2　基于RFR_SUM模型的多音词的消歧 第7章词义消歧研究 7.1　RFR_SUM模型在词义消歧中的应用 7.2　无需词性标注语料的词义消歧实验 第8章　词义消歧的二元模型及集成研究 8.1 81_RFR_SUM模型 8.1.1　二元搭配强度和二元相对词频比（B1_RFR） 8.1.2　81_RFR_SUM模型 8.1.3　实验及结果 8.2　UNl_RFR_SUM与Bl_RFR_SUM的集成 8.3　多分类问题研究 第9章　超大规模语料精加工技术研究 　9.1　问题的提出 　9.2　现有标注软件的性能指标的计量研究 　9.2.1　ICTCl.AS系统标注结果分析 　 9.2.2　系统改进探讨 9.3　语料精加工的方法 　9.3.1　词表校对法 　 9.3.2　基于简单词语组合特性的方法 　9.3.3　基于多元组比对的方法 　 9.3.4　基于RFR_SUM模型的方法 9.4　初步实验结果 第10章　隐喻识别研究 10.1　隐喻研究现状 10.2　隐喻研究的意义 　…… 结语 主要参考文献 附录 后记

显示全部信息

在线试读部分章节

第2章　词语搭配的自动抽取研究
　对于词语搭配的自动抽取，国外较早开展了相关领域的研究。Smadja的Xtract系统是迄今为止关于搭配定量分析最为成功的工作。在Xtract系统中，Smadja提出了度量词语对之间搭配强度的汁算公式，引入了位置信息以及相关统计数据分布的离散度计算公式，集成了语料库语言学中词性自动标注技术，在一个规模为一千万词语的股票市场闻报告语料库上运行Xtract得到的结果显示，搭配提取的准确率达到80％。
　我国学者也在汉语词语搭配研究领域做了大量辛勤的工作，出版了多部词语搭配词典。但这些词典的编纂，主要还是使用手工抽词的方式，其搭配词语的客观性、覆盖度，以及对中文信息处理的贡献都有待进一步检验。对中文词语搭配的自动抽取研究相对比较少，其中以孙松的工作最为完整和深入，但其算法自动发现搭配的准确率只有33.94％。这对于建立大规模词语搭配知识库来说，无疑会加重人工校对的负担，而且使搭配获取的客观性受到影响。
　对现有中文词语的搭配抽取方法进行研究，发现需要在以下几个方面加以改进：
　（1）实验所用的语料，大多只经过分词处理，没有经过词性标注，这使得语料中缺少了搭配所需的重要信息。
　（2）抽取搭配词汇的同时，没有抽取出搭配的结构信息。
　（3）搭配抽取方案中没有充分利用语言学知识。
　　……

现代汉语词语级歧义自动消解研究下载

现代汉语词语级歧义自动消解研究

发布书评

相关图书推荐