内容简介
本书基于汉语词典学界和中文信息处理界重“词”轻“语”的现象,对词组研究、熟语研究进行了反思,提出“熟语单位”(Idiom Unit,IU)的概念。所谓“熟语单位”,就是“结合紧密,使用稳定”、功能相当于熟语的结构单位,是符合人的认知规律并被人们经常当做一个词来使用的定型化了的固定短语或凝固表达式。我们判别IU的三条原则为:是否“结合紧密,使用稳定”;是否符合人们的认知规律(IU的长度一般为7±2);流通度是否达到一定的阈值。IU理论上包括一切具有熟语性的词语组合单位。本书讨论的IU范围包括三字格中的惯用语和像“差不多、靠不住、来不及”这样介于词和短语之间的结构串,四字格中的成语和新固定短语,简称略语、插入语和字母词语等。
本研究选用的是《人民日报》2001-2003年三年的文本,约8000万字。文章以动态语言知识更新理论为指导,以流通度理论为基础,以年平均流通度阈值(0.5)作为主要筛选依据,运用规则和统计相结合的方法对“熟语单位”(IU)进行了初步的提取研究,并对部分提取结果的噪声环境作了定量与定性分析。
对于IU的提取,我们采取的策略和基本步骤是:
(1)利用点号和“的、是、在、和、了、有”等高频词(字)将文本化短;自动提取时牺牲包含切分点的字符串,该部分字符串另行补救。
(2)数据格式转换。将切分得到的形式上“完整”的2-8字串转为数据库格式。
本研究选用的是《人民日报》2001-2003年三年的文本,约8000万字。文章以动态语言知识更新理论为指导,以流通度理论为基础,以年平均流通度阈值(0.5)作为主要筛选依据,运用规则和统计相结合的方法对“熟语单位”(IU)进行了初步的提取研究,并对部分提取结果的噪声环境作了定量与定性分析。
对于IU的提取,我们采取的策略和基本步骤是:
(1)利用点号和“的、是、在、和、了、有”等高频词(字)将文本化短;自动提取时牺牲包含切分点的字符串,该部分字符串另行补救。
(2)数据格式转换。将切分得到的形式上“完整”的2-8字串转为数据库格式。