《义务教育常用词表(草案)》由教育部语言文字信息管理司组编,厦门大学国家语言资源监测与研究教育教材中心、福建省高等学校人文社会科学研究基地“两岸语言应用与叙事文化研究中心”研制,苏新春教授主编。
《义务教育常用词表(草案)》共有音序词目 15 114 个,义类词目 17 092 个。多义词的不同义项如有明显难易差别的则标为不同的词级。词级分为四级,分别对应第一学段(小学1—2 年级)、第二学段(小学 3—4 年级)、第三学段(小学 5—6 年级)、第四学段(初中 1—3 年级)。一级词目有 2001 条,二级词 5503 条,三级词 5975 条,四级词 3613 条。按词长统计,单字词目 1651 条,双字词目 10 498 条,三字词目 387 条,四字词目 2578 条。
《义务教育常用词表(草案)》包括“音序表”与“义类表”。
“音序表”为主表。所有词条按音序排列。每个词条后带有 5 个信息:(1)词语,(2)拼音,(3)词级,(4)词性,(5)义类码。义类码由数目字和字母组成,据此可以查询到它在“义类表”中的语义类属。多义词则对各个义项分别标注读音、词性与义类。多义词的多个义项如读音相同,则列于同一个词目之下。拼音依据《汉语拼音正词法基本规则》d,具体参考了《现代汉语词典(第 7 版)》。《现代汉语词典》未收的词语,也依照《现代汉语词典》的注音原则标注了拼音。
“义类表”为辅表。参照的语义分类系统为《现代汉语分类词典》。《现代汉语分类词典》按五级语义层划分,收录现代汉语通用词 83 000 余条。《义务教育常用词表(草案)》的词语在其中能关联到的词条有 18 200 多个,经人工干预甄别,排除了不太适合中小学生学习的难僻义项,另增加了若干常用义项。词语后的数字表示词级。同一个五级类中的词语按词级排序,词级低的排前,词级高的排后;词级相同的,按词语的音节数的多少排序。“义类表”的作用在于将词条按语义的相同相近或相关就近排列,“以类显义”,“就近关联”,以方便词汇的教学、掌握与拓展。
《义务教育常用词表(草案)》将为中小学语文教学,中小学教材、教辅、工具书的编写,以及中文信息处理、机器翻译提供重要参考,有助于加强义务教育阶段语文教学的科学性,提高中小学语文教学水平,提高词汇学习的效率,促进汉语规范化和普通话推广,为我国语文应用及有关语文教育政策的制定提供基础数据。词表提供了义务教育阶段词汇学习的基本范围,词语分级有助于分学段有序进行词汇教学,义类编排有助于用同类集聚对比关联的方式来学习词汇。
福建省人文社会科学研究基地“两岸语言应用与叙事文化研究中心”
第一阶段研制人员:顾之川、卢丹丹、郑泽芝、李磊、杨书松、王玉刚、侯瑞芬、张永伟、李安、杜晶晶、周美玲、郑维宇
第二阶段研制人员:李行健、孙园园、张永伟、侯瑞芬、白冰、吴格明、龙东华、吕峡、田静、周东杰、银晴
本词表在研制过程中,始终得到国家语委与教育部语言文字信息管理司的大力支持。傅永和、李行健、陆俭明、田立新、李宇明、申继亮、张浩明、易军、王奇、李进忠、王立军、吴格明、顾之川、王铁琨、王岱、郭曙纶、赖华强等领导和专家给予了持续的关注和指导,王立军、吴格明精心审读了全稿。厦门大学语言学及应用语言学专业的研究生们参加了词表的校对、核查、订正工作,参与较多的有徐铂、孙浩峰、赵树元、徐晗、陈芳、陈昌旭、彭怡玲、张远洋、孟瑞森、黄世友、陈光辉、伍秀玉、赵冰雪、周迪、肖悦、蔡汶桦、洪若富、陈倩雯、赵晨晔等。给予帮助的还有陈贤登、陈丽萍、陈越等。在此一并表示感谢。
词表的研制涉及问题众多,词量的多少,词级的判定,义类的归属,都需要做深入的研究。特别是按义类编排,更是一个新的尝试。词语多义,分立取舍,词义复杂,交叉牵扯,往往牵一发而动全身。斟酌踌躇,旷日持久,不期有功,惟愿试焉。语义问题,见仁见智,不当之处,还望方家及读者指正。
关于词表的详细说明请下载:
目前已经开通了部分语料库的全文检索,近期将继续更新。
现语料库的教材种类及规模为:
序号 | 类别 | 数据库名称 | 词记录数 | 字符数 |
1 | 语料库 | 国内对外汉语教材 | 539489 | 771350 |
2 | 语料库 | 中小学语文教材 | 1289898 | 1834150 |
3 | 语料库 | 现代汉语语料库 | 107202650 | 174426634 |
4 | 词典 | 现代汉语分类词典 | 无统计数据 | 无统计数据 |
5 | 语料库 | 学科教材语料库 | 878365 | 1450898 |
总计 | / | / | 109910402 | 178483032 |
(1)国内对外汉语教材
序号 | 来源 |
1 | 博雅汉语;出版社:北京大学出版社;出版时间:2004,2006 |
2 | 汉语会话301句;出版社:北京语言大学出版社:出版时间:2006 |
3 | 汉语教程;出版社:北京大学出版社;出版时间:1992,1993 |
4 | 汉语教程;出版社:北京语言大学出版社;出版时间:1999,2003 |
5 | 交际汉语;出版社:科学普及出版社;出版时间:2003 |
6 | 阶梯汉语;出版社:话语教学出版社;出版时间:2004 |
7 | 桥梁;出版社:北京语言大学出版社;出版时间:2000 |
8 | 速成汉语;出版社:北京语言大学出版社;出版时间:1996 |
9 | 新标准汉语;出版社:北京大学出版社;出版时间:2004 |
10 | 新实用汉语;出版社:北京语言大学出版社;出版时间:2002,2005 |
11 | 中文;出版社:暨南大学出版社;出版时间:1997 |
(2)中小学语文教材
序号 | 来源 |
1 | 语文;出版社:北京师范大学出版社;阶段:初中;主编:孙绍振;初审时间:2004 |
2 | 语文;出版社:北京师范大学出版社;阶段:小学;主编:马新国,郑国民;初审时间:2001-2003 |
3 | 语文;出版社:江苏教育出版社;阶段:初中;主编:洪宗礼;初审时间:2002 |
4 | 语文;出版社:江苏教育出版社;阶段:小学;主编:张庆,朱家珑;初审时间:2001-2004 |
5 | 语文;出版社:人民教育出版社;阶段:初中;主编:顾振彪,顾之川,温立三;初审时间:2001-2004 |
6 | 语文;出版社:人民教育出版社;阶段:小学;主编:崔峦,蒯福棣;初审时间:2001-2004 |
7 | 语文;出版社:语文出版社;阶段:初中;主编:史习江;初审时间:2001-2002 |
8 | 语文;出版社:语文出版社;阶段:小学;主编:王均,杨曙望;初审时间:2003 |
(3)现代汉语语料库
序号 | 来源 |
1 | 报纸 |
2 | 博客 |
3 | 口语材料 |
4 | 网站新闻 |
5 | 文学 |
6 | 杂志 |
(4)现代汉语分类词典
(5)学科教材语料库
序号 | 来源 |
1 | 地理;出版社:湖南教育出版社;主编:刘新民;初审时间:2001 |
2 | 地理;出版社:人民教育出版社;主编:吴履平;初审时间:2001-2002 |
3 | 地理;出版社:中国地图出版社;主编:王民主;初审时间:2003 |
4 | 历史;出版社:北京师范大学出版社;主编:朱汉国;初审时间:2007 |
5 | 历史;出版社:华东师范大学出版社;主编:王斯德;初审时间:2001-2003 |
6 | 历史;出版社:人民教育出版社;主编:王宏志;初审时间:2001-2002 |
7 | 历史;出版社:四川教育出版社;主编:龚奇柱;初审时间:2003-2004 |
所有语料经过机器分词和机器词性标注。统计信息中分词单位数指词(包含标点符号)的总记录数,字符数包含标点符号。
《现代汉语分类词典》苏新春主编,纸质版由商务印书馆于2013年出版。
“词义标注规则库”来自苏新春教授主持的国家社科基金项目“基于国家语委‘通用语料库’之上的汉语义频词库的开发”,
主要用于多义词的计算机词义甄别。计算机词义甄别是计算机语言处理词汇层面上亟待解决的问题,相对于词的切分和词性标注其困难程度有高了许多,
其中计算机缺乏辨析多义词知识是主要困难,“词义标注规则库”通过提供直接的词义区别性形式特征作为甄别知识,从而达到计算机词义甄别的目的。
规则库为3775个多义词提供词义甄别知识,多义词的选择标准是双音节,高频,义项在2-5个之间,这些是现代汉语多义词的主体部分。
其内容总体上融合了“现代汉语语料库”的统计信息、“词义标注机用义项库”提供的计算机用义项、“现代汉语分类库”提供的语义类、“语法信息库”(来自《现代汉语语法信息词典》北京大学俞士汶等著)提供的语法框架。
这些基础性知识库经过统计和人工甄别形成“词义标注规则库”。利用这一知识库编写的词义自动甄别软件取得了较好的词义甄别效果。
“词义标注验证库”来自苏新春教授主持的国家社科基金项目“基于国家语委‘通用语料库’之上的汉语义频词库的开发”,主要用于多义词的计算机词义甄别。计算机词义甄别是计算机语言处理词汇层面上亟待解决的问题,相对于词的切分和词性标注其困难程度有高了许多。准确标准词义的语料对计算机词义甄别有重要意义,既可以作为词义甄别知识的统计来源,也可以用于计算机甄别效果的检验。但是这方面语料库的大规模开发又非常困难,成效不大。 为了增强可行性,“词义标注验证库”含3775个多义词的标注结果,多义词的选择标准是双音节,高频,义项在2-5个之间。库中每个词随机选取100-240个句子,人工标注义项。
本网站暂时每个义项公布20个句子。
本工具以《国际中文教育中文水平等级标准》(2021)词汇为依据,标注语料中词汇的等级,可以为挑选适用于国际中文教育的文本提供参考。程序还提示了文本中词汇在《现代汉语分类词典》(苏新春 2013)中的同类词,提示了同义近义词。
本工具还得到教育部中外语言交流合作中心教学资源建设重点项目“基于语料库的综合
在线学习词典”(YHJC21ZD-047)的资助。