语料库使用说明

发布时间:[2019-12-14]  阅读次数:3212

本语料库可以提供按词检索和词组合检索,用户可以按规则编写检索语句。

一、以单个词为单位

1.1 检索确定的词, 如“非常”.

1.2 使用通配符检索,“_”表示任意一个字符,“%”表示任意多个字符,如“_果”可以检索所有第二个字是果的双音节词,“%果%”可以检索任意位置含有果的词。

1.3 根据内部结构检索,字用大写英文字母表示,字母相同表示在同位置上的字相同。如“AA的”表示所有第一个字和第二个字相同,且第三个字是的的词;再如“AABB”表示第一个字和第二个字相同,同时,第三个字和第四个字相同的词。

1.4 同时检索多个词,多个词中间用一个空格分开,如“是 不是”意为检索含“是”或“不是”的句子。

1.5 按词性检索,词性前用"$"表示,如“$a”表示所有形容词。

1.6 词长规定,用大括号内加数字或数字范围表示词长,如{2}表示长度为2,{2,8}表示词长为2-8。

1.7 词,词性,词长的组合顺序为先词然后词性最后词长,如“%果%$n{2,4}”表示含有果,且词长为2-4的名词。

二、组合

2.1 单个词可以组合在一起,形成复合规则,词单位间用"|"分隔,如“一边|一边”表示含有……一边……一边……的句子。

2.2 组合距离。组合时可以规定词单位的长度,格式与词长类似,但是应该用“|”与其他内容隔开,如“一边|{0}|一边”表示两个一边前后相接,“一边|{2,4}|一边”表示两个一边中间有2-4个词。

三、词的关系

3.1 用“@数字”表示词语相同关系。如 “AA的@1|AA的@1” 表示前后两个词一样。@后面的数字相同时,两个或几个位置上的词相同。“@数字”放在节点的最后。

四、性能

过长的规则会耗费大量服务器资源,检索速度与规则的复杂程度有关。在网页未能及时相应时,请不要频繁刷新页面。