记录普通话词汇为主的中型词典 普通话词汇系统的选词规则主要有

昭棠笔记 2023-02-04

337am-音响器材网

2022年4月30日发

(作者:where is the love)

第19卷现代教育技术Vo1百度快照排名.19

20092009年第7期ModernEducationalTechnologyo.7

对外汉语教材等级词频统计模块构建

——一种辅助对外汉语教材词汇难度评量的工具

梁少丽宋继华

(北京师范大学信息科学与技术学院,北京100875)

【摘要】在对外汉语教材的编著过程中,用词频度和难度直接影响教材编著的质量。根据《汉语水平词汇与汉字等级大纲》

(以下简称《大纲》)8000多等级用词目、词性、难度等级三个属性,设计并实现对外汉语教材编著系统难度等级词频统计模

块长沙百度优化,并在20万教材语料基础上,进行实验。实验证明,在速度上取得了较为良好的效果。

【关键词】对外汉语教材编著系统;词频检索统计;汉语词汇等级;键树

【中图分类号】G40-057【文献标识码】A【论文编号】1009—8097(2009)07—0086—04

一引言

教材编写是对外汉语教学资源建设的重要环节站优云优化平台,如何提升

教材编写的速度和质量茂名网站建设,使人们从教材编写过程中那些诸如查

生词、控制词汇、加注拼音等费时费力而且容易出错的繁琐

工作中摆脱出来,现代技术手段的有机融入是非常必要的。正

如崔永华教授所说的那样:“只有语言学、语言教学和现代技

术的完美结合,才能让编写教材变得这么方便、快捷、准确、

得心应手。”【1】

如何控制教材编写难度等级以适应不同水平教材使用者

的需要,同时避免汉语教学内容的盲目性和随意性网站优化方案,一直是教

材编写者面对的重要问题。编写者控制教材难度,主要是通过

量化语言点百度网站提交,即对词汇、语法、功能、文化进行分级平湖网,检查教

材语料分级语言点覆盖以及分布情况seo文案,并反复修改教材内容,

来达到控制教材水平的目的。在实际操作中营销案例ppt,由于词汇的可控

制性最强,所以如何网站推广,水平等级教材主要是在词汇上控制难度[1]。

基于以上论述百度排名靠前,本文将尝试着设计并实现对外汉语教材编

著系统中的难度等级词频统计模块。以《大纲》[3]8000多等

级词汇为难度等级依据,统计模块将分别统计出汉语教材语料

词汇中甲、乙、丙、丁、超纲词频率襄樊网络公司,以及这些词在教材各处

的分布情况,以确定教材的用词难度,教材编写者可依据该模

块得出的统计结果对教材用词进行相应的调整以控制教材的

难度水平工信部网站备案查询。

对外汉语教材编著系统应运而生自媒体推广活动,陈锋在其硕

士论文《对外汉语教材编写辅助系统的设计与实现》[2]中提到

编写教材的流程图如图1所示。随着计算机、网络、语料库等

技术的飞速发展口碑营销案例,现代教育技术在对外汉语教学中的应用范围

不断拓展百度优化排名,这为对外汉语教材编著系统的技术实现提供了可靠

的保障站优云优化平台。

二难度等级词频统计模块设计与实现

目前百度行业报告,出现了一些辅助对外汉语教材编著工具,主要有储

[4]和厦门大学卢伟等人开发的“基

诚志博士设计的《中文助教》

于WEB的对外汉语教材编著系统”。《中文助教》通过8000多

万字的现代汉语平衡语料库处理分析得出常用度等级生词国外推广,提

供了使用频度分析[1];卢伟等人开发的对外汉语编著系统中济南网站优化,

利用《大纲》对教材语料进行等级词语检索统计以实现教材的

定量分析与控制[5]。这两类工具的教材难度定量分析任务,主

要还是通过词汇难度划分来实现的,因此,本文将借鉴此思路购物网站建设,

图1编写教材的流程图

——————————

收稿日期:2009年4月7日

86

使用《大纲》作为教材难度等级词频分析的重要依据。

《大纲》(1992年)由对外汉语教学领导小组办公室

修订完成,它不仅为对外汉语教学词汇量的界定、等级的划分、

词性的确定等方面提供了较为科学的依据排名精灵。同时它也是现阶段

国内对外汉语教学设计、教材编写、课堂教学的主要依据哈尔滨网站开发需要多少钱,有

本文难度等级词频统计模块设计将着严谨的结构和权威性[6]域名历史。

直接参考《大纲》中的词汇的词性、难度等级等信息。

1设计思路

本文的设计思路如下图2所示:

度优先搜索来匹配目标文本串和树中多个关键词网站优化工作室,如果目标文

本串在键树中存在一条从根到叶子节点的路径怎么上facebook,统计频率加

一超级外链,否则电子商务 网络营销,放弃对当前的操作互联网营销论坛,继续处理下一个词更好的seo学习网站。

图2难度等级词频统计模块设计思路图

汉语是以字为单位,词与词之间没有明显的边界信息搜索引擎排名。当

句子长度和句子结构复杂性增加cookies是什么,句中出现的词数量随之增

多,除了检索过程中词汇歧义问题将越发突出外,词检索次数

也越发频繁百度竞价技巧。为了解决这些问题庆阳网站建设,本文首先使用分词模块对教

材语料做分词处理临沂seo,让处理后的语料得到的边界、词性信

息;然后seo资源,在检索统计模块中,根据分词后语料携带的各种信

息,参考《大纲》中给出的词汇、词汇难度等级、词性三者对

应关系站站查询,做归类统计操作千度快手,获得词频、词性词频、词等级难度

词频、超纲词数目以及等级词汇和超纲词汇在不同语篇中分布

等各类信息青岛seo服务。其中,词汇、词汇难度等级、词性对应关系如图

3所示:

图4键树的双链树结构

本文在文献[7]的基础上搜索引擎登陆,以《大纲》词汇作为关键词集怎样优化网站,

在深入分析《大纲》中8000词的基本特征规律、存储特征及

词首字在区位码中的分布情况基础上,设计哈希表与键树相结

合的存储结构,实现对外汉语教学编著系统中的词汇等级难度

检索统计功能。

(1)基于哈希表与键树相结合的存储结构

受关键词首字取值以及关键词词长影响,《大纲》关键词

存入键树后邯郸网站推广,形成了一棵根节点孩子兄弟分支深度达到2000

多层,而其它分支深度不超过5层的键树结构百度刷下拉框。如果能将关键

词的首字以某种方式进行分类网站推广李守洪排名大师,重新组织键树结构,将能有效

的缩短最长分支的长度。由此网络 营销,我们考虑到了汉字区位码关键词优化,利

用《大纲》关键词首字在区码的均匀分布情况武汉网站推广,解决以上问题。

汉字在区位码中占72区网站链接,其中16区到55区为一级汉字;

56区到87区为二级汉字网站推广软件有哪些。《大纲》中关键词首词有2057个茶叶品牌推广,

一级汉字有2495个营销案例网,二级汉字只有8个狼雨seo,绝大部分首字分布

在一级汉字中。对这2495个首字在一级汉字区的深入分析,

我们发现这些汉字几乎是等概率分布于各区中郴州网站制作公司,数据如图5

所示。

图3《大纲》词汇等级与词性的对应关系

2检索统计模块实现

文本检索依赖于关键词模式匹配鄂州网站。多关键词模式匹配是从

目标文本中一次查匹配多个关键词的过程。文献[7]中借用

键树结构[8](图4所示)的双链树形式保存关键字seo研究协会网,使用了多

关键词模式匹配进行检索网站软文推广。它的具体做法是:将所有待搜索关

键词保存在键树结构中,用叶子结点标志关键词结束,并且在

叶子结点中也保存了关键词的频率信息;检索统计时,使用广

图5《大纲》词汇首字在一级汉字区中的分布情况

87

本文采用哈希表和键树相结合的存储结构,利用关键词首

字区码分割《大纲》关键词键树陕西百度推广,将其转化为多颗子键树存储

在哈希表中,使每个子键树和哈希表中的存储位置相对

应。改造后的结构如图6所示:

对单独使用键树结构和哈希表与键树相结合存储结构,在语料

量和关键字数量上,进行检索统计对比整合营销沟通。硬件环境为Inter

Pentium(R)DCPU3学习seo.0Hz,内存2怎么做百度推广.0G;软件环境为Window

XP,MyEclipse6深圳推广.0链接交易,JRE1危机公关案例.6baudu。实验结果如表1所示。

表1键树结构和改进后的哈希表键树结构检索统计实验对比

上表对比分析,语料量大小直接影响检索速度;而在语料

量相同的情况下,使用改进后的哈希表与键树相结合存储结构

分别存储《大纲》4000词和8000词作为关键词进行检索网站推广途径,两

图6改进后的哈希表键树结构

(2)构建存储结构步骤:

①采用汉字GB-2312码与区号的对应关系,作为哈希映

射函数。插入前,出关键词首字苏州网站建设公司哪家好,使用首字的GB-2312码

计算出区码,获得哈希表中当前关键词待插入位置。汉字区位

码与GB-2312码对应关系为:GB-2312码每个字符都用两个

字节表示,第一字节为“高字节”,由字符的区号值加上32

而形成;第二字节为“低字节”行业词库,由字符的位号值加上32高权重域名。

②确定子键树在哈希表中位置后域名和空间,查子键树中是否已存

在该关键字,如果不存在宝应seo,则将关键字插入子键树中;如果存

在网络平台推广,直接转入步骤③

③检查关键字叶子的结点中b2c seo,相关的词性、难度等级信息

是否建立。如果不存在相关信息,就建立词性、难度等级间的

对应关系;否则网站优化北京,继续插入下一关键词。例如:“把”字在难

等级词表中出现了两次兰州网站推广,一次为甲级,对应介词、量词;第二

次为丙级,对应动词。检查“把”字时,也需要两次确认词性、

难度等级间的对应关系。

3实验

我们的检索统计实验语料来自于《新实用汉语课本》、《菲

律宾华语课本》、《今日汉语》、《当代中文》、《基础商务汉语》

等5部汉语教材网站改版,语料多达20万字。以《现代汉语语法信息

词典详解》[9]基本词类中定义的18个词性广告投放推广,附加词类中定义

的5个词性(前接成分、后接成分、成语、习用语、简称略语)

为标准爱站词数,使用中科院ICTCLAS分词系统(研究版)进行分词信息流广告,

88

通过对《新实用汉语课本》1-5册的定量分析,总体来看,

随着教材水平层次的加深,甲级占比例逐渐减少安卓优化大师官方下载,乙、丙、丁

级则逐渐上升。一般情况下,对外汉语教学大纲根据教学目标

将教材分为初级、中级、,按照对外汉语教学领域经验深圳seo培训,

初级教材超纲词包括《大纲》丙、丁级词百度后台登陆,中级教材超纲词包

括《大纲》丁级词。文献[10]给出对外汉语教材编写和选用的

一些参考值广东网站建设公司排名,如下表3所示。我们借用这种标准来衡量《新实

用汉语课本》www baidu com cn。《新实用汉语课本》1-2册为基础水平,第一册

词汇总体上符合难度要求、第二册的词汇超纲量超出标准9

个百分点;第三册、四册作为初级到中级衔接赛雷猴,我们将其按中

级标准做处理巧说seo论坛,第三册、第四册、第五册的超纲词汇比例分别

者耗时相差不大。

此外云南网站设计,我们选用畅销海内外的《实用汉语课本》第一册

到第五册教材课文文章发布平台,进行词频、词性词频、词等级难度词频、

超纲词数目等统计操作什么是百度竞价排名。经过重叠词、地名、人名、时间词、

数量词过滤后隐藏链接,得到如表2所示数据沈阳百度。

表2《新实用汉语课本》系列教材统计结果

为:25.7%、23上海seo公司哪家好.4%、31%长沙 网站建设。因此,《新实用汉语课本》3-5册

存在超纲情况,并且是略高于标准中的超纲范围网站排名软件。

表3语言教学内容调整幅度

我们的系统中整站seo。

——————————

参考文献

[1]王飙移动互联网推广.编教软件《中文助教》评述[J]seo优化原则.国际汉语教学动态与研

究seo 优化,2006网络营销策划,2:98-102百度点击软件.

[2]陈峰百度竞价,对外汉语教材编写辅助系统的设计与实现[D].南京:南

京师范大学南充网络公司,2008网站检测.

[3]汉语水平考试委员会办公室考试中心.汉语水平词汇与

汉字等级大纲[S]网站推广论坛.北京:经济科学出版社百度搜吧,2001.

[4]《中文助教》网站[EB/OL]南昌网站优化.

[5]卢伟百度第一贴吧.基于WEB的对外汉语教材编著系统理论依据与设计

开发[J].外语电化教学,2006,6:30-35最新关键词.

[6]李泉.对外汉语课程、大纲与教学模式研究[M].北京:商务出

版社google 推广,2006:113-114.

[7]马志柔,叶屺关键词.一种有效的多关键词词频统计方法[J].计算机

工程,2006,32(10):190-193.

[8]严蔚敏,吴传民东网站seo公司.数据结构(C语言版)[M].北京:清华大学出版

社,1996:247-248.

最后seo自学网,我们选定了一些《大纲》词汇和超纲词汇上海seo优化,测试了

这些词汇在《新实用汉语课本》系列教材课文语料中的分布情

况wap营销,来检验教材循序渐进性(系统性)。如《大纲》甲级词汇

“比较”,以动词词性在第4册50课和第5册55课中各出现

1次上海seo优化,以副词词性在8篇课文中出现,其中第4册48课6次网站免费推广,

第3册36课和第4册45课各3次;再如超纲词汇“聊天”共出

现了4次,第3册27课2次网站收录,32课1次湘潭网,第4册39课1次。

这些也体现了该教材在词汇方面采取了螺旋式的安排方式,有

利于学习者的掌握。

三结论

本文基于《大纲》资源互联网运营,利用现代教育技术对教材中词汇

进行系统的计量分析人际网络营销课程,通过构建了辅助对外汉语教材词频等级

统计模块什么是百度指数,为教材中语料词汇难度定量分析提供了基础昆明网页制作。今后百度推广登陆,

随着外汉语词汇教学中对词汇常用义项日益重视谷歌seo优化策略,要求我们下

一步工作主要集中在一个方面淘宝关键词查询,即参考其它词汇教学大纲或词

典,用已有的模块统计大规模教材语料,确定词汇的常用义项,

人工对词义项划分难度等级网站制作推广,将词义级的词汇频度统计引入到

[9]俞士汶推广.现代汉语语法信息词典详解[M](第二版).北京:清华

大学出版社,2003:41-42sns是什么意思.

[10]对外汉语领导小组办公室站长工具网,高等学校外国留学生汉语教

学大纲(长期进修)(第三版)[M]寇玉磊,北京

:北京语言大学出版

社baidu comn,2007:18.

CtructionofanApproachforCountingChineseGradedWordsandCharacters

——AToolforAssessingDifficultyLevelofWordinChineseLanguageTeachingMaterialsWritingSystem

LIAGShao-liSOGJi-hua

(CollegeofInformationScienceandTechnology广州网站优化,BeijingormalUniversity鄂州网站,Beijing100875,China)

Abstract:IntheprocessofwritingteachingmaterialofteachingChineseasaforeignlanguage广州优化推广,GradedWordsandCharactersdirectly

paper,onthebasisofGradedWordsandCharactersforChineseProficiency,wedesign

Statisticsmodulesforobtaininariousfrequ

experimentwithteachingcorpusof200000charactersandgetagoodperformance刷百度分享.

Keywords:WordFrequencyCounting;GradedWordsandCharactersforChinese;Tri-Tree

89

ziwei-等待绽放歌曲