> 硕士毕业论文 > 46400字硕士毕业论文手写汉字识别数据库的大规模连接

46400字硕士毕业论文手写汉字识别数据库的大规模连接

论文类型:硕士毕业论文
论文字数:46400字
论点:汉字,数据库,手写
论文概述:

本文通过对SCUT gPen数据库样本进行整理、统计并做了大量的实验,实验结果证明了网络采集的gPen数据库的大规模的、广泛性和无约束性的特点,同时整理后的数库还具有很强的实验和测试价值

论文正文:

第一章简介

研究背景和发展现状

近年来,随着以智能手机和平板电脑为代表的智能移动设备越来越多地进入人们的生活,触摸屏的广泛使用,汉字手写输入已经成为人机交互最便捷、最自然的方式,也推动了在线汉字识别技术的快速发展。近十年来,在众多学者和研究人员的推动下,人工神经网络、支持向量机SVM、近年来提出的基于安卓和云计算的高性能手写识别分类器如修正二次判别函数(MQDF)和手写识别系统,在云计算平台上为移动终端提供强大、快速、准确和个性化的手写识别服务,以供网络辅助使用。因此,它解决了许多高精度识别分类器由于模型参数复杂、对CPU和内存要求高、识别时间长而在移动设备上应用受限的问题。因此,联机手写汉字识别吸引了越来越多的学术界和工业界的关注,越来越多的人开始投资于联机手写识别系统的研究和开发。
我们知道手写汉字数据库的建立是手写汉字识别技术研究和发展的基础。然而,随着汉字手写识别分类器和算法的不断发展,与之相关的手写汉字数据库的发展相对缓慢。到目前为止,只有少数几个数据库可以使用。此外,早期的数据库仍然存在字体单一(整齐的常规脚本)和样本不足(每个单词数百个样本)的问题。然而,随着近年来的发展,汉字笔迹识别数据库的发展已经从单一字体的楷书发展到了楷书、行书、简体字和繁体中文等多种样本集。样品空不断扩展,个性化和多功能性程度大大提高。手写汉字数据库的研究越来越受到人们的重视,新的数据库和相关文献不断发表。
从1993年最早的联合国国际笔会项目到最近十年,已经出版了许多与手写数据库有关的文件。有些是以离线数据库命名的,如英国的CENPARMh3]和CEDER数据库、法国的IRONOFF数据库、印度的ISI数据库、日本的ETL-8/ETL-9数据库、中国的IAAS4M、HCL2000和HIT-MW。网上数据库很多,例如日本的网上数据库Kuchibue和Nakayosi,最近发布的网上手写汉字数据库被SiA-OLHWB和SCUT-COCHE 200陶醉,导致手写识别的大力推广和快速发展。特别是近年来,越来越多的注意力集中在基于不同语言的公共基础数据库的建设上,如联机手写汉字数据库、脱机阿拉伯字符手写数据库、脱机西班牙文本数据库、波斯手写文本数据库等。[/BR/]目前主要有日本电子技术实验室的ETL-8/ETL-9、中国科学院自动化研究所的IAAS-4M、清华大学的THO CR-HC、华南理工大学的ITRI、台湾工业技术学院的ICUT-IRAC、北京邮电大学的HCL2000、哈尔滨工业大学的HIT-MW和香港大学的HK2002。其中一些数据库已广泛应用于汉字识别领域。本文所用的数据库来自华南理工大学HCII实验室开发的华南理工大学通用公共英语联机手写汉字识别系统。数据库是大规模的、在线的和不受约束的。

2研究目的和意义

一个标准的、具有良好代表性的手写汉字样本库是手写汉字识别研究的前提和基础。建立一个大规模的、广泛的、不受约束的汉字数据库将促进我国汉字识别的发展。它的直接意义在于:

第三章华南理工大学GPEN数据库简介.........28-35
3.1华南理工大学数据库.........28-29
3.2华南理工大学的整体架构.........29-31
3.3 gpendacleanup软件.........31-32
3.4 gpen数据库排序算法.........32-33
3.5信任的基本原则.........33-34
3.6本章摘要.........34-35
第4章华南理工大学GPEN数据库统计.........35-42
4.1 gpen数据样本在GB1和GB2.........35
4.2 GPEN数据样本若干样本.........GB1子集精加工过程中的39-41
.........布35-36
4.3 GPEN数据样本笔画.........36-39
4.4 4.5本章摘要.........41-42
第五章实验分析和结果.........42-51
5.1 GPEN数据库培训测试.........42-43
5.2其他数据库培训测试.........43-44
5.3特定类别测试和.........44-47
5.3.1顶部.........44-45
5.3.2底部20.........45
5.3.3实验结果分析.........45-47

总结与展望
本文通过对华南理工大学gPen数据库样本的整理、统计和大量实验,证明了网络采集的gPen数据库的大规模、广泛性和无约束性。同时,排序后的数据库也具有很强的实验和测试价值,实验结果也证明系统的识别率有了很大提高。
针对本文所完成的主要工作,总结如下:
(1)论述了联机手写汉字识别数据库的研究背景和发展现状,阐述了建立一个标准、良好的大规模无约束数据库的目的和意义。
(2)讨论了联机手写汉字识别的方法和研究。简要介绍了汉字识别的分类、联机手写汉字识别的难点、国内外联机手写汉字识别的发展、汉字识别的预处理技术、特征提取和分类器的设计等。

参考
[1]莲金文、高燕、刘刚、丁凯云阳里。:scut-couch2009a综合在线无约束中文手写数据库和基准评估,ijdar 14。第53-64页(2011年)。
[2][国际笔会项目/br/][3]孙振英,纳达尔,加州,莱高,雷,麦,塔,林,洛杉矶:无约束手写数字的计算机识别。载于:《电气和电子工程师协会议事录》,80(7),1162-1180 (1992)。
[4]赫尔,j .:手写文本识别研究数据库。IEEE传输。模式肛门。马赫。智力。16(5),550-554 (1994)。
[5]维亚德-高丁,加州,拉里肯,下午,克内尔,南卡罗来纳州,宾特:IRESTE开/关(IRONOFF)双手写数据库。载于:《第五届文件分析和承认国际会议记录》,国际文献研究中心99年,第455-458页(1999年)。
[6]巴特查亚,美国,乔杜里,英国:研究识别印度文字手写字符的数据库。载于:《第八届文献分析与识别国际会议录》,国际文献研究中心,第789-793页(2005年)。
[7]毛利,s .,山本,k .,山田,h .,斋藤,t .:手印日本汉字字符数据库. bull.eletech.lab43 (11-12),752-773 (1979)。
[8]刘永杰,戴建伟,刘建杰:400万手写汉字样本库简介。《东方语言的中国计算与处理国际会议录》,国际计算机语言学会89卷,第94-97页(1989年)。
[9]葛,y,霍,q:手写汉字大词汇量脱机识别几种建模方法的比较研究。载于:《第16届国际模式识别会议记录》,ICPR02,第85-88页(2002年)。
[10]苏、泰、张、泰、关:基于语料库的通用中文手写文本脱机识别HIT-MW数据库。Int。j .文件分析。重新设计IJDARO710(1),27-3 8 2007。