近日,国内OCR领域的领导厂商文通信息正式推出了“TH-OCR2005数据录入工厂”升级版。据了解,此次升级版本在识别速度、识别准确率、版面恢复、识别格式输出等方面都有了较大提升,值得一题的是“TH-OCR2005数据录入工厂”升级版增加了纵向校对模块,即用户在校对过程中,可以将识别成同一个字的图像块集中在一个窗口内进行校对,从而大大提高了识别结果的准确性。业界人士指出: “TH-OCR2005数据录入工厂” 升级版的问世,将为纸质文档电子化提供更为得力的工具,同时对各行各业的信息化建设也将起到积极的促进作用。
随着计算机网络的飞速发展,信息的电子化已经成为一个必然趋势。文字作为信息最重要、最集中的载体,其电子化进程尤为重要。而OCR技术则是文字电子化过程中最重要的环节。据文通信息介绍,通过OCR技术,用户可以将通过扫描仪、摄像机等光学输入方式得到的书籍、报刊、文稿、表格等印刷品的图像信息转化为可供计算机识别和处理的文本信息。因此与传统的手工录入方式相比,OCR技术大大提高人们资料存储、检索、加工的效率。目前,在文通信息等厂商的推动下,OCR技术已经广泛应用在金融、电子政务、保险、报业、税务、工商等行业。
作为文通信息在OCR领域的核心产品之一,TH-OCR2005数据录入工厂代表了当今中文字符识别系统的最高水平。据文通信息的技术人员介绍:之所以将其称为“录入工厂”,是因为该系统的功能贯穿了纸质文档电子化工作的始终,无论是录入、识别、校对、版面还原、输出存储,TH-OCR2005数据录入工厂都能帮助用户实现。据悉,升级后的TH-OCR2005数据录入工厂可保证每人每天能录入10万字;先进的纵校技术,不仅能使用户在2小时之内可以实现20万汉字的校对,而且文件错误率可以降到万分之三以下;独有恢复版面工具,可以恢复原图像的任何一点细节,使信息得到最完整的保留。而在格式的输出上,除去可以生成HTML、RTF、TXT和PDF等这些常规格式文件外,TH-OCR2005数据录入工厂还提供一个JDA中间格式文件,支持转换其他专有格式打印。目前,TH-OCR2005数据录入工厂已经在中国国家图书馆、中海石油渤海分公司、国家安全部、上海交大图书馆、天津南开大学图书馆等数十家单位得到了成功应用。




