ChinaByte 12月26日消息 在电视剧《巨蟒飞行马戏团》的著名片段中,演员Cleese有许多种表示鹦鹉已经死了的不同说法。他说:“这只鹦鹉再也没有了。”“它已到期,见它父母去了。”“它的新陈代谢过程现在已成历史。”
在解释语句上,计算机不可能做到如此接近原意。同一意思的英文句子有许多不同表现形式,这就使得计算机很难识别语句,更不用说生成语句了。
现在,两名研究人员已经创造了一种程序,它可以自动地生成英文句子的语义句型。研究人员采用了几种方法,包括从基因分析中借鉴的统计技术。
该程序从在线新闻的特别主题中汇集文本,从这些分类主题中的特定句型中学习,然后用这些句型产生新句子,这种新句子以不同的词汇表示相同信息。
麻省理工学院电子工程与计算机科学系助教授Barzilay和康乃尔大学计算机科学副教授Lee说,虽然他们研究的程序不能生成电视剧中那么滑稽的句子,但是该程序还是可以相当熟练地改写新闻材料中的平常句子。比方说,有一个新闻句子说:“令人吃惊的爆炸伤害了20人,其中5人伤势严重”,他们的程序可将此句子与数据库中的相同句型进行比对,然后生成如下句子:“20人在爆炸中受伤,其中5人情况严重。”
英文句子生成程序可以感知或生成英文句子的多重表达方式,这种表达方式可以在一天内被广泛使用。程序可用来帮助制作报告的总结,或者用它检查重复或剽窃的文件。将来在程序中输入问题后,程序可自动地调整语句,以便更容易地用搜索引擎来搜索数据。
这种程序甚至还能成为作者工具,如果作者希望让自己的文章适应不同读者的背景。Lee教授说,研究人员已经设想让程序成为一种“时尚拨号盘”,即自动地为不同读者群体改写文本,比如将技术论文改写成儿童百科全书。然而教授还指出,他们的工作仅是初步的,在程序可应用之前还有许多工作要做。(完)