节点文献

统计机器翻译中汉维短语对抽取的研究

免费订阅

【作者】 任高举吐尔根·伊布拉音艾山·吾买尔

【Author】 REN Gao-ju,Turgun Ibrahim,Hasan Umar (College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China)

【机构】 新疆大学信息科学与工程学院

【摘要】 双语短语对抽取是基于短语的统计机器翻译中短语翻译模型训练的关键步骤,但由于汉维平行语料库规模有限,数据稀疏问题严重.本文提出了一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维吾尔语词的情况(包括不连续),然后利用Och方法抽取短语对,最后考虑维吾尔语SOV语序结构特点,抽取双语短语.实验表明,该算法能够较准确地且尽可能多地抽取汉维短语对,从而提高翻译模型的质量.

【基金】 国家自然科学基金项目(60663006,60763006)
【所属期刊栏目】 信息科学与技术 (2010年03期)
  • 【分类号】TP391.2
  • 【被引频次】8
  • 【下载频次】125
节点文献中: 

本文链接的文献网络图示:

浏览历史:
下载历史: