节点文献

多语种eml文件编码及语种识别算法研究

免费订阅

【作者】 张健任炜蒋欣陈辰赖跃群袁保社

【Author】 ZHANG Jian 1,REN Wei 1,JIANG Xin 2,CHEN Chen 3,LAI Yao-qun 1,YUAN Bao-she 4 (1.Xinjiang Honlian Software Co.Ltd.,Urumqi,Xinjiang 830002,China;2.Xinjiang Uygur Autonomous Region Security Bureau,Urumqi,Xinjiang 830002,China;3.Xinjiang Uygur Autonomous Region Economy and Information Committee,Urumqi,Xinjiang 830002,China;4.College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China)

【机构】 新疆虹联软件有限责任公司新疆维吾尔自治区国家安全局新疆维吾尔自治区经济和信息化委员会新疆大学信息科学与工程学院

【摘要】 Eml文件是当前流行的邮件正文格式之一,国内国际对汉、英、俄语种的识别和研究技术已比较成熟,但维吾尔语、哈萨克语及阿拉伯语研究还处于起步阶段.本文研究了包含汉、维、哈、阿拉伯、俄、英文六个语种的eml文件编码格式及编码获取算法,尤其是采用维吾尔语、哈萨克语及阿拉伯语书写的的eml邮件,正确解析邮件头信息和正文内容,实现了对eml文件的语种精确识别.

【关键词】 eml编码识别多语种语种识别
【基金】 2009年新疆维吾尔自治区高技术研究项目(项目号:200912117)
【所属期刊栏目】 信息科学与技术 (2010年04期)
  • 【分类号】TP391.1
  • 【被引频次】3
  • 【下载频次】99
节点文献中: 

本文链接的文献网络图示:

浏览历史:
下载历史: