瞎扯淡 双语自动匹配

Peter · 2014年03月14日 · 1466 次阅读

http://www.legco.gov.hk/yr92-93/english/lc_sitg/hansard/h930714.pdf http://www.legco.gov.hk/yr92-93/chinese/lc_sitg/hansard/h930714.pdf

上面是两份文件,是很好的对照翻译,如果要把其中的中英文句子对应地整理出来,大家有什么好的思路没有?

我想到的方法是: 1 分句,有序地存入中英两张表。 2 用一本中英文词典,在两张表中匹配。因为分句的原因,中英两张表不可能完全对应,所以匹配要有一个范围,比如前后 10 条。 3 前面的匹配好之后,为后面的匹配提供帮助。比如说有两句匹配度到 90%,那后面句子匹配度应该加权,匹配度就应该非常高。 4 最后将没有匹配度很低的句子前后查找一下,看看是是不是分句的时候中英文差别很大。这样可以把断开的句子合并。

先想到的方法就是这样,不知道还有没有高人能指点一下,谢谢。

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请 注册新账号