瞎扯淡 双语自动匹配

Peter · March 14, 2014 · 1458 hits

http://www.legco.gov.hk/yr92-93/english/lc_sitg/hansard/h930714.pdf http://www.legco.gov.hk/yr92-93/chinese/lc_sitg/hansard/h930714.pdf

上面是两份文件,是很好的对照翻译,如果要把其中的中英文句子对应地整理出来,大家有什么好的思路没有?

我想到的方法是: 1 分句,有序地存入中英两张表。 2 用一本中英文词典,在两张表中匹配。因为分句的原因,中英两张表不可能完全对应,所以匹配要有一个范围,比如前后 10 条。 3 前面的匹配好之后,为后面的匹配提供帮助。比如说有两句匹配度到 90%,那后面句子匹配度应该加权,匹配度就应该非常高。 4 最后将没有匹配度很低的句子前后查找一下,看看是是不是分句的时候中英文差别很大。这样可以把断开的句子合并。

先想到的方法就是这样,不知道还有没有高人能指点一下,谢谢。

No Reply at the moment.
You need to Sign in before reply, if you don't have an account, please Sign up first.