知云文献翻译工作原理

知云文献翻译工作原理是选中pdf中的一段话时软件会复制出选中的文字,并对文字做一些修剪(比如去掉非段落换行),然后传输给翻译引擎翻译,并显示在右侧侧边栏中。如果无法选中pdf上的文字或者虽然可以选中,但复制出来的文字是乱码的、布局错乱的、丢失空格的等情况就会导致翻译异常。知云文献翻译支持阅读翻译标准编码的文字型PDF。非标准编码及图片型pdf均不可直接阅读翻译,需要先用ocr软件转换成标准编码的文字型pdf后才可使用知云文献翻译阅读翻译。


标准编码的文字型pdf

pdf中可以正确的选中文字、复制它,并粘贴到记事本中之后看到的文字和pdf中相同。

image.png


非标准编码的PDF

非标准编码的pdf:有些pdf虽然肉眼看上去是正常的,但可能无法选中文字或虽然可以选择文字但布局错乱,或复制出的文字乱码。以下非标准编码的PDF无法直接使用知云文献翻译翻译阅读。但都可以通过使用OCR软件转换这些故障pdf成标准编码的pdf,然后再使用知云文献翻译。


1、图片格式的pdf。

使用文本工具无法选中pdf上的文字。这类pdf可能是书籍扫描成图片,然后再转换制作而成的pdf,也可能是pdf发布者为了防止读者复制其中的文字,先将文档转成图片,然后再由图片转换制作而成的pdf。还有一些pdf虽然放大不失真,但是pdf制作者将文字全部转曲了(“文字转曲”是印刷术语),即文字不在是字而是形状。这类pdf特点是人眼能看到上面的文字,但文本工具无法选中上面的文字。

完全无法选中.gif


2、pdf布局错乱

下面这个pdf内部文本框布局错乱,选中一栏文字的时候把对侧栏的文字一起选中了,提取的文字就不连贯,翻译不会正确。

布局错乱.gif


3、pdf内部文字复制出来乱码

pdf打开用肉眼观看是正常的,但是选中后复制到记事本或word中文字是乱码的。这类pdf无法直接使用知云文献翻译翻译。

文字乱码1.gif

下图所示pdf选中后翻译全部是“甄”字。同时从pdf中选中一段话,然后复制并粘贴到记事本中,也全都是“甄”字。而不是正常的英文。

汉字乱码.gif

image.png


4、前面行号一起选中

行号一起选中.gif

5、复制出的文字没有空格或部分没有空格

看下图右侧原文区域,文字单词之间没有空格,会导致翻译异常。

image



接下来推荐您阅读:

OCR软件介绍及功能强大的几款OCR软件(win|mac)