对于您过去存留的PDF文档,即使没有当时用于导出该PDF的原文件,您仍然可以将该PDF文件导入到TX Text Control .NET 中并自由地进行编辑,并将编辑过的文档保存成控件支持的各类格式文件。

从导入的PDF文件中计算页面布局是个技术活,PDF文件中包含大量的关于页面外观的信息,但不一定会有关于字体和嵌入其中的图片的相关信息,这又是让布局计算变得棘手。

另外,PDF文件中没有关于文本顺序,文本流的信息,连一段文字属于标题还是表格元素都没有进行标注。当然,最新的PDF规范中添加了这方面的内容(带段落标记PDF),但是这种PDF文件还没得到广泛使用。

TX Text Control .NET把能够查找的到的文本都进行提取和整理,添加缺失的空格和换行符并重排相应的文本与图片的次序,以确保文档排版符合其逻辑顺序。

控件提供以下三个参数向负责导入PDF文件的相应过滤器传递命令:

GenerateLines:该参数表示被导入文档是基于单行文本的,每行末尾有换行符。该参数适合大多数情况,除非您需要处理的PDF文档的文本内容中包含更多信息需要进一步处理。

GenerateParagraphs:该参数表示文档中由多个行组成各个段落。使用该参数可以免去导入后很多的细节调整工作,在导入像法律合同之类的大文件时尤其适用。

GenerateTextFrames:该参数表示将导入的文本及图片保持其在PDF文件中的原排版效果。使用该参数能产生与原始PDF文件最接近的效果。

功能支持

以下 TX Text Control .NET for Windows Forms 控件产品中对该功能提供了支持:

  • TX Text Control .NET for Windows Forms Professional
  • TX Text Control .NET for Windows Forms Enterprise