本白皮书将探索如何通过使用LEADTOOLS Document Imaging SDK中的先进技术充分利用PDF/A,将其作为通用的文档存储格式。
简介
电子文档归档已经不再是简单的扫描纸质文档,然后将其保存为图像或PDF。现在,许多文档已经不在从纸质版开始,可能只是诸多开发或专有格式中的一个。如何和在哪里存储文件是不同文件格式带来的差异。许多企业有自己的“数据岛”,包括本地电脑、网络共享文件和云服务。最后,移动设备和平板电脑的流行增强了我们对标准化文档归档的需要,因为这些设备可能不支持有些格式。
公司在信息上运行,电子存档的规模和多样性不断增长,我们准确有效查询数据的能力经常会跟不上。PDF/A就是为此而生的,由于光栅图像格式如TIFF、JPEG除了文件名称之外没有其他可搜索的特性,因此迁移所有文件格式依然是一个挑战。本白皮书将探索如何通过使用LEADTOOLS Document Imaging SDK中的先进技术充分利用PDF/A,将其作为通用的文档存储格式。
使用PDF/A创建一个可搜索的文档存档
多年来,PDF被广泛认可,并作为文档存档、内容管理、记录保存、风险管理、诉讼和发现的最佳格式。对于PDF/A来讲更是这样,它的设计理念就是存档和经得住时间的考验。PDF/A完全自包含,在文件里存储了字体、颜色管理、注释、图像等。无论操作系统、设备、显示屏和默认字体怎么改变,文档都一直保持着它的外观,不会改变。
规范化你的存档会在存储分配、生产率和成本方面带来很多好处。由于PDF是一个广泛支持的格式,因此查找和查看文档的问题大幅较少了。选择PDF/A作为你的唯一文档归档格式非常明智,但是只解决了整个问题的一小部分。有待解决的问题是转换不同的归档,并确保以后的存储都以一个统一的方式完成。
少数的应用和扫描仪有保存为PDF的功能,但这是不必要的且成本很高。此外,文档可能来自组织内部,也可能来自组织外部,因此在某种程度上必须处理和转换文档。如果没有精心设计的自动化流程,很难实现规范化存档的好处。在正确校正和维护新设想的文档存储系统时会遇到很多困难和挑战,因此许多组织回避了全数字化。他们常常知道自己需要改变什么,却不知道如何以整体和划算的方式完成这个目标。
LEADTOOLS Document Imaging SDK让一切变为可能
如果这个情况的全部或一部分听起来很熟悉,无非是LEADTOOLS。它的Document Imaging SDK包含创建一个通用PDF/A文档归档所需的一切图像技术。
全面支持PDF和PDF/A文件格式
LEADTOOLS为PDF格式提供了完整的控制,包括高级功能,如提取文本、超链接、书签、元数据以及更新、分割和合并已有PDF文档的页。LEADTOOLS拥有数十载的图像压缩经验,它的PDF SDK为您提供了一流的多样化的PDF压缩选项,包括JBIG、JPEG2000和混合光栅内容。还包含了其他相同商业SDK不提供的功能,如阅读、显示、编辑和写入本地PDF注释和标记,实现了与Adobe Acrobat和其他兼容PDF查看器的无缝连接。
不用受PDF文件格式的摆布,不用为PDF编辑功能付出过高的成本,LEADTOOLS为您的归档系统提供了不可思议的机会,你完全可以自己做决定,进行自定义。
光学字符识别(OCR)和转换
LEADTOOLS轻松解决了将已有的多种混合文件格式存档转化为统一的PDF/A存档的问题。它可以加载、保存和转换150余种光栅向量和文档文件格式。
并不是所有格式都是基于文本和可搜索的,LEADTOOLS使用快速准确的光学字符识别技术将这些图像转化为可搜索的PDF/A。LEADTOOLS的高级OCR SDK支持40多种语言和字符,包括英语、西班牙语、法语、德语、日语、汉语、阿拉伯语等,这个可靠的解决方案为大企业提供了全球的跨国家服务。
大多数基于文本的PDF文件比转换前的原始光栅图像小。此外,仅用几行代码就能完成这些操作。
IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage, false); ocrEngine.Startup(null, null, null, null); ocrEngine.AutoRecognizeManager.Run(_strInputFile, _strOutputFile, DocumentFormat.Pdf, null, null);
虚拟打印
大多数应用都有打印的能力,毕竟,这是文档归档的开始。然而LEADTOOLS并没有将文档打印成纸质版,然后使用扫描仪或OCR将其转化回可搜索的的数字媒介,而是使用LEADTOOLS虚拟打印机从开始就完成了它。
使用这个方法,不仅可以处理通常要打印的文件,还可以归档许多信息源包括邮件、传真、网站、社交媒体和几乎所有文件格式。另一个好处是,绝大多数要打印的文件和资料是文本的,这意味着生成的PDF是可搜索的,且不需要任何处理,而且,与原始文档相比准确率达到了100%。
DocumentWriter _documentWriter; public void _printer_EmfEvent(object sender, EmfEventArgs e) { // 创建一个文档页,以e.Stream传递EMF DocumentPage documentPage = DocumentPage.Empty; documentPage.EmfHandle = new Metafile(e.Stream).GetHenhmetafile(); // 将EMF加载为文本上的光栅图像 e.Stream.Position = 0; documentPage.Image = _codec.Load(e.Stream); // 添加页面 _documentWriter.AddPage(documentPage); } public void _printer_JobEvent(object sender, JobEventArgs e) { if (e.JobEventState == EventState.JobStart) { // 初始化DocumentWriter PdfDocumentOptions pdfOptions = new PdfDocumentOptions(); pdfOptions.DocumentType = PdfDocumentType.PdfA; pdfOptions.FontEmbedMode = DocumentFontEmbedMode.Auto; pdfOptions.ImageOverText = true; _documentWriter = new DocumentWriter(); _documentWriter.SetOptions(DocumentFormat.Pdf, pdfOptions); _documentWriter.BeginDocument(_pdfFileName, DocumentFormat.Pdf); } else if (e.JobEventState == EventState.JobEnd) { // 添加字体,结束文档 AddAndInstallFonts(e.JobID); _documentWriter.EndDocument(); // 加载PDF System.Diagnostics.Process.Start(_pdfFileName); } }
最后,LEADTOOLS虚拟打印机可被配置运行在一个服务器上,使用互联网打印协议(IPP)通过你公司的LAN和web都可访问。这种灵活性方便你保存归档以备后用,虚拟打印能打印几乎所有信息,然后通过一个中央业务工作流流程自动将其归档。
HTML5零空间占用查看器
仅仅将你的文档保存为PDF并不意味着可以从查看器中获益。尽管PDF应用非常广泛以至于很少有人认为无法加载它们。但是在大多数情况下,仍然需要插件和查看应用程序。通过使用LEADTOOLS中基于HTML5和JavaScript的查看器,你可以创建一个真正基于云的不需要任何插件或下载的图像查看解决方案。所有的复杂图像处理和显示都在客户端完成,显示时间很快,且有一个响应式的用户界面。
总结
使用LEADTOOLS将你的文档存储标准化为PDF/A不再是一个艰巨、复杂和昂贵的任务。多平台程序员友好的库包括了转换已有的文件、管理和规范化你的PDF、创建业务工作流所需的一切。你完全可以放心,你们公司所有用于高效有效操作的信息都能被正确存档,正确访问。