产品名称：PDFlib TET

产品编号：

软件中国产品价格有何不同？

出版厂商：
版　　本：最新版本
语　　言：
授权期限：
上架时间：
更新时间：
交货方式：联系销售人员
配货周期：与销售联系
销售热线：010-51266616
市场价格:（以销售人员正式报价为准）如何获得此产品的本地化服务？

产品介绍

推荐内容

Netop PrintLimit Pro
Netop PrintLimit Pro是一个屡获殊荣的打印管理软件，可帮助世界各地的组织管理和控制打印成本。监控打印，打印设置配额和收回成本与PrintLimit Pro的强大而灵活的功能。 PrintLimit专业版整
activePDF Printer
activePDF Printer把以PDF格式打印功能整合到应用程序中。产品特征：支持动态表格的创建，简化了报表过程支持40种以上的图片类型以PDF格式打印通过直观的坐标系统，简化文字和图片的
activePDF Portfolio
activePDF Portfolio具有优秀的性能特征，它包含可简化PDF的布署的所有工具，同时节省35％的费用。使用activePDF服务器来动态地生成PDF文件，同时控制PDF的输出选项，比如颜色管理，安全性
activePDF Toolkit Pro
activePDF 工具箱是一个可扩展的可编程的COM组件，它可以帮助用户创建和管理pdf文件。拥有该工具箱具有强大功能的API，使得对pdf文件管理的任何自动化操作成为可能－用户可以追加，印
activePDF WebGrabber
activePDF WebGrabber是一款在可缩放、多线程URL的PDF转换或HTML的PDF转换领域的工业领先地位的控件，无论是静态HTML文档还是动态数据驱动网络报表，WebGrabber都提供了多种功能支持，您并可
activePDF DocConverter
activePDF DocConverter是一款基于网络连接的服务器程序，它用于动态转换超过280种不同格式的文件为PDF文件，您只需设置一些输出参数即可，比如文件路径、打印和屏幕质量、安全性和其他

热点内容

京ICP备10037049号-2

PDFlib TET（文本内容提取工具包）是一款可以从任意PDF文档格式中可靠地提取文本信息的软件。它不仅可以作为一种库/控件，还可以一种命令行工具。该工具包可以使得PDF格式的文本内容转换成Unicode（统一的字符编码标准）字符串，并附加详细的字形和字体信息。一旦拥有了TET，你就可以从PDF文档中的文本获取相应的Unicode字符值，以及它在页面的位置。

PDFlib TET 特征：

除了低水平的文字获取功能外，TET还包含有文本内容分析算法——鉴别单词边界，去除冗余和重复文本（比如文字阴影和字体加粗）。使用辅助的PCOS接口，你就可以从PDF格式文本获取任意格式的对象，比如元数据，超文本等。

一旦拥有PDFlib,你就可以实现以下功能：
- 从PDF格式文本中提取内容，然后存储到数据库中
- 执行搜索引擎来处理PDF格式文本
- 将PDF格式的文本页面转换成XML格式文本，以便其他工具处理
- 基于PDF格式的文本内容进行处理
支持的PDF文本格式输入
- 版本1.6以下的所有PDF版本（Acrobat7）
- 所有的字体和编码类型：base 14字体，TrueType字体，PostScript字体， CID字体用40-128位密钥加密的PDF（适当的权限密码设置）
Unicode
- 尽管PDF文档中的文本并不是经常用Unicode进行编码，PDFlib TET将会使PDF文档中的文本统一规格化为Unicode字符。
- TET转换所有的文本内容为Unicode字符。中文文本将会转换成UTF-8或UTF16格式，同样地，其他语言的文本将会转换成本地的Unicode字符串。
- 连字符和其他多字符字形将会分解成一系列的Unicode 字符串。
- 没有适当的Unicode映射的字形可以被识别并且被映射到可配置的替换字符
完全支持CJK（中文，日文，韩文）语种
- TET包含有对中文，日文，韩文文本提取功能的全面支持。识别所有预先定义的CJK映射（编码）；支持横向和纵向书写模式。
内容分析和单词识别

TET不仅可以获取低水平的字形信息，还包含对内容分析的高级算法：
- 检查单词边界来获得单词而不是字符串。
- 重新组合带有连字符号的单词的各部分。
- 去除重复的文本内容，比如阴影效果文本和加粗效果的文本
- 按照阅读顺序重新整合段落
- 对页面上散乱的文本内容进行重排
- 重建文本行
几何功能
TET对文本提供精确的几何功能，比如页面定位，字形宽度，文字方位。在文字提取过程中，可以指定页面某区域被提取或不被提取，比如忽略头注，脚注或页边空白区域。
简单访问PDF对象的pCOS接口
TET包含有获取任意PDF对象的pCOS（PDFlib综合性对象系统）接口。拥有了pCOS，只要一个简单的查询接口，不需要任何底层编程，你就可以获取PDF元数据，超文本，或是除实际页面描述之外的其他任意信息。
编程和性能
TET是基于轻便性，高性能，健壮性思想进行开发的。TET在多线程服务器应用程序开发部署中保证线程级安全。核心库是由具有高性能和低成本的并且高度优化过的C代码编写的。附加的语言包对COM,C,C++,Java和.NET均有效。TET命令行工具和TET库TET在不同的开发环境中可以作为一种编程库（控件），以及在批处理命令中作为一种命令行工具。两者都提供了相同的基本功能，并且适合不同的部署任务。以下提供选择的参考指南：
- TET编程库可以整合到你的桌面或服务器端应用程序。关于使用包含所有支持的语言包的编程库的实例都包含在TET包中。
- TET命令行工具适合批处理PDF文档。它不需要任何的编程，只需要提供能够整合到复杂的工作流程中的命令行参数。TET命令行工具可以将PDF格式的页面内容转换为Unicode文本格式的XML文档（有或没有字符几何特征）

热门标签

产品名称：PDFlib TET