用于文本挖掘的文本挖掘工具
DMC文本过滤器是HYFsoft推出的提取纯文本的通用库。DMC文本过滤器可以从各种文档格式的数据或插入的OLE对象中完全删除特殊控制信息,并快速提取纯文本数据信息。方便用户管理、编辑、检索和浏览各种文献数据资源的信息。
DMC文本过滤器采用多语言、多平台、多线程的先进设计理念,支持多语言(英文、简体中文、繁体中文、日文、韩文)、多操作系统(Windows、Solaris、Linux、IBM AIX、Macintosh、HP-UNIX)、多字符集编码(GBK、GB18030、Big5、ISO-8859-1、KS X 1001、Shift _ 1提供多种形式的API函数接口(文件格式识别函数、文本提取函数、文件属性提取函数、页面提取函数、设置用户密码的PDF文件的文本提取函数等。),方便用户使用。用户可以很容易地将该产品组装到自己的应用程序中进行二次开发。通过调用该产品提供的API函数接口,可以快速从各种文档格式的数据中提取纯文本数据。