发布者:上海IT外包来源:http://www.lanmon.net点击数:742
文本挖掘的一般框架包括两个模块。:文本细化将文本转换为可用于机器学习的媒体格式的任何格式。另一种是所谓的知识蒸馏,其中包括从这种媒体格式中获得模式或知识。媒体的格式可以是类似于概念图的半结构化表示或类似于关系数据的结构化表示。媒体的格式可以是基于文本的,每个实体代表一个文本,或者在概念上,每个实体代表一个领域中感兴趣的概念或对象。基于挖掘文本的媒体格式可以导出文本之间的模式和关系。
文本分组,文本显示和文本分类都是基于文本的媒体格式。采矿的例子。基于挖掘概念的媒体格式将导出对象或概念之间的模式和关系。预测建模和相关发现属于这一类。基于文本的媒体形式可以由基于概念的媒体形式代替,例如与特定域相关的信息的提取和重新排序技术。张花屏NLPIR,搜索的实验室和北京科技大数据挖掘研究所所长,开发大数据智能语义分析技术是语法,词汇和语法的综合应用。大数据NLPIR的平台语义智能分析是基于数据挖掘中国的综合要求,并结合研究成果收集准确的网络,自然语言理解,文本挖掘和语义搜索,以及整个互联网内容处理技术链的共享开发平台。
大数据NLPIR的平台语义智能分析主要包括准确的数据收集,文档转换,发现新的单词,单词分割批次,统计语言,文字的分组,分类文本,抽象的实体,智能过滤,情感分析,文件重复数据删除,全文检索和代码转换。凭借十余功能模块,该平台提供了多种使用该产品的形式,客户端工具,云服务和二次开发接口。分享到: