数据挖掘和文本分析技术

时间：2023-07-08 百科知识版权反馈

【摘要】：对于企业竞争情报工作而言，有几个我们并不愿意接受，但却基本正确的基本判断：信息如潮水般涌来，即便是相关信息的监测和搜集都已超出了人的手工操作能力，更不要说分析抽取有价值的情报了；信息并不是情报，信息、数据只是能够从中提取情报的原料或者称为矿石。文档自动分类一般采用统计方法或机器学习来实现。

对于企业竞争情报工作而言，有几个我们并不愿意接受，但却基本正确的基本判断：信息如潮水般涌来，即便是相关信息的监测和搜集都已超出了人的手工操作能力，更不要说分析抽取有价值的情报了；信息并不是情报，信息、数据只是能够从中提取情报的原料或者称为矿石。在这个被信息淹没的时代，这些情报矿石的品位并不很高，我们拥有的提炼技术还很初级；情报是信息、数据背后的含义，获得情报的关键是理解和判断能力。在这一点上我们现在拥有的强大的IT却显得有些无能为力；数据表明，一个企业或组织80%的信息是以文本的形式存放的，包括WEB页面、技术文档、电子邮件等。由于IT还没有被赋予对文本的阅读和分析能力，而文本数量的飞速增长和经常改变使人们已经没有足够的时间和精力处理数量巨大的文本，但这又是组织存在和运转所必需的。

竞争情报存在于事实、事件、关系、变化之中，竞争情报工作就是需要监测和采集这些事实、事件、关系、变化的信息，并分析它们自身以及对于所关心事物的意义。这就意味着我们需要监测和搜集的信息可能会非常广泛，就如同美国在国家竞争中投入巨资监听全球所有国家几乎一切通讯波段一样。作为一个企业和组织不可能有这样的能力对竞争环境和竞争对手进行全面的信息监测和搜集，而一种现实可行的替代方案，对企业或组织进行媒体和文献文档信息的监测和搜集。

面对今天浩如烟海的文本信息，如何帮助人们有效地收集和选择感兴趣的信息，如何帮助用户在日益增多的信息中自动发现新的概念，并自动分析它们之间的关系，使之能够真正做到信息处理的自动化，这已经成为信息技术领域的热点问题。我们已经可以对结构化的数据进行很好的分析和处理，真正的困难在于非结构化的信息，也就是我们通常说的文本信息。人们迫切需要能够从大量文本文档中快速、有效地发现有用资源和知识的方法和工具。在这种强烈需求的驱动之下，文本挖掘技术诞生了。

在讨论文本挖掘技术之前，我们先要讨论一下结构化信息的挖掘问题。结构化数据我们已经建立了有效的分析和处理方法，计算机可以很好地进行处理。为什么呢？因为我们可以告诉计算机这些数据之间的逻辑关系和寻找各种关系的模型。而对于非结构化的数据——自然语言文本，我们还没能做到这一点。这是因为我们对于结构化数据已经可以“操作性”地描述它们的关系和模式，比如加、减、比例、对数、微分等等。对于拥有几乎是无限个变量的自然语言，我们还做不到这一点。

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。文本挖掘是信息挖掘的一个应用研究分支，用于基于文本信息的知识发现。文本挖掘利用智能算法，如神经网络、基于案例的推理、可能性推理等，并结合文字处理技术，分析大量的非结构化文本源（如文档、电子表格、客户电子邮件、问题查询、网页等），抽取或标记关键字概念、文字间的关系，并按照内容对文档进行分类，获取有用的知识和信息。文本挖掘技术涉及多种科学学科，涵盖了多种技术，包括数据挖掘技术、信息抽取、信息检索、机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。

文本挖掘实际上就是利用计算机的高速度和海量处理能力，来帮助人们处理文本信息。怎样帮助人来处理文本信息呢？这还要从人如何利用文本信息谈起。我们知道，人们需要信息是要理解信息所代表的含义。在这一点上计算机理解自然语言的能力还非常有限，几乎帮不了人的什么忙。只有人“规定”一个符号序列等同于什么，并且用什么样的形式去表达（如数字、文字、图像、音频序列）。除此之外，计算机什么也不“想”，也不会“想”。说穿了，在弄清楚人的思维的奥秘之前，我们恐怕还没有办法让计算机具有思维能力，哪怕是很初级的。因此，计算机目前能够解决的还是符号序列和符号序列之间的关系，比如发现两个文本文件中出现了相同的符号序列，一篇文献中同一个符号序列出现了多少次等。可以说，目前文本挖掘的本质还是统计的和结构的分析技术，远远没有达到语义的层次。即便是基于样本的学习训练方法和神经网络等人工智能方法，都是如此。从目前文本挖掘技术的研究和应用状况来看，从语义的角度来实现文本挖掘还没有可能，目前研究和应用最多的几种文本挖掘技术包括文档聚类、文档分类和摘要抽取。

文档聚类就是通过对文档的字词和结构特征进行分析，用来发现与某种文档相似的一批文档，帮助知识工作者发现相关知识。聚类方法通常有：层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。文档聚类常常用于将一批文档聚类成若干个类，提供一种文档分析方法和组织文档库的方法。聚类分析可以用来发现文档特征生成文档分类器，以对文档进行分类。文本挖掘中的聚类分析可用于提供大规模文档库内容的总括，判断文档之间的相似程度。在搜索引擎服务中，用来减轻浏览相关、相似信息。

文档分类和聚类是不同的，区别在于分类是基于已有的分类体系表的，分类表是通常由人工指定，是进行了语义处理的。一般比较准确、科学地反映了某一个领域的划分情况，所以在信息系统中使用分类的方法，能够让用户手工建立一个等级分类体系来找到自己需要的信息，达到发现知识的目的，这对于用户刚开始接触一个领域想了解其中的情况，或者用户不能够准确地表达自己的信息需求时特别有用。而聚类分析则没有这样的分类表，只是基于文档之间的相似度。并且仅仅在聚类分析的前提下生成的分类还需要人工赋予语义解释。也就是说，机器聚类筛选出来的特征可能是人无法理解的。文档自动分类一般采用统计方法或机器学习来实现。常用的方法有：简单贝叶斯分类法，矩阵变换法、K-最近邻参照分类算法以及支持向量机分类方法等。

自动文摘是由于互联网上的文本信息、机构内部的文档及数据库的内容都在呈指数级的速度增长，用户在检索信息的时候，可以得到成千上万篇的反馈结果，其中许多是与其信息需求无关或关系不大的，如果要剔除这些文档，则必须阅读完全文，这要求用户付出很多劳动，而且效果不好。自动文摘能够生成简短的关于文档内容的指示性信息，将文档的主要内容呈现给用户，以决定是否要阅读文档的原文，这样能够节省大量的浏览时间。自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。最简单的自动文摘方法就是截取文章头部有限数量的文字，生成文档的文摘。

一般来说要求自动文摘应能将原文的主题思想或中心内容自动提取出来，文摘文字应具有概况性、客观性、可理解性和可读性。按照生成文摘的句子来源，自动文摘方法可以分成两类，一类是完全使用原文中的句子来生成文摘，另一类是可以自动生成句子来表达文档的内容。后者的功能更强大，但在实现的时候，自动生成句子是一个比较复杂的问题，经常出现产生的新句子不能被理解的情况，因此目前大多用的是抽取生成法。

从文档挖掘的现实来看，虽然距离语义层次的理解和知识挖掘的理想还很遥远，但是已经在文本搜索、剔除重复、文档聚类分析、自动分类和文摘方面取得了实用的效果。其实，我们每天使用的搜索引擎技术中就已广泛地应用到了文本挖掘技术。信息化的社会、商业环境和组织内部每天都在产生海量的文档信息，而人们已经没有足够的精力和时间去处理这些文本信息，因此文档信息的自动化处理已经是刻不容缓的商业需求。因此文本挖掘技术及其相关的文档自动化处理技术具有非常广泛的应用前景和商业价值。

如果从情报搜集和分析的角度来看，文本挖掘技术已经在为我们的情报搜集活动提供支持，特别是网络情报收集方面。可以预期，随着网络文献量的海量增长，搜索、相似性判别、剔除重复、聚类和分类、文摘和管理，各类文本处理和信息挖掘技术将被更加广泛地应用到情报搜集和管理之中。很多文本挖掘技术的应用是一般用户感觉不到的。从情报分析的角度看，核心工作还是要靠人来进行，但是大量的预处理、整序和信息统计特征分析则可以由文本挖掘及其相关技术来完成。随着语料库语言学的发展和大规模语料语义研究的进展，文本挖掘技术可能会给我们的情报分析和判断带来巨大的便利，甚至会出现一些基于语料的文本分析工具，这些工具可能能够处理文档中语词之间的关系。

关于文本挖掘技术的现实应用和期望，有两点需要特别指出：首先，不要过高期望文本挖掘技术在语义层面有很大的突破，不要对其理解力和智能化有过高的奢望。特别是在短时间内，理解、想象和含义判断依然是人类的专利和专长。其次，文本挖掘技术已经在为我们带来便利和效率——如搜索引擎中的剔除重复和自动文摘。不要奢望文本挖掘很快越过语义鸿沟，也不要因为语义鸿沟的存在而看不到其重要的应用意义和巨大的商业价值。

非结构化数据语义分析

案例来源：互联网作者：冬雨时间：1997.07 整理点评：陈飔 2004.02

Title：对美国之音报道《中国政府加紧镇压地下基督教》文本的语义技术分析

原始资料Title：对美国之音一则报道的技术分析

摘要：本案例试图以一则报道为例，对美国之音所使用的信息深加工技术进行了语义技术分析，并对信息的授受双方提出了解读建议。

关键词：非结构化数据分析、语义分析、美国之音、信息、语义加工技术

作者曾是美国之音的忠实听众，深知美国之音在中国政治生活中的重要影响，认为有必要对其影响听众的精湛技术进行分析。使听众能更好地从美国之音获取信息，同时也给中国传播媒介提供学习的参考。此外声明：本文仅做技术方面的分析，不涉及道德或价值判断。

VOAreport：CHINA/CHRISTIAN June 5，1997（舒茨奥报道）

◇◇中国政府加紧镇压地下基督教◇◇

人权组织「自由之家」表示，中国政府加紧镇压中国的地下基督教，镇压包括监禁和折磨。「自由之家」上个月在中国五个省秘密会见了地下基督教的成员。加拿大多伦多基督教学院的马歇尔教授是这批「自由之家」考察人员的领队。他说，1994年开始中国当局对基督徒的镇压活动在一年前升级了。马歇尔说，「人们对我们说，现在对地下教会成员的普遍处罚是三年劳改。地下教会的牧师或领导人初犯时可能被处以这样刑罚。」据保守的估计，中国信奉基督教的人大约有五千万，这个数字是1990年估计数字的三倍。他认为，这个数字的爆炸性增长可以解释当局为什么最近大规模镇压基督徒。马歇尔说，这是在中国唯一一个遍布全国各地的组织。这个组织不受官方控制。中国政府非常害怕任何不在官方控制之内的活动在全国展开。

“他说，1994年开始中国当局对基督徒的镇压活动在一年前升级了”

这句有语病，所指的镇压升级时间可猜测为：93年、94年或96年。

“人们对我们说，现在对地下教会成员的普遍处罚是三年劳改。地下教会的牧师或领导人初犯时可能被处以这样刑罚。”

前后两句互相矛盾。确切地说，前一句描述的情形非常严峻，后一句则轻微得多。前一句处罚的范围含糊不清，怎样处罚很清楚。后一句相反，处罚的范围很清楚，怎样处罚却含混不清。接受哪句取决于听众的心态和对实际情况的了解。另外，以前是什么处罚没有说。这本来是不应该遗漏的，因为标题和前面有两句话提到镇压的“加紧”和“升级”。

“据保守的估计，中国信奉基督教的人大约有五千万，这个数字是1990年估计数字的三倍”

这里引入了一个实际上没有什么关系的数据：中国基督徒总数的估计值，但是这个数据具有强烈的暗示效果。按照常理报道更应该给出的是地下基督徒的估计数字。

“他认为，这个数字的爆炸性增长可以解释为什么当局最近大规模镇压基督徒”

如果稍微注意一点，我们会发现这是一个（不知道来源的）估计数字的爆炸性增长。虽然报道没有说明这个估计数字的增长是否涉及地下教会，然而马歇尔根据它做出的推断暗示这个爆炸性增长是属于地下教会的，同时也暗示这个五千万的估计数字有很大比例是属于地下教会的。

“马歇尔说，这是在中国唯一一个遍布全国各地的组织。这个组织不受官方控制。中国政府非常害怕任何不在官方控制之内的活动在全国展开。”

报道未提供任何事实支持第一句断语，第二、三两句毫无疑问是正确的。报道将它们这样组合在一起，起到暗示其因果关系的作用。但是仔细想一下就会知道这个因果关系是不存在的。即：中国政府肯定会严厉镇压不受官方控制的全国性组织，并不能证明遭到严厉镇压的就一定是“遍布全国各地的组织”。

听了这条报道后我们有这样的印象：中国的地下教会在爆炸性增长；中国政府对它的镇压行动急剧升级；千百万基督徒正面临严厉处罚。

下表列出此报道为这三条消息提供的5个”W”。

注1：报道中给出两种，A：地下教会成员，普遍；B：地下教会的牧师或领导人初犯时，可能。另外没有提供受处罚人数规模的信息。

从上述分析中我们看到，报道所提供的可供验证的信息只有：地下教会的牧师或领导人初犯时可能被处以三年劳改。由于其中的“可能”二字，其被证伪的可能性非常小。就是说这篇报道可证伪性非常小。如果我们认定，信息的价值正比于其可证伪性，那么这篇报道作为信息来说其价值非常小。

从另一个角度看，这篇报道可以十分成功地在听众头脑中建立起上面说的三个结论。当然这种成功的程度因人而异，还要取决于此人对中国情况、中国教会情况以及中国地下教会情况的了解程度和对美国之音的信任程度等。

怎么样用最少的信息去最大限度地改变人的想法，这是一门技巧性非常高的信息深加工技术，也可以称之为改变别人思想的技术。从以上的分析我们看到，美国之音的这个技术应用得非常成功，令人赞叹。在这短短300字的报道中用到的技术有：暗示、逻辑圈套、对语句进行模糊处理、似乎无心的遗漏、对常识的巧妙应用以及看上去像是无意识的错误等等。可以说美国之音对这种技术的娴熟掌握、巧妙而高超的应用，已经到了炉火纯青的地步。

我们还应该注意到，美国之音非常关心自己的声誉，在科技、经济、文化等大量中立的消息上做到忠实报道。不做任何直接威胁自己声誉的事，即使在进行信息深加工时也以不直接损害自己的声誉为原则，不使自己陷入尴尬境地。这样长期积累了“公正”形象。如此这般，在关键问题上就可以最大限度地发挥影响力。

美国不愧是当今世界高技术的最大拥有者。美国的战略家声称，美国将使用其在硬件和软件两方面的优势为美国的国家利益服务。硬件优势包括：军事、科技、经济等，从外部强制性地改变别人的行为；软件优势包括：文化、舆论、意识形态等，通过改变别人的思想从而改变别人的行为。美国之音的这篇报道说明它忠实地执行和出色地完成了美国政府的任务，成功地实现了美国战略家的构想。

给信息授者：

与美国之音这样的西方传媒相比，中国的传播媒介普遍存在信息深加工技术粗糙、低劣的现象，给人的印象是：蠢、笨、差。因此对于中国那些希望对信息进行深度加工的部门，非常有必要借鉴、学习和引进以美国之音为代表的西方先进的信息深加工技术。

不过请注意，世上有言：弄巧成拙。因此我还有一个更好的建议：诚实。这不是一个道德建议，而是一个技术建议。因为诚实是最好的技术、最高的智慧，对一个人而言是如此，对一个传媒而言也是如此。

因为：“人不可自欺。你们中间若有人在这世界自以为有智慧，倒不如变作愚拙，好成为有智慧的。因这世界的智慧，在神看是愚拙。如经上记着说：‘主叫有智慧的，中了自己的诡计’；又说：‘主知道智慧人的意念是虚妄的。’”。

正是：“大智若愚，大巧不工”。

给信息受者：

作为个人，没有力量去改变背后有着强大政府、强大财团的媒体的行为，因此，对于希望获取真实准确信息的人，有必要充分发掘和应用自己的分析、鉴别和思考能力，以抵御越来越精致的信息深加工技术对真实的扭曲。毕竟每个人是自己思想的责任者、受益者和受害者。许多时候，存疑不失为一种没有办法的办法。

网络舆情及其分析技术

互联网作为当今社会最方便、最快捷、覆盖范围最广的信息资源，由于其信息产生具有最大的开放性和不确定性，受到的规范和约束最小（几乎无法控制其内容），发布传播成本极低（可以忽略不计），这就使得互联网信息具有原创情报的极大可能性，同时又是作为情报战的廉价而有力的工具，企业和政府组织的负面信息极易通过互联网孳生和传播，并且迅速形成舆论氛围，对组织的形象和运作产生巨大的影响。因此，社会性的组织也需要高度重视网络舆情的监测和分析研究。企业和政府都是社会性组织，都非常关注自身的形象，并保持和公众的良性互动沟通，但是人们常常把这方面的工作归属到公共关系和宣传部门。实际上，这是竞争情报工作的重要组成部分，也是竞争情报的重要渠道和工具，更是反情报工作的工具。这一部分内容选自解放军政治学院马海兵的简要介绍如下。

舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速，对社会影响巨大，不仅需要各级党政干部密切关注，也需要社会各界高度重视。

随着因特网在全球范围内的飞速发展，网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”，网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有：新闻评论、BBS、聊天室、博客、聚合新闻（RSS）。网络舆情表达快捷、信息多元，方式互动，具备传统媒体无法比拟的优势。

网络的开放性和虚拟性，决定了网络舆情具有以下特点：1、直接性，通过BBS，新闻点评和博客网站，网民可以立即发表意见，下情直接上达，民意表达更加畅通；2、突发性，网络舆论的形成往往非常迅速，一个热点事件的存在加上一种情绪化的意见，就可以成为点燃一片舆论的导火索；3、偏差性，由于发言者身份隐蔽，并且缺少规则限制和有效监督，网络自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折，对社会问题片面认识等等，都会利用网络宣泄。因此在网络上更容易出现庸俗、灰色的言论。

与国外相比，我国网络舆情还存在以下特殊情况：一是由于历史的原因，我国曾长期处于封闭状态，容易受到外来思想文化的冲击。二是目前我国正处于社会转型期，不可避免地存在矛盾，容易使一些人出现情绪化冲动，以致不能明辨是非。三是少数社会管理者对于舆论习惯于回避或堵塞。

因此，网络这把锋利的“双刃剑”在提供了下情上达的便捷方式的同时，也对我国政治安全和文化安全构成了严重威胁，具体表现在以下三个方面：一是西方国家利用网络对我国进行“西化”、“分化”，网上思想舆论阵地的争夺战日趋激烈。二是传统的政治斗争手段，在网上将以更高效的方式实现，利用网络串联、造谣、煽动将比在现实中容易得多，也隐蔽得多。三是通过网络，西方的观念、生活方式可以便捷地渗透进来。

对于网络舆情的这些特点，社会管理者应当了然于心。对现实中出现的各种网络舆论，社会管理者应该做出及时反馈，防微杜渐，防患于未燃。因此，必须利用现代信息技术对网络舆情予以分析，从而进行控制和引导。

由于网上的信息量十分巨大，仅依靠人工的方法难以应对网上海量信息的收集和处理，需要加强相关信息技术的研究，形成一套自动化的网络舆情分析系统，及时应对网络舆情，由被动防堵，化为主动梳理、引导。这样的系统应该具备以下功能：

首先是舆情分析引擎。这是舆情分析系统的核心功能，包括：①热点话题、敏感话题识别，可以根据新闻出处权威度、评论数量、发言时间密集程度等参数，识别出给定时间段内的热门话题。利用关键字布控和语义分析，识别敏感话题。②倾向性分析，对于每个话题，对每个发信人发表的文章的观点、倾向性进行分析与统计。③主题跟踪，分析新发表文章、帖子的话题是否与已有主题相同。④自动摘要，对各类主题，各类倾向能够形成自动摘要。⑤趋势分析，分析某个主题在不同的时间段内，人们所关注的程度。⑥突发事件分析，对突发事件进行跨时间、跨空间综合分析，获悉事件发生的全貌并预测事件发展的趋势。⑦报警系统，对突发事件、内容涉及安全的敏感话题及时发现并报警。⑧统计报告，根据舆情分析引擎处理后的结果库生成报告，用户可通过浏览器浏览，提供信息检索功能，根据指定条件对热点话题、倾向性进行查询，并浏览信息的具体内容，提供决策支持。

其次是自动信息采集功能。现有的信息采集技术主要是通过网络页面之间的链接关系，从网上自动获取页面信息，并且随着链接不断向整个网络扩展。目前，一些搜索引擎使用这项技术对全球范围内的网页进行检索。舆情监控系统应能根据用户信息需求，设定主题目标，使用人工参与和自动信息采集结合的方法完成信息收集任务。

第三是数据清理功能。对收集到的信息进行预处理，如格式转换、数据清理，数据统计。对于新闻评论，需要滤除无关信息，保存新闻的标题、出处、发布时间、内容、点击次数、评论人、评论内容、评论数量等。对于论坛BBS，需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等，最后形成格式化信息。条件允许时，可直接针对服务器的数据库进行操作。

舆情分析系统的核心技术在于舆情分析引擎，涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术。这些技术一向是国内外信息工作者关注的领域。文本检索会议（TREC）、情报检索专业组会议（SIGIR）、文本检测与跟踪会议（TDT）等都是展示此类技术最新研究成果的最主要的国际会议和论坛。其中基于关键词统计分析方法的技术相对比较成熟，但在其有效性方面还有很大的提升空间。

近年来，专家学者一直在研究更加有效的方法，其中基于语义的内容识别方法是当前研究的重中之重，虽然也取得了较大进展，但仍存在很多问题和困难需要克服。为了增加我国网络信息控制能力，我们必须迎难而上，加强相关技术的研究。

（资料来源：互联网。选引自：马海兵2007-01-30光明日报网站）

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈