自然语言处理范文|ai工具的使用介绍图解_宠物用品

导语：如何才能写好一篇自然语言处理，这就需要搜集整理更多的资料和文献，欢迎阅读由公务员之家整理的十篇范文，供你借鉴。

中图分类号：TP391

文献标识码：A

1引言

本文讨论的“自然语言处理”都是指利用电子计算机对自然语言的各级语言单位进行的自动处理，包括对字、词、句、篇章等进行转换、分析与理解等等[1]。与电子计算机的发展历史相比，自然语言处理算是一门很“老”的学科了。电子计算机刚刚问世，计算机科学家就对语言的机器处理备感兴趣，不久语言学、心理学、认知科学、人工智能等不同领域的学者也纷纷参入他们的研究队伍，一门新的研究领域――自然语言处理从此诞生。翻开它的历史，人们会发现，自然语言处理的发展道路并不平坦，研究工作跌宕起伏，时而乐观，时而悲观。人们对自然语言自动处理的困难通常估计不足，对它发展的前景往往过于乐观。可是，实践却一再表明事实并非如此，研究工作总是困难重重，进展缓慢，于是引来了悲观情绪。奇怪的是，这种乐观与悲观情绪的交替、循环在半个多世纪自然语言处理的发展历史上却不断地重演着。

早在二次世界大战期间，现代电子计算机还处于襁褓之中，利用计算机来处理自然语言的想法就已经出现了。当时人们从破译军事密码的工作中得到启示，以为不同的语言(中文，英文，还有其他语种)只不过是对“同一语义”的不同编码而已。于是想当然地认为，采用译码技术“破译”(理解)这些“码”(语言)应该不成问题。结果却大大出乎人们的意料，自然语言自动处理居然比破译密电码困难得多!

2不适定问题

给定计算模型F(I，O)，其中I是输入集，即一组数据，O是输出集，通常由语义空间的元素组成。以汉语分词为例，输入一个句子“南京市长江大桥”，对于计算机来讲，这个句子只不过是由“O”和“1”组成的机器码，即一组数据。我们要求的输出是：按照语义切分出句子中的词。因此模型F的作用就是按语义对数据I进行分类，分类的结果就是输出O。可以说，F是数据空间I到语义空间O的映射(Mapping)，即映射F：IO。一切自然语言的自动处理问题P，都可以抽象为这样一个映射问题。于是我们把所有的自然语言处理(分词、词性标注、词法分析、语言理解等等)归结为一个普适的科学问题一映射问题F，从而便于进行理论研究。

3分析模型

语言学家N.Chomsky认为人类生成合乎文法的语句的能力是生来具有的，为此他提出一种称为生成句法(GenerativeGrammar)的理论[10]，这个理论对人类语句的生成做了如下的解释，即人们通过一组有限的规则作用于一个有限的词汇上，从而本能地生成无限的可接受的、合乎文法的句子(Ac-ceptableGrammaticalSentences)。这个理论的提出马上得到语言学界的广泛兴趣，并对自然语言自动处理产生深刻的影响。这个理论表明在自然语言的各级语言单位中都存在一定的内在规律性，因此依据这种规律性，就可以为语言处理建立一种计算模型，比如基于规则(Rule-Based)的模型。由此可见，一切理性分析的语言计算模型(AnalyticalMod―el)都是建立在这种理论假设之上。

如果对输入集加以适当的限制，比如假定有限的输入集，理性分析模型一般可以满足适定性的条件，因此这种模型对于解决较小规模的自然语言处理问题具有一定的效果。可是，由于语言的输入集(I)是无限的，这种通过有限规则集，特别是少量规则集的建模方法，显然很难满足自然语言处理的全部需要。因此语言的理性分析模型面对大规模的真实文本时，都难以通过“可扩展性”(Scalability)的考验。因为当问题的规模扩大之后，理性分析模型在大型的输入集上，难以使问题的全部解达到适定性的要求。这也就是理性分析模型的局限性所在。

4概率统计模型

Chomsky关于语言获取(LanguageAcquisi－tion)的理论也受到一部分学者的质疑，他们认为人类自然语言与人造的形式语言不同，并不遵循严格的规律，因此语言理性主义的分析方法难以克服语言复杂性带来的困难。与Chomsky理论相反，行为心理学家B．F．Skinner[11]提出另一种语言理论。这个理论认为人类语言能力的获得来自于学习，语言是通过不断地实践而“约定俗成”的结果。这就是自然语言形成的经验主义解释。概率统计模型(StatisticalModel)[12]属于经验主义的语言计算模型。概率统计建模采用从数据中学习(LearningFromData)的方法，至今取得很大的成功，目前已成为自然语言处理中占统治地位的建模方法。概率模型的成功应该归功于网络时代信息的数字化和网络化，正因为这些变化，为我们带来了取之不尽、用之不竭的数据。“数据驱动”(DataDriven)法应运而生，正是这种新的研究方法促成了当今以概率建模为代表的经验主义方法的繁荣与发展。比如，目前流行的基于语料库(Corpus-Based)的语言处理方法就是一种典型的数据驱动方法。

但概率统计建模也不是无懈可击的，面对大规模的真实文本，它面临着许多挑战。首先，语言的计算模型F：IO是不连续映射，根据统计学习理论[13]，不难知道，通过学习与训练获取不连续映射的困难很大，通常存在学习不收敛、学习误差大、推广能力弱等诸多问题。因此基于概率模型的大规模文本处理的结果通常准确度受到一定的限制。其次，从建模的角度看，由于自然语言的层次结构，在各个层次的语言单位之间存在着大量的依存关系，特别是远距离的依存关系(Long-DistanceDependency)，如上下文关系等。如果建模时，把这些可能的关系都考虑进去，模型将会变得极其复杂而无法处理。但是语言计算模型的解通常是不稳定的，任何一个未加考虑的微弱因素(例如，长距依存关系，以及其他小概率事件等)都可能引起解的巨大变化，从而带来严重的错误，因此许多场合下，不能忽略微弱参数的影响，这就使概率建模方法陷入两难的境地。最后，虽然网络上的文本数据(生语料)几乎是无限的，但带有正确层次结构标注的数据依然匮乏，统计模型仍然面临严重的“数据稀疏”问题。因此单纯的概率模型也不能完全解决自然语言处理的自动化问题。

5混合模型

以上讨论使我们认识到，无论理性的分析模型，还是经验的概率模型都不能解决语言自动处理的全部，特别是大规模的真实文本。其原因还需要从自然语言本身的特点去寻找，人类不仅利用自然语言表意，同时也用它来言情，一段语言中往往既有理性的思考，又有感情的流露，意中有情，情中有意，情景交融。因此自然语言处理既需要理性分析，也需要感性经验，二者互相补充。就是说，需要走理性主义与经验主义结合的道路，即混合模型(HybridMo－del)的道路。目前已有许多研究工作试探混合模型的方法，已经取得一些成果[14～17]。但困难依然存在，比如，感性经验的表达与运用就是其中关键之一，也就是说，如何考虑语感、语境和知识背景等问题。

在机器翻译研究的初期(上个世纪60年代)，美国人经常举以下的例子来说明机器翻译任务的艰巨性。

英文的原句是：

(1)Thespiritiswillingbutthefleshisweak．

(心有余而力不足)

经机器翻译成俄文之后(在文法分析、双语词典等支持下)，再把它翻译回英文，得到的结果如下：

(2)TheVoltkaisstrongbutthemeatisrot-(伏特加酒是浓的，但肉却腐烂了)

这也许只是一则笑话，可是它充分说明自然语言处理的困难所在。显然，机器将句子(1)的意思翻译错了。但不幸的是，我们从中竟然找不出错在何处。因为(1)与(2)两个句字的语法完全一样，可见机器并没有犯任何语法错误。从语义层面看，“spirit”(精神，烈性酒)译成“Voltka”(伏特加酒)并无错误，同样，“flesh”(肉体，肉)译成“meat”(肉)等等也并没有犯语义上的错误。如果错在何处不容易找到，能否找出错误来自何处的确，词的多义性是错误的始作俑者。可是问题并没有因此解决，进一步的问题是，如何消解这些歧义，找到正确的答案对此我们似乎无计可施。因为任何的理性分析都难以纠正上述错误，唯一有效的解决办法，似乎只能直接“告诉”机器，它就是“心有余而力不足”，换句话说，这是约定俗成，没有什么理由可讲。说明这里需要的是感性体验，而非理性分析。其实，当我们把一个文件输进计算机，文件里描绘的如果是一幅乡间的景色，讲述的是一段男女的情感故事，机器如何“看懂”它，如何对它进行处理显然，要解决这类问题，机器除具备理性的分析能力之外，更重要还要有丰富的感性经验与知识。

换句话讲，需要依靠理性分析与感性经验的密切结合，但此项研究工作才刚刚开始，至今依然远未解决。

6结论

一台电子计算机不管性能多么的高，本质上，都只是会计算“0”和“1”的机器。从计算的角度看，自然语言处理是一个强不适定问题，因此简单的建模方法，无论是确定性的，还是不确定性的都无法解决其全部。根据不适定问题的求解原理，只有通过提供大量的“约束”(包括知识，经验等)，才能使之成为适定性的、可解的问题。因此出路是，通过计算机科学、语言学、心理学、认知科学和人工智能等多学科的通力合作，将人类认知的威力与计算机的计算能力结合起来，才可能提供丰富的“约束”，从而解决自然语言处理的难题。

收稿日期：2007－03－01定稿日期：2007－03－01

作者简介：张钹(1935―)，男，中国科学院院士，主要研究方向为人工智能。

参考文献：

[1]王晓龙，关毅，等．计算机自然语言处理[M]．北京：清华大学出版社，2005．

[2]Gibson，E．，Linguisticcomplexity：Locality0fsyntac―ticdependencies[J]．Cognition，1998，68：1-76．

[3]DanielGrodner，EdwardGibsonandDuaneWatson．Theinfluenceofcontextualcontrastonsyntacticpro-cesslng：evidenceforstrong-interactioninsentencecomprehension[J]．Cognition2005，95：275―296．

[4]SilviaGennariandDavidPoeppel．Processingcorre―latesoflexicalsemantcccomplexity[J]．Cognition2003，89：B27-B41．

[5]TessaWarrenandEdwardGibson．Theinfluenceofreferentialprocessing0nsentencecomplexity[J]．Cognition2002，85：79-112．

[6]GerryAhmann，MarkSteedman．Interactionwithcontextduringhumansentenceprocessing[J]．Cogni―tion1988，30：191-238．

[7]DouglasRoland，JeffreyL.ElmanandVictors．Fer-relra．WhyisthatStructuralpredictionandambiguityresolutioninaverylargecorpusofEnglishsentences[J]．Cognition2006，98：245-272．

[8]Tikhonv，A．N．，Arsenin，V．Y．．SolutionofIII―posedproblems[M]．NewYork：Winston／Wiley1977．

[9]Bakushinsky，A．，Goncharsky，A.Ill-posedprob―lems：TheoryandApplications[M]．Dordrecht／Bos－ton／London：KluwerAcademicPublishers，1994．

[10]Chomsky，N．．Syntacticstructures[M]．TheHague：Mouton，1957．

[11]Skinner，B．F．，VerbalLearning[M]．NewYork：Appleton-Century-Crofts，1957．

[12]ChristopherD．Manning，HinrichSchfitze．Founda―tionsofStatisticalNaturalLanguageProcessing[M]．Cambridge，Massachusetts：TheMITPress1999．

[13]VladamirN．Vapnik，StatisticalLearningTheory[M]．NewYork：JohnWiley＆Sons，Inc．，1998．

[14]Aue，Anthony，ArulMenezes，RobertMoore，etaLStatisticalMachineTranslationUsingLabeledSe―mantlcDependencyGraphs[A]．In：Proceedingsofthe10thInternationalConferenceonTheoreticalandMethodologicalIssuesinMachineTranslation[c]．Baltimore。2004．

[15]Pinkham，J，andM．Corston-Oliver，AddingDomainSpecificitytoanMTSystem[A]．In：Proceedings0ftheWorkshoponData-drivenMachineTranslationat39thAnnualMeetingoftheAssociationforComputa―tionalLinguistics[C]．Toulouse，France，2001，103－110．

《统计自然语言处理》是宗成庆研究员在为中国科学院研究生院讲授“自然语言理解”课程时使用的讲义的基础上编写完成的，历时三年多。该书全面系统地介绍了自然语言处理的基本概念、理论方法和最新进展，尤其是近年来国际流行的基于统计机器学习的自然语言处理方法，对近年来国内外一些经典的论文，包括国际计算语言学年会(ACL)的最佳论文，给予了详细介绍。作者在该书中充分利用已取得的实验结果阐释统计方法的基本理念，并给出了自己的理解和评述，提倡多种方法兼收并蓄。对很多专著中已有详细阐述的经典算法，该书没有多述，只是简单地提及或给出参考文献，避免了与其他专著在内容上过多地重复。

在该书编写过程中，从事自然语言处理研究的31位国内外专家和10多位在读博士生或硕士生校对了全书的内容。全书引用参考文献816篇。

关键词：采空区“三带”；氧浓度指标法；二维曲线；精确拟合；等值线

中图分类号：TD752.2文献标志码：A

作者简介：张发亮（1985-），男，安徽马鞍山人，在读硕士，研究生方向：安全评价理论及技术。

随着煤矿开采的机械化程度的提高，综采放顶煤这种高产高效的工艺得到了广泛的应用[1]。但是，在煤矿产量提高的同时，采空区的遗煤、漏风等危险因素给工作面的安全开采带来了自燃发火的隐患。因此，对于采空区“三带”的准确预测和划分将对预防煤矿采空区的自燃发火和保障工作面的安全开采有着非常重要的意义。

“三带”的划分指标主要可分为3类，即以采空区内的氧气浓度、漏风风速和温度分布来划分[2-3]。目前，对于采空区“三带”的划分以氧浓度为标准的应用方式最为普遍[4]，根据煤炭科学总院重庆分院的试验研究[5-6]，不同氧化性的煤在供氧浓度大于等于5%～6%时，还可能在其着火温度前激烈氧化升温，有发火危险性，因此将氧化带划分的氧指标定为18%～6%。在此前提下，试验针对山西正株煤矿1511工作面进行研究，运用Matlab软件对束管检测的试验数据进行剔除甄别[7-8]，找出最佳的二维拟合曲线并进行三维立体成像，最终确定精确的“三带”范围。

1采空区自燃“三带”的现场试验

1.1工作面概况

1511工作面回采走向长度为990m，倾斜长150m；主采15煤的煤层倾角8°～10°，煤层灰分8.58%，挥发分26.05%，属于Ⅱ类易自燃煤层，煤厚最小5.12m，最大6.37m，平均5.74m。工作面采用长壁式综合机械化低位放顶煤全部垮落采煤法。工作面采高确定为2.3m，根据煤层实际厚度，考虑留设一定厚度底煤以利于拉架，确定顶煤厚度为2.9m，故平均采放比为1∶1.26。

1.2测点布置

沿工作面倾向布置5个测点，且测点由下顺槽进风巷向上顺槽回风巷依次为：1#测点，距进风巷外帮5m；2#测点，距1#测点35m；3#测点，距2#测点35m；4#测点，距3#测点35m；5#测点，距回风巷外帮5m（见表1）。在回风巷安置抽气泵，通过束管抽取气样，收集气体后将其进行色谱分析，用MATLAB处理所得的原始数据，从而研究并分析综放面采空区氧化“三带”的分布规律。

2基于Matlab的二维数据处理

2.1最小二乘法数据预处理

在所给出的5个检测点的数据中，随着工作面的前移，每个测点各得出19组氧浓度数据，共有95组样本点，在这些数据中可能存在有瑕疵的点，由于这些样本点会影响着实际拟合函数的结果，因此采用最小二乘法的算法方式将他们剔除[9]，实验运用多元线性回归函数regress（Y，X，alpha）和残差及其置信区间画图函数rcoplot（r，rint）进行数据处理分析，其中Y，X为所要处理的样本数据，alpha是显著性水平（取默认数值0.05），r，rint为残差及其置信区间，这2个值将由regress直接返回提供，这样，就能建立回归分析模型，主程序伪代码如下：alpha=0.05；X=[95个样本点对应的距工作面距离的数值]；Y=[95个样本点氧浓度数值]；X=[ones（size（Y）），自定义矩阵Q]；[b，bint，r，rint，stats]=regress（Y，X，0.05）；最终画出残差图（见图1）。

从图1中可以得出第33、56、75、81、94号这5个样本点的残差偏离了置信区间，且这5个结点对应的样本点为2#（125.8，10.2），3#（150.5，6.0），4#（150.5，5.9），5#（35.9，16.9），5#（150.5，6.1），为了更精确的分析数据，应该将这5个样本点去除以后再进行曲线回归拟合。

2.2拟合曲线的选取

在剔除偏离置信区间的样本点后，选用polytool多项式拟合工具拟合，拟合时分别选取3、4、5次多项式进行拟合，从而得到他们的拟合自由度R分别为0.938，0.962，0.969，显然4次拟合的自由度要优于3次，由于高次多项式容易产生Runge现象[10]，亦即当次数变高时，插值多项式会逐渐偏离正常趋势线，使得拟合不精确，正常情况下一般多项式次数不高于6次，将三种拟合进行对照可看到5次拟合并不理想，因此本次试验选取4次拟合。为了不用计算直接动态观测采空区氧浓度的变化趋势，利用软件自带的polytool（xx，yy，4）函数得出4次拟合图像，其中xx，yy分别是以上程序中Q与Y剔除5组数据后的剩余的90组数据，由此得出拟合的4次动态多项式（见图3），其中曲线两侧的区间为曲线的置信半径，由此也会发现筛选后的样本点均落在置信区间内（直接选用原始点会出现有样本点偏离置信区间的情况，会降低拟合曲线精度），从而提高了曲线拟合的精度，拖动图像中所指向的十字光标，可以便捷的读出曲线上任意一点工作面推进距离与氧浓度变化的横、纵坐标值，也可以利用p=polyfit（xx，yy，4）函数，得出拟合曲线函数，可得出“三带”宽度：散热带158.95m。

3基于Matlab的三维数据处理

利用Matlab三维图像处理时，其主要数据的误差主要通过Matlab所提供的插值方法来减少误差，软件自带的插值方法总共有5种：‘v4’，即Matlab4.0自带的插值算法；‘linear’，双线性插值算法；‘nearest’，最临近插值算法；‘spline’，三次样条插值法以及‘cubic’，双三次插值算法。针对“三带”分布的实际情况，分析数据时采用双三次插值算法，一方面，它对于无规律的随机数据插值效果好，此外，利用它是建立在三次插值多项式基础上的特点，使得插值的结果比较平滑。在确定算法后，使用meshgrid和griddata函数建立算法模型，对原始数据进行平面差分，随后再使用surf和contour函数绘出“三带”分布立体图形与等值线图，算法主程序伪代码如下：

[aa，bb]=meshgrid（x，y）；cc=griddata（xx，yy，zz，aa，bb‘cubic’）；surf（aa，bb，cc），figure；contour（aa，bb，cc，n）；其中xx，yy，zz为原始采空区走向、倾向、氧浓度三维构造数值矩阵，x，y为自定义插值后的一维矩阵，aa，bb，cc则为经过插值后的二维数值矩阵，n为自定义等值线条数，从而可以直观的得到三维图像（见图4）以及氧浓度分布的等值线图（见图5）。结合图4和图5不难看出，随着工作面的推进，氧气浓度值总体呈现下降趋势，在距离工作面30.4m时，其氧气浓度进入18%氧化带范围内，在距离工作面158m时，其氧气浓度低于6%逐渐进入窒息带范围，此时的“三带”范围：散热带158m。

4结论

1）通过二维和三维模型的数据处理最终得出“三带”范围分别为：散热带158.95m；散热带158m。不难看出这两种方式的误差范围较小，属于正常范围，从而也相互印证了这两种方式的可靠性。

2）在用传统的Excel软件处理时候，只是做普通的拟合，无法剔除不可靠点，而试验采用Matlab残差图的方式剔除了影响拟合效果的瑕点，使得所得函数更加可靠，提高了曲线拟合的精确性。

3）使用polytool函数动态的读取拟合函数上的任意一点的函数值，为以后研究其余曲线各点值的动态变化提供了便利。

4）在原始数据的基础上，运用三维模型，清晰的表现出采空区气体浓度与工作面推进距离以及工作面倾向三者之间的联系，并且利用等值线函数直观的表示出氧浓度在采空区的分布情况，直接利用观测法就能大致确定“三带”范围。

[1]杜计平.采矿学[M].徐州：中国矿业大学出版社，2009：165-169.

[2]张国枢，戴广龙.煤炭自燃理论与防治实践[M].北京：国防工业出版社，2002：68-70.

[3]陈丽霞，张人伟，谭艳春，等.综放工作面采空区三带实测分析与模拟[J].煤矿安全，2011，42（1）：130-132.

[4]宋万新，杨胜强，徐全.基于氧体积分数高瓦斯采空区自燃“三带”划分[J].采矿与安全工程学报，2012，29（2）：271-276.

[5]卢平，张士环.高瓦斯煤层综放开采瓦斯与煤自燃综合治理研究[J].中国安全科学学报，2004，14（4）：69-74.

[6]何启林，袁树杰，王新建，等.徐庄煤矿综放采空区“三带”宽度的确定[J].煤矿安全，2001，2（2）：6-7.

[7]余明高，常绪华，贾海林，等.基于Matlab自燃“三带”的分析[J].煤炭学报，2010，35（4）：600-604.

[8]彭信山，景国勋.基于Matlab采空区自燃发火数值模拟[J].煤炭技术，2011，30（4）：103-104.

关键词：n元语法模型；自然语言处理

一：词向量

词向量是通过训练语言模型得到。从大量的无标签的语料库中进行无监督学习的想法有了语言模型。语言模型是针对某种语言建立的概率模型。语言模型的一般描述就是给定一个词序列，词序列，求该词序列是自然语言的概率，其中，表示词序列的第t个词，在n元语法模型中用表示。下面具体介绍n元语法模型。

二：n元语法模型

2.1模型的形式化表示。

假设有个词，，个词构成的词序列记为，词序列的概率为

（2.1）

上下文H中词A的极大似然概率计算公式为

（2.2）

其中是在训练数据中词序列出现的次数，上下文可以由几个词组成，对于通常的三元模型，，当时，它没有考虑历史，该模型称为一元模型。

由于n元语法模型比较简单，目前最常使用的语言模型基于n元语法模型，但是该模型由于数据缺乏需要采用一些平滑算法。影响n元语法模型的最重要的因素是顺序和平滑技术的选择，常用的平滑技术有加法平滑算法，Knerser-Ney平滑方法，Katz平滑方法，Jelinek-Mercer平滑方法等。对于基于词的语言模型，修正的Knerser-Ney平滑方法（KN）在平滑技术中有较好的结果。

基于n元语法的统计数据模型的最大优势在于速度，简单和普遍性（只要存在一些训练数据，该模型可以应用到任何领域）。直到今天n元语法模型依然是最先进的技术，不是因为没有更好的技术，而是因为更好的技术计算过于复杂，仅仅进行了边际分布的改善，对于给定应用的成功不是至关重要的。

2.2模型的优缺点

n元语法模型的最大缺点在于随着上下文长度的增加，n元语法的数量成指数形式的增加。阻止这些模型有效的捕获较长的上下文类型。如果有大量的训练数据可用，从训练数据得到的模式不能通过n元语法进行有效地表示。因此产生了将神经网络应用到语言模型（LM）的思想，通过相似事件之间的共享参数来克服参数的指数增加，不再需要精确的历史的匹配。下面具体介绍几种不同的神经网络语言模型。

2.3模型的改进

由于在自然语言处理中，如通过音素匹配法处理后，部分存在着缺失的可能。而且已识别的词对未识别词会有一定程度的影响，为了解决这种问题，所以华南理工大学陈伟雄[3]在论文"基于n元语法模型的领域语音指令识别"中对n元语法模型做一些改进。

三：n元语法模型在自然语言处理中的应用

自然语言处理就是如何让计算机正确处理人类语言并作出正确的响应，近年来作为人工智能的一个重要组成部分得到了快速发展，使得人机之间直接采用语言作为交互方式成为了可能。

自2006年Hinton等人提出深度学习的概念之后，将深度学习的思想用于语言模型中形成的神经网络语言模型不仅仅是三层的神经网络，而是多层的神经网络语言模型。深度学习也就是深层神经网络算法，每次训练一层，逐层训练，上一层的输出作为下一层的输入。将深度学习的思想应用于语言模型中形成的神经网络语言模型可以应用于自然语言处理的很多领域，比如，词性标注，句法分析，框架排歧，语义角色标注等任务。

n元语法模型在语音指令识别中也有广泛应用.可以用一种音素匹配法[3]结合改进了的n元语法模型的方法对语音指令进行理解。指令按照结构划分类别通过提取其中关键要素来获取指令语义。音素匹配法可以提取指令中部分或全部要素对于指令中未识别的要素则根据已正确采用改进的n元语法模型进行推测。实验表明该方法取得了较好的效果，并在原有的基础上有一定的提高。

[1]陈伟雄.基于n元语法模型的领域语音指令识别.2009.5

[2]Bengio，Yoshua，RejeanDucharme，andPascalVincent..Aneuralprobabilisticlanguagemodel.InT.K.Leen，T.G.Dietterich，andV.Tresp，eds.，AdvancesinNIPS13，MITPress.2001：932-938.

关键词：语言学语义学计算机语言学

一、形式语义学

语言学研究的是语言的体系，反映在两个方面：第一个是语言学在语言，形态，句法等层面上的描写分工；第二个是描写各层面上的内部系统的状态和关系。随着语言学学科的发展，语言学的研究方向越来越宽，语义学越来越受到重视。交流的语言由声音，文字，语法构成，语言的语义是语言学研究的目的。语义学研究采用研究人工语言的方法研究自然语言，形式语义学是介于语言学和逻样学之间的交叉学科，它的起源可以追溯到德国逻辑学家Frege。他的主张是使用逻辑的方法来研究语言意义。随后，经Wittgenstein，Rnssel，Carnap等人将逻辑和哲学结合起来研究，使很多意义现象得到了较为精确的刻画。上世纪70年逻辑学家兼哲学家蒙太古奠定了形式语义学的基本轮廓。从此形式语义学在语言学界得到了广泛的讨论，形式语义学研究也在诸多方而取得了进展。形式语义学的理论根据是理论语言学为语言研究，研究工具是以数理逻辑的方法，目标是对自然语言的语义进行形式化描述，从而到达机器对自然语言的自动理解。最近的30年，形式语义学在国际上发展迅猛，新的理论不断涌现，并且与理论语言学、计算语言学交叉互动。

在形式语义学走向成熟和发展的过程中做出过重要贡献的学者包括道蒂、帕蒂、库珀等等。已经形成许多具有广泛影响力的形式语法理论主要包括：词汇功能语法、动态句法学、情境语义学、范畴语法、树邻接语法等等。至今，上述理论中的每种理论都仍有大量学者进行研究。这些充分说明形式语言学已经日趋成熟，逐步形成了所谓语言和逻辑交叉研究的风格，既推动了语言学的发展，也引起了对自然语言信息处理领域的高度重视。

二、形势语义学与计算机语言学

计算语言学家冯志伟教授曾指出：“计算机对自然语言的研究和处理，一般应该经过如下三个方面的过程：第一，把需要研究的问题在语言学上加以形式化，使之能以一定的数学形式严密而规整地表示出来；第二，把这种严密而规整的数学形式表示为算法，使之在计算上形式化；第三，根据算法编写计算机程序，使之在计算机上加以实现”。形式语义学做的就是这一工作，我们可以说形式语义是理论语言学与计算语言学之间的桥梁。如果没有形式语义学做中介，理论语言学很难直接与计算语言学中的自然语言语义处理做对接，因此形式语义学在今天这个信息技术时代地位越来越重要。

直接借助自然语言，在人与计算机之间实现信息交流是自然语言信息处理的目标。这项任务分应用部分和理论研究。应用部分指的是建立各种处理自然语言的计算机应用软件系统和建设语言信息处理的基础资源。这主要是计算语言学的任务。理论研究的目的是发现语言的内在规律来探索语言理解和生成的计算方法。这一任务应该由有形式语义学背景的语言学家担当。但是现状是令人担忧的，语言学研究与自然语言处理存在脱节现象。2008年12月清华大学孙茂松教授在首都师范大学召开的语言学学科建设讨论会上就指出：我国的语言学家和计算语言学家在上个世纪八九十年代曾有过一段甜蜜的合作阶段，但现在双方在一起合作的现象少了。在过去30年里，计算语言学重点放在语形处理上，理论语言学为句法结构分析提供成熟的理论支持，从而语言学和计算语言学有很多合作。随着语形处理技术日趋成熟，其技术潜力也基本被挖掘殆尽，技术并未得到实质提升。这种现象很大程度上可以归因于自然语言形式语义分析技术的滞后。

汉语部分句式的语义问题是我们首要关心的。自然语言有别于人工语言的最显著形式是歧义现象。自然语言处理中的核心问题之一对始终是歧义问题的研究。已有很多从不同角度对汉语歧义的研究，但从逻辑语义学的视角对汉语歧义句式进行分析的研究不多见。我们可以遵循典型的逻辑语义的分析对于汉语部分歧义句式进行描述。在这过程中，不可少的两条原则是语义类重设原则和逻辑谓词原则。语义类重设原则既考虑到了汉语某些句式的特殊性，又考虑到计算机语言学实现过程中的实际需要；逻辑谓词原则是出于保证语义描写过程一致性的考虑。更多地尊重汉语语言的事实，并且也充分考虑到逻辑语义分析的计算机语言实现的可操作性。

三、结语

[1]Portner，P.&Partee，B.H.FormalSemantics：TheEssentialReadings，Oxford：Blackwell，2002.

[2]冯志伟.自然语言的计算机处理[M].上海外语教育出版社，1996

[3]吕叔湘.汉语语法分析问题[M].北京：商务印书馆，1979.

[4]吕叔湘.歧义类例[J].中国语文，1984（05）

关键词：人机大战；人工智能；发展前景

中图分类号：TP391文献标识码：A

0.引言

2016年3月15日，备受瞩目的“人机大战”终于落下帷幕，最终Google公司开发的“AlphaGo”以4∶1战胜了韩国九段棋手李世h。毫无疑问，这是人工智能历史上一个具有里程碑式的大事件。大家一致认为，人工智能已经上升到了一个新的高度。

这次胜利与1997年IBM公司的“深蓝”战胜国际象棋世界冠军卡斯帕罗不同。主要表现在两个方面：

（1）AlphaGo的胜利并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜，而是AlphaGo已经拥有了深度学习的能力，能够学习已经对弈过的棋盘，并在练习和实战中不断学习和积累经验。

（2）围棋比国际象棋更加复杂，围棋棋盘有361个点，其分支因子无穷无尽，19×19格围棋的合法棋局数的所有可能性是幂为171的指数，这样的计算量相当巨大。英国围棋联盟裁判托比表示：“围棋是世界上最为复杂的智力游戏，它简单的规则加深了棋局的复杂性”。因此，进入围棋领域一直被认为是目前人工智能的最大挑战。

简而言之，AlphaGo取得胜利的一个很重要的方面就是它拥有强大的“学习”能力。深度学习是源于人工神经网络的研究，得益于大数据和互联网技术。本文就从人工智能的发展历程与现状入手，在此基础上分析了人工智能的未来发展前景。

1.人工智能的发展历程

AlphaGo的胜利表明，人工智能发展到今天，已经取得了很多卓越的成果。但是，其发展不是一帆风顺的，人工智能是一个不断进步，并且至今仍在取得不断突破的学科。回顾人工智能的发展历程，可大致分为孕育、形成、暗淡、知识应用和集成发展五大时期。

孕育期：1956年以前，数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。德国数学家和哲学家莱布尼茨把形式逻辑符号化，奠定了数理逻辑的基础。英国数学家图灵在1936年创立了自动机理论（亦称图灵机），1950年在其著作《计算机与智能》中首次提出“机器也能思维”，被誉为“人工智能之父”。总之，这些人为人工智能的孕育和产生做出了巨大的贡献。

形成期：1956年夏季，在美国达特茅斯大学举办了长达2个多月的研讨会，热烈地讨论用机器模拟人类智能的问题。该次会议首次使用了“人工智能”这一术语。这是人类历史上第一次人工智能研讨会，标志着人工智能学科的诞生。其后的十几年是人工智能的黄金时期。在接下来的几年中，在众多科学家的努力下，人工智能取得了瞩目的突破，也在当时形成了广泛的乐观思潮。

暗淡期：20世纪70年代初，即使最杰出的AI程序也只能解决问题中最简单的部分，发展遇到瓶颈也就是说所有的AI程序都只是“玩具”，无法解决更为复杂的问题。随着AI遭遇批评，对AI提供资助的机构也逐渐停止了部分AI的资助。资金上的困难使得AI的研究方向缩窄，缺少了以往的自由探索。

知识应用期：在80年代，“专家系统”（ExpectSystem）成为了人工智能中一个非常主流的分支。“专家系统”是一种程序，为计算机提供特定领域的专门知识和经验，计算机就能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。不同领域的专家系统基本都是由知识库、数据库、推理机、解释机制、知识获取等部分组成。

集成发展期：得益于互联网的蓬勃发展、计算机性能的突飞猛进、分布式系统的广泛应用以及人工智能多分支的协同发展，人工智能在这一阶段飞速发展。尤其是随着深度学习和人工神经网络研究的不断深入，人工智能在近几十年中取得了长足的进步，取得了令人瞩目的成就。

人工智能发展到今天，出现了很多令人瞩目的研究成果。AlphaGo的胜利就是基于这些研究成果的一个里程碑。当前人工智能的研究热点主要集中在自然语言处理、机器学习、人工神经网络等领域。

2.人工智能l展现状与前景

人工智能当前有很多重要的研究领域和分支。目前，越来越多的AI项目依赖于分布式系统，而当前研究的普遍热点则集中于自然语言处理、机器学习和人工神经网络等领域。

自然语言处理：自然语言处理（NaturalLanguageProcessing，简称NLP），是语言学与人工智能的交叉学科，其主要功能就是实现让机器明白人类的语言，这需要将人类的自然语言转化为计算机能够处理的机器语言。

自然语言处理主要包括词法分析、句法分析和语义分析三大部分。词法分析的核心就是分词处理，即单词的边界处理。句法分析就是对自然语言中句子的结构、语法进行分析如辨别疑问句和感叹句等。而语义分析则注重情感分析和整个段落的上下文分析，辨别一些字词在不同的上下文定的语义和情感态度。

当前自然语言的处理主要有两大方向。一种是基于句法-语义规则的理性主义理论，该理论认为需要为计算机制定一系列的规则，计算机在规则下进行推理与判断。因此其技术路线是一系列的人为的语料建设与规则制定。第二种是基于统计学习的经验主义理论，这种理论在最近受到普遍推崇。该理论让计算机自己通过学习并进行统计推断的方式不停地从数据中“学习”语言，试图刻画真实世界的语言现象，从数据中统计语言的规律。

机器学习：机器学习（MachineLearning）是近20年来兴起的人工智能一大重要领域。其主要是指通过让计算机在数据中自动分析获得规律，从而获取“自我学习”的能力，并利用规律对未知数据进行判断和预测的方法。

机器学致可以分为有监督的学习和无监督的学习。有监督的学习是从给定的训练数据集中练出一个函数和目标，当有新的数据到来时，可以由训练得到函数预测目标。有监督的学习要求训练集同时有输入和输出，也就是所谓的特征和目标。而依据预测的结果是离散的还是连续的，将有监督的学习分为两大问题，即统计分类问题和回归分析问题。统计分类的预测结果是离散的，如肿瘤是良性还是恶性等；而回归分析问题目标是连续的，如天气、股价等的预测。

无监督学习的训练集则没有人为标注的结果，这就需要计算机去发现数据间的联系并用来分类等。一种常见的无监督学习是聚类分析（ClusterAnalysis），它是将相似的对象通过静态分类的方法分成不同的组别或者是特定的子集，让同一个子集中的数据对象都有一些相似的属性，比较常用的聚类方法是简洁并快速的“K-均值”聚类算法。它基于K个中心并对距离这些中心最近的数据对象进行分类。

机器学习还包括如半监督学习和增强学习等类别。总而言之，机器学习是研究如何使用机器来模拟人类学习活动的一门学科，而其应用随着人工智能研究领域的深入也变得越来越广泛，如模式识别、计算机视觉、语音识别、推荐算法等领域越来越广泛地应用到了机器学习中。

人工神经网络：在脑神经科学领域，人们认为人类的意识及智能行为，都是通过巨大的神经网络传递的，每个神经细胞通过突出与其他神经细胞连接，当通过突触的信号强度超过某个阈值时，神经细胞便会进入激活状态，向所连接的神经细胞一层层传递信号。于1943年提出的基于生物神经元的M-P模型的主要思想就是将神经元抽象为一个多输入单输出的信息处理单元，并通过传递函数f对输入x1，x2…，xn进行处理并模拟神经细胞的激活模式。主要的传递函数有阶跃型、线性型和S型。

在此基础上，对神经网络算法的研究又有诸多进展。日本的福岛教授于1983年基于视觉认知模型提出了卷积神经网络计算模型。通过学习训练获取到卷积运算中所使用的卷积系数，并通过不同层次与自由度的变化，可以得到较为优化的计算结果。而AlphaGo也正是采用了这种深度卷积神经网络（DCNN）模型，提高了AlphaGo的视觉分类能力，也就是所谓的“棋感”，增强了其对全盘决策和把握的能力。

3.人工智能的发展前景

总体来看，人工智能的应用经历了博弈、感知、决策和反馈这几个里程碑。在以上4个领域中，既是纵向发展的过程，也是横向不断改进的过程。

人工智能在博弈阶段，主要是实现逻辑推理等功能，随着计算机处理能力的进步以及深度学习等算法的改进，机器拥有了越来越强的逻辑与对弈能力。在感知领域，随着自然语言处理的进步，机器已经基本能对人类的语音与语言进行感知，并且能够已经对现实世界进行视觉上的感知。基于大数据的处理和机器学习的发展，机器已经能够对周围的环境进行认知，例如微软的Kinect就能够准确的对人的肢体动作进行判断。该领域的主要实现还包括苹果的Siri，谷歌大脑以及无人驾驶汽车中的各种传感器等。在以上两个阶段的基础上，机器拥有了一定的决策和反馈的能力。无人驾驶汽车的蓬勃发展就是这两个里程碑很好的例证。Google的无人驾驶汽车通过各种传感器对周围的环境进行感知并处理人类的语言等指令，利用所收集的信息进行最后的决策，比如操作方向盘、刹车等。

人工智能已经渗透到生活中的各个领域。机器已经能识别语音、人脸以及视频内容等，从而实现各种人际交互的场景。在医学领域，人工智能可以实现自动读片和辅助诊断以及个性化t疗和基因排序等功能。在教育领域，机器也承担了越来越多的辅助教育，智能交互的功能。在交通领域，一方面无人车的发展表明无人驾驶是一个可以期待的未来，另一方面人工智能能够带来更加通畅和智能的交通。另外人工智能在安防、金融等领域也有非常广阔的发展前景。总之，人工智能在一些具有重复性的和具备简单决策的领域已经是一种非常重要的工具，用来帮助人们解决问题，创造价值。

参考文献

[1]阮晓东.从AlphaGo的胜利看人工智能的未来[J].新经济导刊，2016（6）：69-74.

关键词：英汉平行语料库;语义分析;翻译教学;B/S结构

目前基于语料库进行语言研究和翻译研究都取得了一定的成果。特别是语料库方面，国外当代语料库有共建英语语料库（COBUILD）、朗文语料库（LANGMAN）、英语国家语料库（BNC）以及国际英语语料库（ICE）为代表的超级语料库（mega-corpora），它们的容量更大，收词量大都上亿，覆盖面更宽，应用更广。东北大学自然语言处理实验室的NiuTrans是目前国内唯一一套开源的统计翻译系统，该系统提供了英汉平行语料库，但是只进行语法标注，没有进行语义标注。对于科学研究和教学应用，可以对该语料库进行深加工，标注浅层和深层语义信息，这样可以应用在教学中。

以上所有研究都是基于经过语法和浅层语义标注的基础上的平行语料库进行的。由于缺少对语料库进行深层语义分析，给研究和应用带来了局限性。

一、现有语义分析工具

对选取的语料进行语法、语义标注，由于目前对语料库的语法标注技术已经成熟，可以运用相应的软件来进行，可以利用斯坦福大学的NLP小组的Parser来进行英语和汉语句子的语法标注，然后对语料进行英语语义和汉语语义分析。

运用英语语义分析网上资源WordNet、FrameNet和VerbNet进行英语深层语义标注，即语义框架识别和标注。由于目前汉语还没有相应的WordNet、FrameNet和VerbNet网上语义分析资源，通过查找汉语对应词语得到相应的已经标注好的英语句子，通过英语句子的语义框架来标注汉语句子的语义框架，最后由人工来校对、编辑。

在汉语语料库语言学研究中，基于词的研究取得了令人满意的成果，如哈尔滨工业大学的开放自然语言平台（LanguageTechnologyPlatform，LTP）。LTP制定了基于XML的语言处理结果表示方法，并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块，其中包括分词（CRFWordSeg）、词性标注（POSTagging）、命名实体识别（NER）、依存句法分析（GParser）、词义消歧（WSD）和语义角色标注（SRL）六项中文处理核心技术以及基于动态链接库（DynamicLinkLibrary，DLL）的应用程序接口、可视化工具，并且能够以网络服务（WebService）的形式进行使用。

二、语料库语义分析在教学中的应用

传统翻译教学以教师为中心，无法很好调动学生的积极性。借助语料库进行翻译教学，学生通过探索式、发现式和“做中学”的活动，发现、总结和归纳语言运用的特征和规律，有利于培养学生解决问题的能力和学习能力。

把语料库技术引入翻译教学中，对于培养学生的自主学习能力、提高学生学习兴趣有很大的帮助。对教育信息化是一个有益的尝试。

三、系统实现技术

由于目前对汉语语料库进行深层语义分析还处于探索阶段，本课题通过平行语料库汉语词语所对应的英语句子的语法信息、浅层语义信息和深层语义信息，来进行汉语深层语义标注，是一个创新。

[1]王克非.双语平行语料库在翻译教学上的用途[J].外语电化教学，2004（06）.

[关键词]数字图书馆知识组织系统领域本体

[分类号]G250.76

从广义理解，数字图书馆知识组织应包括数字资源的知识组织系统的构建、语义自丰富、语义互联、互操作、术语服务等。

近年来，在我国图书情报界，本体研究成为了数字图书馆知识组织系统构建的一个热点研究领域。目前为解决数字图书馆知识组织系统语义丰富度问题，本体构建与复用、本体整合、语义分析与抽取、语义标注以及语义互联应用成为学界研究的热点和建设的重点(见图1)。

2研究现状与热点

2.1本体建模与复用研究

本体建模方法的研究对于本体的应用有至关重要的作用。数字图书馆知识组织系统的构建有赖于本体的开发与完善，本体的开发和完善是一个反复叠加的过程，不会一蹴而就。目前国内外学者试图从本体建模方法和开源本体的复用两个方面进行突破。

目前本体建模的研究已经进入实际应用阶段。许多研究领域都建立了自己标准的本体，但由于领域本体建设还没有成熟的方法论作为指导，目前提出的本体建模方法都是面向特定领域或针对具体的项目，而且都不是经权威标准化机构认证的方法，这就导致各种本体建模方法的出现。如骨架法、企业建模法、循环获取法和IDEF-5方法等。

W3C标准定义的OWL本体语言由一系列规则组成，包括类规则、属性规则和实例规则。在如下导入相似性标注的帮助下，OWL本体可以导入其他的OWL本体：

Annotation(ireports)

Annotation(imports)

导入标注含有把两个源本体导入目标本体的规则。把本体概念加以扩充，可以实现从源本体的类、属性和实例的语义导入。本体复用需要评价已有本体与目标本体之间的关联性。共享和复用是本体的本质要求，也是领域本体建设中很重要的问题。

2.2本体整合

本体整合是本体的语义和解释范畴的问题。本体整合最初由SWAP(SemanticWebandPeertopeer)项目和SEKT(SemanticallyEnabledKnowledgeTechnolo―gies)提出，利用本体整合处理本体异质(ontologyheterogeneity)。PaoloBouquet等人给出了本体异质的详细分析，指出在分布式和开放式系统中本体异质是不可避免的，并根据本体异质产生的原因将其划分为4个层次：表示层、术语层、概念层和语义层。PaoloBouquet等人还认为：表示层的异质可以通过翻译成统一的本体表示语言来解决；术语层的异质通过词汇映射来解决；概念层异质的解决需要通过对整个本体进行考虑，查找不一致，进行映射或合并；语义层的异质可能存在着表示层、术语层、概念层异质，还可能存在语义关系上异质，目前还没有很好的解决方法。

本体映射是本体整合的一个关键环节，它通过一定的方法在已存在的不同本体间建立映射，以便在已存在的和新的领域之间进行交流时有通用的接口和共同的理解。在现实应用中，领域本体规模都很庞大，利用手工方式，进行本体概念比对完成本体映射时繁琐且易错，因此是不可行的。目前国内外研究者对自动化本体映射的方法和技术进行了深入研究，其主要特性如表1所示：

从图1可知：①映射方法上：大多数的本体映射方法是采用一对一集成，而一对多或者多对多的方法比较少，基本没有多对多的本体集成工具出现；②自动化程度上：本体映射无法实现自动化的本体映射，多是半自动化的；③计算方法上：比较单一(除了OntoMap之外)；④映射性能上：受到本体构建技术影响比较大。本体映射目前只能够解决术语层和概念层的异质，还无法涉及到语义层的异质，如何解决语义层的异质是当前研究需要重点考虑的问题。

2.3语义分析与抽取

数字图书馆知识组织系统的构建不仅是多种语义工具的互操作和集成，而且还应实现这些语义工具的机器可处理和机器可理解。

国内外学者对自然语言理解展开了深入研究。国外的语言学家、计算机学家、心理学家和逻辑学家在语法、句法、词法、语义分析等方面提出了一系列理论及方法。这些理论和方法大致可归为三大类：基于语法的分析法、基于语法与语义相结合的分析法和基于语义的分析法。国内在理论研究方面尚不深入，但在汉语电子词典、机器翻译、汉语机读语料库、汉语人机对话、汉语情报检索等应用研究领域也有重大突破。

自然语言理解有赖于自然语言处理，自然语言处理的基础是分词技术。因为：一方面，词是自然语言的基本单元；另一方面，计算机以机器词典的形式存储大部分自然语言知识，机器词典中收录了词条的词法、句法和语义知识，并在词类知识基础上编制句法规则。因此，自然语言处理系统必须对“词”进行识别和处理，才能理解和使用知识。

另外，由于汉语与其他语种不同，更需要自动分词，国内的许多机构和学者对此展开了研究。梁南元定义了两种基本的切分歧义类型，而黄昌宁、刘宾、殷建平、文庭孝、尹锋、丁丰、刘开瑛等学者都进行了分词方法的研究和自动分词系统的研究，可以归纳为基于词典的分词方法、基于统计的分词方法、基于理解的分词方法和基于人工智能的分词方法。这些分词方法各有其特点，分别代表着不同的发展方向。其中，基于人工智能的分词方法是目前理论上最为理想的分词方法，但是该类分词方法的研究还处于初级阶段，并且由于汉语自然语言复杂灵活，知识表示困难，所以对于这类分词技术还需要进行更深入和全面的研究。自动分词系统研究成果主要有清华大学SEG分词系统、复旦分词系统、北京大学计算机研究分词系

统和中国科学院ICTCLAS系统。另外，国内学者开始重视语义和知识表示，并有意识地区别于英语自然语言理解的研究模式，寻找适合汉语自身的方法。黄曾阳的概念层次网络(HNC，Hierar―chicalNetworkofConcepts)理论和董振东的知网(How―Net)、东北大学和北京大学对WordNet的汉化等，都在努力探讨适用于自然语言处理的新方法。

2.4语义标注

2.5语义互联应用

2.5.1知识可视化知识可视化(knowledgevisualiza―tion)是在科学计算可视化、数据可视化、信息可视化基础上发展起来的新兴研究领域，于2004年由Eppler和Burkard率先提出。它是指应用视觉表征手段促进群体知识的传播与创新，包括所有可以用来建构和传达复杂知识的图解手段。现阶段，知识可视化的研究主要为两个方向：

研究知识可视化的表现形式，包括知识可视化的基础理论、知识的可视化表现图的类型、适用范围和效果。如武汉大学信息管理专业学者对此做了一系列研究，出版了《信息可视化与知识检索》，从信息检索结果提供、多媒体信息可视化方面进行了综述性的研究。

可视化的实现，包括知识可视化的形式化模型和算法以及该理论模型和算法的实现系统软件。比如对于思维导图(mindmap)现阶段国外已经有MindMapManager、FreeMindMap等应用软件。这个方向国内研究的主力军是北京师范大学知识工程研究中心，该中心开发了中文概念图软件易思一认知助手(EasyThinking―CognitiveAssistant)软件，2007年1月7日已3.0版，将概念图、思维导图和一般图合而为一。

2.5.2语义检索20世纪80年代国际信息检索大会SIGIR会议论文中就出现了对语义检索的讨论，但语义检索研究始终受到语义信息处理发展水平的制约。上世纪末以来，随着自然语言处理、人工智能的发展，尤其是语义网技术的兴起与发展，语义检索研究得以迅速发展。尽管到目前为止对语义检索在概念上仍没有统一的界定，但不同的研究却有着共同之处，就是基于对信息资源的语义处理实现效率更高的检索。目前语义检索有两种，即基于概念的语义检索和基于本体的语义检索。前者是根据概念词典和关系数据库构建概念空间实现语义检索，具有一定的语义处理能力和自然语言接口，但其概念库中不包含概念间关系的描述，因此无法处理有关概念的问题；而后者是基于本体构建概念空间，将本体融合到传统信息检索技术中，不仅可以继承概念信息检索的优点，还可以克服概念信息检索不能对概念关系进行处理的局限。

异构数字图书馆系统间的互操作的目标是实现不同系统间知识交换、共享与重用。这方面需要解决的问题是：①不同本体之间的互操作。本体虽然为DL的语义互操作提供了解决方案，但其本身也存在着异构性，因此不同本体之间的互操作也是DL互操作的一个重要方面。②跨语言、跨文化的互操作。未来的DL将是联邦数字图书馆。建立全球范围的DL联邦，需要解决跨语言、跨文化的互操作问题，其中包括比较复杂的语言翻译问题。③DL的发现与安全性。实现全球范围内DL的互操作，需要解决DL的命名和动态发现。随着DL逐步走向实用化，必须考虑DL互操作的安全问题。

要实现这一目标，必须在描述、检索、对象交换与检索协议等方面取得突破性的进展。需要解决的问题包括元数据的定义和通过文本或多媒体数字对象抽取元数据，数字对象的特征描述计算，具有不同语义的异构资源库的整合，信息的聚类和自动分类，自动排序、分级算法以及信息质量、类型或其他属性的自动评测等。

3结语

随着本体在数字图书馆知识组织系统中的深入应用，如何解决本体建模与复用、本体整合、本体进化和语义互操作问题已经迫在眉睫。

并列结构分为有标记的并列结构和无标记的并列结构。吴云芳[8]指出，对于有标记的并列结构，处理的关键是确定并列结构的边界；对于无标记的并列结构，处理的关键是辨别同类词连用形式的歧义格式。下面介绍并列结构识别的三种方法：自底向上的图表算法、中心词驱动的并列结构识别、基于条件随机场的并列结构识别。

1自底向上的图表算法

2中心词驱动的并列结构识别

中心词驱动的并列结构识别算法是由吴云芳[8]提出的，该算法分为下述3个步骤：（1）利用边界特征词划定并列结构的大致范围。（2）对于名词性的右中心结构（如图2所示），并列标记之前第一个词语被认定为前并列成分中心词，根据一系列相似性原则，在并列标记后搜索与前中心词相似度最大的词语作为后并列成分中心词，后并列成分由此确定；对于动词性的左中心结构（如图3所示），算法类似只是方向相反。（3）根据并列成分结构平衡与相似的原则，在并列结构前端搜索与后并列成分平衡性和相似性最大的词串作为前并列成分。步骤1中提到的边界特征词是指大多位于并列结构外部而不位于并列结构的内部的词语，如果位于并列结构内部,该词一般情况下只与其自身形成的并列结构。吴云芳将并列结构的边界特征词分为3类。前边界特征词、前边界特征词类、后边界特征词。其中，前边界特征词主要有：来自、受到、得到、有利于、包括、具有、涉及、是、作为、如、诸如、例如、来等；前边界特征词类主要是连词（C）和介词（P）；后边界特征词主要有：等、等等、都、分别、均、共同、也、之间、来、联合等。

3基于条件随机场的并列结构的识别

用于自然语言处理的统计机器学习模型有很多种，如：最大熵、隐马尔科夫、条件随机场等。条件随机场作为一个无向图模型在序列标注问题上比隐马尔科夫模型、最大熵模型等有向图模型识别的效果好[18]。王东波[11,19]运用条件随机场识别有标记的联合结构。条件随机场模型是Lafferty[20]在最大熵和隐马尔科夫模型的基础上提出的一种用于标注和切分的序列化标注模型。基于条件随机场（Crf）的并列结构识别的系统流程图，如图4所示。

4结束语

关键词：决策支持系统人工智能专家系统

一、智能决策技术概述

1.决策支持系统的形成

随着计算机技术和应用的发展，如科学计算、数据处理、管理信息系统的发展以及运筹学和管理科学的应用，为决策支持系统的形成打下了基础。决策支持系统(DecisionSupportSystem—DDS)是80年代迅速发展起的新型计算机学科。70年代初由美国M.S.ScottMorton在《管理决策系统》一文中首先提出决策支持系统的概念。

DSS实质上是在管理信息系统和运筹学的基础上发展起来的。管理信息系统重点在对大量数据的处理。运筹学在运用模型辅助决策体现在单模型辅助决策上。随着新技术的发展，所需要不得不解决的问题会愈来愈复杂，所涉及的模型会愈来愈多，模型类型也由数学模型扩充数据处理模型。模型数量也愈来愈多。这样，对多模型辅助决策问题，在决策支持系统出现之前是靠人来实现模型间的联合和协调。决策支持系统的出现就是要解决由计算机自动组织和协调多模型运行，对大量数据库中数据的存取和处理，达到更高层次的辅助决策能力。决策支持系统的新特点就是增加了模型库和模型库管理系统，它把众多的模型(数学模型和数据处理模型以及更广泛的模型)有效地组织和存储起来，并且建立了模型库和数据库的有机结合。这种有机结合适应人机交互功能，自然促使新型系统的出现，即DDS的出现。它不同于MIS数据处理，也不同于模型的数值计算，而是它们的有机集成。它既有数据处理功能又具有数值计算功能。

决策支持系统概念及结构。决策支持系统是综合利用大量数据，有机组合众多模型(数学模型与数据处理模型等)，通过人机交互，辅助各级决策者实现科学决策的系统。

DSS使人机交互系统、模型库系统、数据库系统三者有机结合起来。它大大扩充了数据库功能和模型库功能，即DSS的发展使管理信息系统上升到决策支持系统的新台阶上。DSS使那些原来不能用计算机解决的问题逐步变成能用计算机解决。

2.人工智能概念和研究范围

(1)人工智能定义。由计算机来表示和执行人类的智能活动(如判断、识别、理解、学习、规划和问题求解等)就是人工智能。人工智能的研究在逐步扩大机器智能，使计算机逐步向人的智能靠近。

(2)人工智能的研究范围。人工智能研究的基本范围有：问题求解、逻辑推理和定理证明、自然语言处理、自动程序设计、学习、专家系统、机器人学、机器视觉、智能检索系统、组合高度问题、系统与表达语言等；其主要研究领域有：自然语言处理、机器人学、知识工程。

自然语言处理：语音的识别与合成，自然语言的理解和生成，机器翻译等。

机器人学：从操纵型、自动型转向智能型。在重、难、险、害等工作领域中推广使用机器人。

知识工程：研究和开发专家系统。目前人工智能的研究中，最接近实用的成果是专家系统。专家系统在符号推理、医疗诊断、矿床勘探、化学分析、工程设计、军事决策、案情分析等方面都取得明显的效果。

3.决策支持新技术

(1)数据仓库的兴起和概念。数据仓库(DataWarehouse—DW)的概念是PrismSolutions公司副总裁W.H.Inmon在1992年出版的书《建立数据仓库》(BuildingtheDataWarehouse)中提出的。数据仓库的提出是以关系数据库，并行处理和分布式技术的飞速发展为基础，它是解决信息技术在发展中一方面拥有大量数据，另一方面有用信息却很贫乏(Datarich—Informationpoor)这种不正常现象的综合解决方案。

(2)数据仓库的特点。数据仓库是面向主题的：主题是数据归类的标准，每一个主题基本对应一个宏观的分析领域。

数据仓库是稳定的：数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。

数据仓库中数据很大：通常的数据仓库的数据量为10GB级，大型的是一个TB级数据量。数据中索引和综合数据占2/3，原始数据占1/3。

数据仓库软、硬件要求：需要一个巨大的硬件平台和一个并行的数据库系统。

(3)数据开采的概念及方法。1995年在加拿大召开了第一届知识发现(KnowledgeDiscoveryinDatabase—KDD)和数据开采(DataMining—DM)国际学术会议以后，“数据开采”开始流行，它是“知识发现”概念的深化，知识发现与数据开采是人工智能、机器学习与数据库技术相结合的产物。KDD一词是在1989年8月于美国底特律市召开的第一届KDD国际学术会议上正式形成的。

知识发现被认为是从数据中发现有用知识的整个过程。数据开采被认为是KDD过程中的一个特定步骤，它用专门算法从数据中抽取模式。

数据开采的主要方法和技术有：信息论方法、集合论方法、仿生物技术、公式发现、统计分析方法及其它方法。

THE END

自然语言处理范文

豆包AI传图解题使用方法豆包AI解题正不正确

文心一言人人都能上手的AI工具pdf,mobi,epub,txt,百度云盘百度网盘免费下载电子书下载电子版全集免费阅读在线阅读精校版扫描阿里云盘Kindle资源ed2k微盘作者:麓山AI研习社

腾讯智影：又一大厂出品的一站式AI创作工具，功能着实强大！

AI工具的使用：方法介绍感受与心得全攻略

如布AI词典笔，孩子和大人都能用学习全能笔

新闻中心——驱动之家：您身边的电脑专家

自然语言处理范文

工作计划怎么写？试试用这款ai工具快速生成

win10系统电脑删除VanceAIImageEnlarger(图像无损放大工具)软件还有残留文件要怎么可以彻底卸载

ChatGPT教程：使用资源聚合盘点——入门提示词Prompts站点GPT工具AI工具

推荐5个电脑必备AI工具效率神器，办公写作搜索数据分析一应俱全

AI是行业“万金油”吗?青椒云云桌面专访博主“朱尼酱”