博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
浅谈深度学习和本体间的关系
阅读量:4559 次
发布时间:2019-06-08

本文共 1327 字,大约阅读时间需要 4 分钟。

在一次会议上得到了这样一个观点说深度学习和本体是同一个方向的两条不同的路径。但是觉得这个两个东西是完全不相关的东东么怎么能扯到一起去呢?后来读了一些语义角色标注的文章发现这种观点确实有些意思。本文结合自己一些对深度学习极为浅显的了解和对本体、机器学习的粗浅理解浅谈一下深度学习和本体的关系。

在这里先要谈一下分类问题如羊是属于动物的,小明是属于人的等等。分类问题在人工智能领域一直占有极重要的地位。那么从统计角度的机器学习是怎么分类呢?大部分的分类器过程都是先找到这个实例的特征,如我对一句话:我爱北京天安门。来进行语义角色标注。其中我被标注为动词主语,名词天安门被标注为动词的宾语。语义角色标注完成后,原来的句子则变成如下的形式:我[arg0] 爱[vb] 天安门[arg1]。从人的角度来看这样的标注非常简单,但是从机器的角度来看就十分困难了,所以我们需要使用一些已知的数据和这些数据的特征对这个分类问题进行训练。最简单的方法就是训练数据里面如果有:我[arg0] 爱[vb] 天安门[arg1] 这样一个训练数据,这时候当有相同的测试数据来的时候那么自然就会将测试数据分成跟训练数据一样的语义角色。但是这样细粒度的特征会造成极大的稀疏性也就是说大量的测试数据是无法在训练数据中找到相同的样例的,这样分类的效果就不会太好。为了解决这个问题人们就会进一步考虑更粗粒度的特征如:我爱北京天安门 根据词性可以变成NP VB NP(名词 动词 名词)这样符合这个更粗粒度模板的句子就可以得到跟 我[arg0] 爱[vb] 天安门[arg1] 相同的语义角色标注。因此我们为了提高分类的效果会尽可能用多个维度,多个不同粒度的特征来归纳总结事物属于某个类别。

而深度学习的思路则是一个更细的分类过程,在传统的机器学习过程中如果训练数据已知NP VB NP中第一个NP是arg0(既主语)第二个NP是arg1(既宾语)那么当来一个句子我爱北京天安门 这样一个具有相同模式的句子时我们会自动将我标注为arg0,天安门标注为arg1。而深度学习则更像一个更细化的机器学习(这里理解比较肤浅)既我第一步先分类判断“我 ”是一个词语w,第二步判断w是一个名词NP,第三步,判断NP后面有一个动词vb,第四步得到NP是arg0。它的区别就是不像传统的机器学习一步得到分类结果而是通过每一步得到一个最小粒度的分类然后这个分类作为下一层分类的特征进而得到更粗粒度的特征。从另一个角度看他把特征从一个词”我“转换到”NP“的过程自动化了。

而本体天然就是一个描述类别层级和类别见关系的逻辑描述。如小孩是人的一个子类,通过规则我们可以知道小孩是一个人。从本质上看他与深度学习的分类方法类似,深度学习的方法是自动的通过统计的而本体的分类规则则是手工的,而深度学习每一层的分类特征是隐含的本体则是有明确的语义关系。但深度学习更依赖训练数据,实际上很难决定多少训练数据是足够的。单纯从分类的角度来看这两个学派的关系更像以前Yahoo和Google对网页分类的看法。

 

转载于:https://www.cnblogs.com/loneliness20141112/p/4255345.html

你可能感兴趣的文章
经常使用的android弹出对话框
查看>>
确保新站自身站点设计的合理性的六大注意点
查看>>
1033. 旧键盘打字(20)
查看>>
The Zen of Python
查看>>
git安装及使用
查看>>
mysql一个非常实用解决sql查询优化的函数explain
查看>>
图文讲解NTFS和FAT32硬盘下 asp.net 生成word 错误: 80070005 和 错误:8000401a 的解决方法...
查看>>
《学习》5连接查询(高级查询)
查看>>
python日常—爬取豆瓣250条电影记录
查看>>
11.3NOIP模拟赛
查看>>
1.SDL介绍
查看>>
【重要更新】语言转换类编程工具Tangible系列本月又更新了!
查看>>
现场赛:开关灯问题
查看>>
codeforces A. Jeff and Rounding (数学公式+贪心)
查看>>
zoj 3462
查看>>
java多线程-信号量
查看>>
如何在Delphi XE2中使用Dynamic Web TWAIN
查看>>
js自定义实用函数总结
查看>>
java内存区域与内存溢出异常
查看>>
点点滴滴的成长[2011-11-1]:理解C#修饰符
查看>>