数学的美–谈谈分词

保留初心,砥砺前行

圈了了《数学之美》第三回才想起来做有记录会有还好之职能。

用于第四段开吧不晚,况且前片回就是一定给介绍了数学的一些历史。

自即首开始坐数学之美啊始发的篇章又多的凡为协调扣,记录有修中之要紧。

设恰巧也起爱好数学之君看来了这些文章,可以视作是指向数学之美即时按照开之一个简要性概述。

说到底,希望高手指正。

数学之魅力就在用复杂的题目简单化。

此是自我上午形容的同样首“文章”,它不过缺,所以未能够叫一篇稿子;然而其承载的情以极重,早就过了扳平篇稿子的范围。

虽说我直接相信的凡,哲学是万物之不易,是整个对的基本功与点,并且这样的信条一直重复点自己的活及学习。

然而以这边我以为,数学是全问题最终之解决措施,与事先自己所相信的并无冲突。

在我看来,数学好被通以一个简短的缓解方案,而计算机、程序则是这种解决方案的施行。

可以缓解所有的辩护加上可以实现通的实践,对,就是上帝。

他竟然(这是为了节目效果的浮夸说法==)可以制造生命(人工智能)。

脚是分割线
·=================================================·

扯远了回归正题,来,数学之美第四章节:

老三段中说好动用统计语言模型进行自然语言处理,而自然语言模型建立以歌词的基本功及。在英语等语言中,每个词中还产生距离,而当中文、日文等语言中,一句话由多词语组成,但并无存在显著的分隔符。因此对这种语言进行基于统计语言模型的自然语言处理,就得开展分词。

例:
中国航天官员应邀到美国和高空总署负责人开会。
中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会。

分词最核心的思量便是“查字典”。
简言之来说就是拿词从左到右扫描一百分之百,遇到字典里部分词即标识出来,如果撞复合词,就仍最丰富匹配原则(上海大学,不照上海跟大学分,按最丰富匹配原则)。

然当词语在二义性时,例如:
发展中国家
依照上述规则,从左到右查字典,得到的下结论是
发展/中国/家
而是事实上应该是
发展/中/国家

于这种状态,上一样节讲到的统计语言模型可以解决这题目。

如一个词有三栽分词方法:
A1, A2, A3, …, Ak
B1, B2, B3, …, Bm
C1, C2, C3, …, Cn
分词得到的结果不同,分成的乐章之个数也不比。
此刻题材还要成为了上一样回中的问题,如何才会断定哪一样种植才是最最好的。
极致好的应是保分了词后这词出现的票房价值最深,如下所示:
P(A1, A2, A3, …, Ak) > P(B1, B2, B3, …, Bm)
并且
P(A1, A2, A3, …, Ak) > P(C1, C2, C3, …, Cn)
概率最酷之哪怕是极其好的分词方法。

终极,本章提到了有限沾:

  • 分词技术就成熟,提升空间微乎其微
  • 今天手写输入英文越来越流行,手写输入的英文单词之间的间距并无使机器打印的如此强烈,因此呢待分词技术。

以拉开阅读着,提到了关于分词的粒度的题材。
譬如词语‘清华大学’,有些人以为分至清华大学这层次恰到好处,因为他可以说凡是一个专有名词;而另外一部分口看使分成清华和大学,他们说清华是为此来修饰大学的,要是不拆起来,无法反映他们之修饰关系。
切实的景况是,我们得针对不同的使,进行不同层次之分词。
在机器翻译中,粒度大之分词效果还好,而在网页搜索着,粒度小之机能更好。

支持不同粒度的分词器模型:

许串 –》基本词表(例如清华,大学) + 统计语言模型L1 –》基本词串
基本词串–》复合词表(例如清华大学) + 统计语言模型L2 –》复合词串

766net必赢亚洲手机版 1

发表评论

电子邮件地址不会被公开。 必填项已用*标注