数学之美

保留初心,砥砺前行

看完了《数学之美》第三章才想起来做一些记录会有更好的职能。

因此从第四章开始也不晚,况且前两章只是相当于介绍了数学的少数历史。

从那篇起先以数学之美为起始的篇章更多的是为着协调看,记录一些书中的重点。

766net必赢亚洲手机版,万一正好也有爱好数学的您看看了这么些作品,可以当做是对数学之美这本书的一个简要性概述。

最后,希望高手指正。

数学的魅力就在于将复杂的题材简单化。

此间是自己深夜写的一篇“小说”,它太短,所以不可以称之为一篇著作;但是它承载的内容又太重,早就超越了一篇著作的范畴。

尽管如此本人直接相信的是,工学是万物的不错,是全部科学的根基和指点,并且这样的准则平素再指点自己的生存和读书。

但是在这边我以为,数学是整套问题最终的解决方法,与事先我所相信的并不争辩。

在我看来,数学可以给全部以一个简练的化解方案,而电脑、程序则是这种解决方案的举行。

可以缓解任何的辩护加上可以兑现成套的执行,对,就是上帝。

她居然(这是为着节目效果的浮夸说法==)可以制作生命(人工智能)。

下边是分割线
·=================================================·

扯远了回归正题,来,数学之美第四章:

其三章中说可以动用总结语言模型举办自然语言处理,而自然语言模型建立在词的底子上。在乌克兰语等语言中,每个词中间都有距离,而在闽南语言、日文等语言中,一句话由众多用语组成,但并不存在显然的分隔符。由此对这种语言举办基于总计语言模型的自然语言处理,就需要举办分词。

例:
中国航天官员应邀到美利坚联邦合众国与高空总署负责人开会。
中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会。

分词最基本的记挂就是“查字典”。
简简单单的话就是把句子从左到右扫描两回,碰着字典里一些词就标识出来,假使遇到复合词,就按最长匹配原则(新加坡大学,不按新加坡和大学分,按最长匹配原则)。

但是当词语存在二义性时,例如:
发展中国家
按部就班上述规则,从左到右查字典,得到的结论是
发展/中国/家
然则实际上应该是
发展/中/国家

对于这种气象,上一章讲到的总括语言模型可以化解这一个问题。

假使一个句子有两种分词方法:
A1, A2, A3, …, Ak
B1, B2, B3, …, Bm
C1, C2, C3, …, Cn
分词得到的结果不同,分成的词的个数也不比。
此时问题又成了上一章中的问题,咋样才能判断哪种才是最好的。
最好的相应是承保分完词后那个句子出现的票房价值最大,如下所示:
P(A1, A2, A3, …, Ak) > P(B1, B2, B3, …, Bm)
并且
P(A1, A2, A3, …, Ak) > P(C1, C2, C3, …, Cn)
概率最大的就是最好的分词方法。

最终,本章提到了两点:

  • 分词技术早已成熟,提高空间微乎其微
  • 最近手写输入英文越来越流行,手写输入的英文单词之间的间隔并不如机器打印的这样通晓,因而也需要分词技术。

在拉开阅读中,提到了有关分词的粒度的题目。
比如词语‘武大高校’,有些人觉得分到复旦学院以此层次恰到好处,因为她可以说是一个专出名词;而另一些人以为要分成交大和高等高校,他们说南开是用来修饰高校的,假诺不拆开,无法反映他们的修饰关系。
具体的事态是,大家需要针对不同的使用,举行不同层次的分词。
在机械翻译中,粒度大的分词效果更好,而在网页搜索中,粒度小的效益更好。

协助不同粒度的分词器模型:

字串 –》基本词表(例如北大,高校) + 总计语言模型L1 –》基本词串
基本词串–》复合词表(例如南开高校) + 总结语言模型L2 –》复合词串

766net必赢亚洲手机版 1

发表评论

电子邮件地址不会被公开。 必填项已用*标注