自然语言处理一些读书笔记和协调之思维。

 

在知乎上搜相关问题,有人推荐《数学的美》,之前大概看了一样不善,这次纪念再次看一下而做只读书笔记。下面是有关自然语言理解地方的有读书笔记和协调之思辨。

一. 自然语言处理历史:

自然语言处理最初发展的20差不多年里,相关科学家都全力以赴通过计算机模拟人脑,试图用这种措施来拍卖人类语言,但是这种方式叫证实是无效的,成功几乎也零星。NLP发展的第二号是70年间后,科学家们毕竟找到了根据数学模型与统计的法子。

首先级的时候,学术界对人工智能和自然语言理解的科普认识是:要被机器就翻译或语音识别等等,必须事先叫电脑理解自然语言,就比如人类同去领悟这些语言,这明确是召开不至的。即便于可预见的将来,这也一定是同等宗不太现实的业务。

仲号,比如机械在翻译的经过中,并不曾掌握当下句话的意,它只是做了千篇一律种统计上之汇总而已。机器依旧是机器。

基于规则的分析方法,需要用现有的句法系统按照句子成分划分成一个一个单位,而立即会就句子的繁杂多样化句子的划分复杂度几哪里级上升,并且没有上下文的援手句子词义的多样性同样限制了平整分析方法的迈入。比如The
pen is in the box.和The box is in the
pen.按照规则来分析该词根本无容许获取语义,必须借助常识来得到该词的实在意义,但是依据统计的方式可凭借上下文对拖欠语义做一个靠边的预估。基于规则之办法了由该单独的句子着手,根本不管上下文。但是这么吧要没让基于统计的章程迅速发展起来,主要缘由在基于统计的法需要大量的训多少,这当及时来说是上不至之。

二.统计语言模型:

自然语言逐渐演化成平等种及下文相关的消息达和传递的主意,计算机就就此统计语言模型去表征自然语言这种上下文相关的特点。

一个词S=(w1,w2,w3…wn)由n个词做,我们设弄清该词是否是一个抱实际的词,可以计算该词在现实情况下之几率,最极端简便易行的想法是拿全人类抱有词统计一整,然后重新计是词的概率,但是及时明明是行不通的。一个灵光的措施是将这个词分成n个词(对于华语来说,这虽是中文分词研究的事物),然后又计这n个词按照该逐个组成是词的概率大小。可以象征如下:

766net必赢亚洲手机版 1

这概率计算的复杂度会趁着n的附加指数上升。因此引入齐次马尔科夫性假设,即假而一个词的出现就跟那眼前一个乐章的产出关于,而跟再前方的词无关,这样概率计算好简化为如下:

766net必赢亚洲手机版 2

这样的范称为二元模型,用更相像的表示法呢:

766net必赢亚洲手机版 3

可二元模型显然太过于简短草率,所以产生矣高阶模型的产出,n阶模型表示一个词之面世跟那眼前的n-1只词有关。表示为:

766net必赢亚洲手机版 4

诚如由计算复杂度的问题,大多数动静下用3阶模型,谷歌的利用了4阶型。

接通下去的题目是,由于用来训练模型的语料库(corpus)太少而起的零概率情况如何处理?

这里发生一个古德-图灵公式,基本思路是当词语对出现次数超过某平阈值时,利用标准概率计算出来的效率根据大数定理就当做概率(因为只有过某平阈值经常我们才有尽理由相信大数定理的条件让满足),当起频数小于该阈值但又盖零的效率,则附和的下调该频率值,因为是时大数定律成立的格是从未叫满足的,并且出现次数越来越少,下调频率尤其多,最后把此下调的效率当做所要的几率,最后对零油然而生的状,则以这些下调的总额平均分配给零涌出的次数,以保险概率总和为1。

三.汉语分词问题:

中文和英语有分每个词之空格不同等,汉语中装有的词都并未明显分界,所以必须解决中文分词问题,最简便易行的方法是查字典,基本考虑是第一来一个华语词语的字典库,将一个词从漏洞百出扫描到终极,遇到字典里部分词之后就封存,规则是竭尽找最丰富之词,比如中华航天城,中凡一个单字词,先保存,继续向下扫描,遇到国字,中和国足组合一个重新增长的歌词,因此最终保存中国是词,后面的航天城类似。查字典的拍卖方法简单,但切莫敷规范。因为多状下连无是极度丰富词之分词规则就是是不过适合之。

采取统计语言模型来拍卖中文分词的首先口是郭进博士,基本思想是:假设一个句有那个多种分词方法,则分级计每种分词方法对应的该句子概率。即:

766net必赢亚洲手机版 5

也就是说,利用每种分词方法还可以计算该词的几率。然后抱最好深概率对应之分词方法。其庐山真面目上是相同种极大似然估计。

四.关于郭进博士分词方法的片思考:(求指正)

于此处自己上加有有关大似然估计和庞大后验概率,以及效率学派和贝叶斯学派这上头协调的盘算,因为老是好不容易将明白了双边关系以及界别之后,过段时间又模糊了。

以此处,极大似然估计跟特大后验概率都是之类的运场景:在给定观测数据X的情况下,我们渴求免除产生该观测数据X背后的参数,并且我们求得的参数并无是免此即彼的,也就算是发一个概率分布来表征每一个或者的参数。当然,
一般景象下我们还取概率最深之好参数,即.

766net必赢亚洲手机版 6

宏大似然估计跟庞后验概率的主要区别就是在第三只顶号这里,这也是历史及知名的效率学派和贝叶斯学派争论的地方,焦点就是在766net必赢亚洲手机版 7是不是是一个常数,假如是常量的话,那么第三独顶号自就起了,这样对于参数的估量就变成了翻天覆地似然估计(Maximum
Likelihood),假如766net必赢亚洲手机版 8切莫也常量,那么第三独相当号就未克成立,对于参数的估价只能留于倒数第二独姿态这里,这虽是巨后验概率(Maximum
A Posteriori)。

每当效率学派的社会风气里,
参数是常量只是雾里看花。而当贝叶斯学派的世界里,参数则免是常量。双方就针对及时片种植看法展开了强烈的争辩,这是后言语未说明。

归来我们这边的问题,给一定一个词,我们渴求免除其分词组合,实际上给定的此句子就是我们的观测值,而分词组合便是用求解的参数,而上文说到之清华大学博士郭上所用到的道就是:先求得每个分词组合下相应之句子概率,把最充分概率对应之分词组合作为最终答案。很强烈有如下是公式:

766net必赢亚洲手机版 9

故而自己把这个由为精神上的高大似然估计。

中文分词并无是只能采用在汉语天地,而是因特定场合同样可以在字母语言的世界,比如英语词组的细分,手写句子的辨认(因为手写英文句子的空格不那么明白)等等。

华语分词已经发展及一定高之等,目前只是做一些全面和增长新词的行事,但是呢是一些工实现地方的挑三拣四问题,主要发生一定量接触:

1.分词的一致性,对于同样一个词,每个人之分词方法不相同,不克说啊种分词方法重复了不起,只能说于切实可行使用场景里在一样栽最美的分词方法;

2.分词的颗粒度问题,和一致性问题同,不同的动场景适合用不同之颗粒度,分词器在设计之时光一般会全盘兼顾颗粒度小和颗粒度大之情形,在切实问题之时节还进行相应的挑选。

 

 

 

 

1、 《自然语言处理综论》(Speech and Language Processing: An
Introduction to Natural Language Processing, Computational Linguistics
and Speech Recognition)
  这按照开之上流自不用说,译者是冯志伟先生以及孙乐先生,当年读就仍开之时节,还无亮堂冯先生是孰,但是读起来倍感蛮好,想想如果没以这个领域积聚多年之实力,是休可能翻译的这样顺畅的。这仍开在国内外的评说还较好,对自然语言处理的蝇头单学派(语言学派和统计学派)所关心之内容还具备包含,但因此呢失去一些基点。从自的角度来说又偏于被统计有,所以需要了解统计自然语言处理的读者下面两本书还称做基础阅读。不过这按照开之N-gram语言模型有写得老科学,是SRILM的引进阅读参考。
2、《统计自然语言处理基础》(Foundations of Statistical Natural Language
Processing)
  我较喜欢这仍开,这半年的念过程遭到吗常常用这仍开作参考,可能和本人开统计机器翻译有关吧。看china
pub上的评论说马上本开的翻比较不同,自己之发是还行。当然,这是国内翻译图书的一个短:除了生麻烦发出翻译的杀好之写外,另外一个缘由纵然滞后性。如果e文足够好之死去活来,就立即看英文版吧。这本开以统计基本有的牵线很正确,另外n元语法有讲得啊比好,也是SRILM的推介阅读。
3、《统计自然语言处理》
  这是京自动化所宗成庆先生今年5月出版的同比照专著,我有幸较早的看了马上仍开之多多章。一个老大强之觉得是:如果您想询问相关领域的国内外最新进展,这仍开非常值得一念。上面两本书以由出版稍早的缘由,很多世界时的艺术还无介绍。而立即按照开刚刚问世,宗先生针对国内外现状把握的为比较好,因此写被充分体现了及时面的信。另外统计机器翻译这同片段写得老大详细很是,这恐怕同宗先生也凡这个世界的研究者有关吧。
4、《计算机自然语言处理》
  这是自太早看的同等管辖自然语言处理方面的图书,和上面几乎总理大部头的书本相比,这仍开非常薄,可以快捷的禁闭了。书的内容我都出接触忘了,但是印象中好以每个章节看到国内这个领域的钻研历史与有关单位。这时才意识母校HIT在此领域的超强实力,只是心疼这下就去冰城了。
  这些书怎么读都执行,泛览也罢,精读也行,只要来日,多看是绝非坏处的。我要好之经验是,先泛泛的浏览或看一篇,对于比较生硬的有的好预先跳过去,然后针对好感兴趣的世界还是即将从的小圈子的相关章节进行精读,当然,书籍一般在起来的几乎单章节讲些基础性的文化,这片极端好吗精心斟酌一下。真正要针对友好研究之天地深刻了解,还得可以读一下按领域的连锁论文。

 

 

 

地方好多不行佬给推荐了诸多可怜好之教程,不赛答了。
私家觉得NLP如果未是举行学术研究钻算法的,其实过多深的写看了绝不的说话过段时间就记不清,而且容易丧失兴趣。说交太抢入门的语句,分情况讨论:
1
手头有个类别,需要快速自学完成。
选个例子,比如收任务要举行一个sentiment
analysis的系。先去网上,CSDN,博客园,知乎,quora,等等,找一首该主题的入门引导教程,看看发生什么适合门级读物,经典论文可以拘留,先把这些基础材料过同样全套,比如对于sentiment
analysis,一般迅速就会见找到同样本Bing
Liu写的一百基本上页的小册子,很入门。然后看见基础入门材料的长河中,看到出算法有保证得为此都记下来,一个个尝试。看罢这些基本就知晓路怎么开了,如果对现有的管不令人满意,觉得温馨写会再度好,就比如在若的笔触钻算法的原形,充分利用楼上大佬们推荐的经典教材,找到有关的组成部分看,搞懂了后头好写。这时候,你对这圈子就是终于入门了。
2
手头尚无路,纯想学NLP这个技能,比如寻找工作想多接触来技能培训。
这种场面下,去摸个档次举行,比如kaggle,codeproject等,或者github上奉献代码。活儿揽下后,按1丁之手续走。
3
理论派,兴趣在算法,纯希望了解NLP的算法在数学及是怎work的。
这种场面,数学好时间足够的口舌一直找本大佬们推荐的教材开始看,不然的话找一个吓的入门课程,然而印象中以coursera上接近没怎么发现了,但足以推荐CMU的LTI开的algorithms
for
NLP,网上应该找得交之课的公主页,上面来课件。不过看明白是课也是要数学基础的。按在这课件把要的topic都cover一尽,想看大一点的哪怕顶推介的经典教材里去寻觅来拘禁。

 

 

 

 

作者:杨智
链接:https://www.zhihu.com/question/19895141/answer/100991969
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

说说好之历程吧。
自身是同号称非科班的自然语言,机器上,数据挖掘关注者。
以工作涉及,5年前需做与自然语言处理的色。当时的种老大先是丢弃给我平本书《统计自然语言处理》,直接为自己看蒙了。不克说一些且未懂得,但是关押的云里雾里,不晓得get几交汇。
但看就按照开的长河中,我疯搜了数自然语言处理的课件,有北大之,中科院的,都写的挺好,从言语模型开始。从分词,标注,语法树,语意等等。也大体了解自然语言处理,分词法,语法,语义。然后是各种应用,信息搜索,机器翻译等自然语言经典应用问题。
纯属续续做了些稍项目,基于语言模型的拼音输入法,仿照sun’pinyin写的,他们之blog写的异常详细,从模型建模,到平处理,很详细,我哉就此python实现了平等任何,当时这个输入法配合及一个简的ui还当单位中加大了,搞了单基于云的拼音输入法,获得个小奖,很是得意。这个过程被,我看正在sunpinyin的blog,
 https://code.google.com/archive/p/sunpinyin/wikis,
回过头又去看课件,去打听非常细节之题材,如拉普拉斯平,回退平滑的底细等,收获良多。
新生格外告诉我,看自然语言问题经常,可以查找博士论文先押,因为博士论文一般还见面来天夺脉讲的不可开交详细,看罢一任何后多是题目不怕询问的大都,然后便是follow业界的快慢,那就是关注各种会以及期考,可活动百度和谷歌。
盘活这个拼音输入法,进入实际项目,做同样效中文自然语言的根基处理引擎,好于不是吃自家一个人口来,公司开始搜索大学协作,我举行公司项目承担跟进的,大学当具体算法,我随后好调研分词标注算法,了解了有基于词典的,语言模型的,hmm,crf的,那个crf的,我始终将不十分亮,后来预了解了hmm的vertbe算法,em算法,大学的博士被自己讲话了同一所有crf,终于豁然开朗。还将解码过程写及了http://52nlp.cn及,关注的口尚足以。从那以后我倍感自我不怕真正入门了。在来一个什么问题,我大多也产生套路来上学及研讨了。

总结下,
1.先各种课件,加那以自然语言的开,搞明白自然语言大概还出哪些问题,主要是为缓解什么问题之。
2.因某个问题看博士论文,了解来上去脉。然后follow业界进度。
3.查找各种资源,会议的,期刊的,博客http://52nlp.cn(不是自广告,我莫是博主,不过博客真心不错)
4.微博上关心各种之圈子的大牛,他们有时会推荐多立竿见影之素材。
自然,数学之美 我呢读了,确实是。

 

 

 

 

作者:陈见耸
链接:https://www.zhihu.com/question/19895141/answer/167512928
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

世家对的还蛮不错了,只好来强答。

平、独立实现一个小型的自然语言处理项目。

设物色一个当的底自然语言处理相关的开源项目。这个项目可以是同和谐办事不无关系的,也可以是好感兴趣之。项目并非太要命,以小型的算法模块为优质,这样好独立实现。像文本领域的文本分类、分词等种类就是比适宜的档次。
运行程序得到项目所声明的结果。然后看明白程序,这期间一般需阅读程序实现所参考的文献。最后,自己尝尝独立实现该算法,得到同示范程序一样之结果。再进一步的,可以调剂参数,了解各参数对功能的震慑,看是否能够博得性更好的参数组合。

即时同样等重点是上学高效达标亲手一个类,从而对自然语言处理的门类产生比感性的认——大体了解自然语言处理算法的规律、实现流程等。

当我们对自然语言处理项目有矣迟早的认识以后,接下就如深入上。任何自然语言处理应用还富含算法和所假设化解的题目两上面,要想深入上就是待从当下半方拓展着手。

仲、对问题进行深入认识

本着题目的尖锐认识通常来自两单方面,一是读时世界的文献,尤其是综述性的文献,理解时世界所面临的重中之重问题、已部分解决方案有什么样、有待解决之问题来怎么样。这里值得一提的是,博士生论文的有关文献介绍一些常见会针对以问题举行比详细的牵线,也是较好的汇总类材料。

除去由文献中得到对题目之认外,另一样种对题目开展深入认识的直观方法就是是针对算法得出的结果进行bad
case分析,总结提炼出片共性的题目。对bad
case进行剖析还有一个便宜,可以扶持我们询问怎么问题是要问题,哪些问题是副问题,从而得以拉我们建立问题先级。如果产生具体任务的实在数据,一定要是以实数据上拓展测试。这是因,即使是均等的算法,在不同之数据集上,所取得的结果吗或去大十分。

老三、对算法进行深入了解

除了现实的题材浅析,对算法的喻是习人工智能必须使了的牵连。经过这么长年累月之上进,机器上、模式识别的算法都差不多设牛毛。幸运的凡,这面曾经闹众多好之书可供参考。这里推荐华为李航的蓝宝书《统计上方式》和周志华的西瓜书《机器上》,这半按还是境内顶级的机械上专家做的书本,思路清楚,行文流畅,样例丰富。

设觉得教科书稍感乏味,那自己推荐吴军的《数学之美》,这是一致遵循可门级的科普读物,作者为生动有趣的方,深入浅出的讲解了过多人造智能领域的算法,相信您肯定会有趣味。

海外的图书《Pattern Recognition and Machine
Learning》主要从概率的角度说明机器上的各种算法,也是不足多得的入门教材。如果要是询问最新的深浅上的有关算法,可以阅读让称之为深度上三架马车之一Bengio所展示的《Deep
Learning》。
在攻读读本时,对于以工程师来说,重要的凡了解算法的规律,从而控制什么数据情况下入哪些的数额,以及参数的义是啊。

季、深入到世界前沿

自然语言处理领域直接处在高速的迈入变迁中,不管是综述类文章要书,都不克体现当前世界的流行进展。如果假定更加的了解世界前沿,那就得关爱国际一流会议达成之行论文了。下面是各个领域的一部分甲级会议。这里值得一提的凡,和另外人工智能领域接近,自然语言处理领域最好重点的学术交流方式就是会论文,这和任何世界以数学、化学、物理等民俗领域都未极端一致,这些领域通常还坐期刊论文作为最要紧的交流方式。
但是期刊论文审稿周期太丰富,好的杂志,通常都要两三年的日才会载,这统统满足不了日新月异的人为智能领域的开拓进取需要,因此,大家都见面支持被以审稿周期更缺乏的会达成快发表自己的舆论。
这里列举了国际和国内文本领域的部分会,以及官网,大家可自动查看。

国际及的文件领域会:

ACL:http://acl2017.org/
加拿大温哥华 7.30-8.4

EMNLP:http://emnlp2017.net/
丹麦哥本哈根 9.7-9.11

COLING:没找到2017年的

境内会议:

CCKS http://www.ccks2017.com/index.php/att/
成都 8月26-8月29

SMP http://www.cips-smp.org/smp2017/
北京 9.14-9.17

CCL http://www.cips-cl.org:8080/CCL2017/home.html
南京 10.13-10.15

NLPCC http://tcci.ccf.org.cn/conference/2017/
大连 11.8-11.12

NCMMSC http://www.ncmmsc2017.org/index.html
连云港 11.11 - 11.13

像paperweekly,机器上研究会,深度上大讲堂等微信公众号,也时时会面追究一些自然语言处理的新颖论文,是是的国语资料。

五、当然,工欲善其事,必先利其器。我们只要抓好自然语言处理的品类,还索要熟练掌握至少一派器。目前,深度上有关的家伙就较多了,比如:tensorflow、mxnet、caffe、theano、cntk等。这里向大家推荐tensorflow,自从google推出后,tensorflow几乎成为最好风靡的吃水上工具。究其原因,除了google的卖力宣扬外,tensorflow秉承了google开源项目的定位风格,社区力量于外向,目前github上发生相当多数量的因tensorflow为器的色,这对于开发者来说是相当可怜的资源。

以上就是是于尚未自然语言处理项目阅的人数来说,如何学习自然语言处理的部分经验,希望对大家能享有助。

 

是这般,我发生上过北大 清华 南大 复旦
华科和厦大的中文系官网,但不过发生清华、华科和厦大明确地游说有计算语言学专业,其他几所学的官网还没有显著地说好生此正式(有应用语言学,但未晓其的运用语言学来没有发计算语言学方向),所以这边吧甚迷茫……

 

看Coursera相关的教程,或参考:Manning and Shcutze, Foundations of
Statistical Natural Language Processing

 

 

 

作者:祁鑫
链接:https://www.zhihu.com/question/19895141/answer/35482496
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

不请自来,语言学背景,研二。废话不说,直接上货。
书籍篇:
入门书籍挺多的,我吧看罢许多。
1)《数学的美》(吴军)
当时是本身看之率先准关于NLP的书。现在第二版下了,貌似新增了片回内容,还尚未看了。第一版写的要命好,科普性质。看了对于nlp的浩大技能原理都起矣几许上马识。现在空还见面翻翻的。
2)《自然语言处理简明教程》(冯志伟)
冯志伟先生随即本开,偏向于言语学,书略重。关于语言学的事物多。都是雅爱懂的东西。建议未尝学过理工科们翻译一翻,毕竟nlp这东西未来势头或会见融合不少言语学的物。
3)《自然语言处理综论》(Daniel Jurafsky)
及时本开为是冯志伟先生翻译的,翻译的挺棒,看了差不多一半。综论性质的,选感兴趣之章翻翻就执行。作者是Daniel
Jurafsky,在coursera上面有异的学科,后面视频篇里集中讲。
4)《自然语言处理的款式模型》(冯志伟)
当下本开要冯志伟先生写的。很敬佩冯志伟先生,文理兼修,而且还挺厉害。内容很多凡是自他先的编中选的。算是一据各种语言模型与统计模型的慌集合吧。放在桌面,没事翻翻也会是极致好之。
5)《统计自然语言处理(第2版本)》(宗成庆)
当即按照开本身觉着写的不利。虽然我是语言学背景,但读起来也从未最讨厌。它为是综论性质的,可以跨着看。
6)《统计上方法》(李航)
自然语言处理需要把机器上之知识。我数学基础还是极脆弱,有的内容还是发生头吃力和困惑的。
7)《机器上实战》哈林顿 (Peter
Harrington)

《Python自然语言处理》
《集体智慧编程》
这些开都是python相关的。中间那本就是以NLTK的。网上还发出电子版,需要之时段翻一番押同样圈便推行。

视频篇:

@吴俣

方提到的,斯坦福的nlp课程Video
Listing,哥伦比亚大学的https://class.coursera.org/nlangp-001,两个还是英文的,无中文字幕,现在还好下载视频及课件。
此外超星学术视频:
1)自然语言理解_宗成庆
自己看言的要么不错的,第一糟糕任的时有些晕乎。该课程网上发出ppt讲义。讲义后来吃作者写成了书,就是点提到的《统计自然语言处理》。拿在书写便是教材,还有课程ppt和视频可以关押,这种感觉还是很好的。
2)自然语言处理_关毅
发讲的一般,听了几乎节省,跳跃太多,有时候为人摸不着头脑。多听取还是深有裨益的吧。
3)测算语言学概论_侯敏
是就是是语言学内容为主了,作者吧是语言学背景下以nlp比较外向的。讲的要命肤浅。老师上课非常啰嗦,说话最为慢,我还是加速看之。
4)测算语言学_冯志伟
冯志伟先生是课,一如他的编写,语言学与统计还见面干到片。冯志伟先生称有些地方放不大清,要是有字幕就吓了。
5)语法分析_陆俭明
当即是纯语言学的教程。陆剑明也是现代语言学的大师傅。我觉得既是自然语言处理,语言学的事物,还是略微而询问的。

 

其他篇:
1)博客的话,本身容易自然语言处理特别记录nlp的,很是,再闹就是csdn上片比零碎的了。
2)北京大学中文系
应用语言法专业是刚刚起之当儿也扣了羁押,又多干货。
3)《中文信息学报》说这,不会见叫大神喷吧。英语不精彩,英文文献实在看的不见。这个学报,也是挑花着看就算实行。

恍如就是这些内容了。如果产生,日后再次续。

虽然好写了这么多,但不少修跟视频都并未整的拘留罢。现在水平仍格外菜,仍当进阶的途中。希望各路大神多多点,该拍砖就冲击吧。

 

 

 

作者:吴俣
链接:https://www.zhihu.com/question/19895141/answer/20084186
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

推荐《数学的美》,这个开得专程大且生动形象,我深信不疑您切莫会见当没意思。这个自己极力推荐,我相信科研的着实原因是以兴趣,而未是坐便宜的有些事物。

紧接下去说,《统计自然语言处理基础》这仍开,这题实在是极致老了,但是呢杀经典,看无扣随意了。

本自然语言处理都设依赖统计学知识,所以我老百般引进《统计上方式》,李航的。李航先生因此好课余时间7年形容的,而且出博士生Review的。自然语言处理和机具上不同,机器上依靠的又多是小心的数学知识以及推倒,去创造一个而一个机上算法。而自然语言处理是管那些机器上大牛们创造出来的物当Tool使用。所以入门也不过是得阅读而已,把每个模型原理看,不肯定仔细到推倒。

宗成庆先生
的统计自然语言处理第二本特别好~《中文信息处理丛书:统计自然语言处理(第2本子)》
蓝色皮的~~~
下一场就是是Stanford公开课了,Stanford公开课要求自然之英语水平。|
Coursera
我觉着言的较大量之中原师好~
举例:
http://www.ark.cs.cmu.edu/LS2/in…
或者
http://www.stanford.edu/class/cs…

万一开工程前先找找出无来一度办好的工具,不要自己开来。做学术前为只要优质的Survey!

初步引进工具确保:
汉语的斐然是哈工大开源之不得了工具包 LTP (Language Technology Platform)
developed by
HIT-SCIR(哈尔滨工业大学社会计算和信息寻找研究中心).

英文的(python):

  • pattern –
    simpler to get started than NLTK
  • chardet –
    character encoding detection
  • pyenchant –
    easy access to dictionaries
  • scikit-learn –
    has support for text classification
  • unidecode –
    because ascii is much easier to deal with

希得以控制以下的几乎只tool:
CRF++
GIZA
Word2Vec

尚记小时候羁押了的数码宝贝,每个萌萌哒的数码宝贝都见面盖主人随身起的有些作业若得发展能力,其实际自然语言处理领域我当一切为是如此~
我大概的按好的见识总结了每个阶段的特色,以及提高的解决方案

1.幼年体——自然语言处理好屌,我啊还无见面只是好怀念提高

建议。。。去押明白课~去开Kaggle的要命情感分析题。

2.成长远——觉得简单模型太Naive,高大上的才是极度好之

本条等级需要团结动手实现有尖端算法,或者说常用算法,比如LDA,比如SVM,比如逻辑斯蒂回归。并且拥抱Kaggle,知道trick在是小圈子的重中之重。

3.成熟期——高大上的且无work,通过特色工程加规则才work

大多数人相应还在是级别吧,包括自己好,我一连惦记更上一层楼,但累积还是不够。觉得高大上之模子都是有的人以paper写的,真正的单方法才是重剑无锋,大巧不工。在此阶段,应该就是不断读论文,不断看各种模型变种吧,什么词相似度计算word2vec
cosine既不复适合你了。

4.结束全部——在公开数据集上,把有高大上的型做work了~

这好像应该只有个别博士可以做到吧,我曾经休理解到了此水平更怎么提高了~是不是只能说勿忘记初心,方得始终。

5.究极体——参见Micheal Jordan Andrew Ng.

十全十美锻炼身体,保持更老的究极体形态

要得以领略自然语言处理的主导架构~:分词=>词性标注=>Parser

Quora上引进的NLP的论文(摘自Quora 我了一阵见面翻括号中的分解):
Parsing(句法结构分析~语言学知识多,会较干燥)

  • Klein & Manning: “Accurate Unlexicalized Parsing” ( )
  • Klein & Manning: “Corpus-Based Induction of Syntactic Structure:
    Models of Dependency and Constituency”
    (革命性的用非监督上的计做了parser)
  • Nivre “Deterministic Dependency Parsing of English Text” (shows that
    deterministic parsing actually works quite well)
  • McDonald et al. “Non-Projective Dependency Parsing using
    Spanning-Tree Algorithms” (the other main method of dependency
    parsing, MST parsing)

Machine
Translation(机器翻译,如果无开机械翻译就可超越了了,不过翻译模型在其余世界也有以)

  • Knight “A statistical MT tutorial workbook” (easy to understand, use
    instead of the original Brown paper)
  • Och “The Alignment-Template Approach to Statistical Machine
    Translation” (foundations of phrase based systems)
  • Wu “Inversion Transduction Grammars and the Bilingual Parsing of
    Parallel Corpora” (arguably the first realistic method for
    biparsing, which is used in many systems)
  • Chiang “Hierarchical Phrase-Based Translation” (significantly
    improves accuracy by allowing for gappy phrases)

Language Modeling (语言模型)

  • Goodman “A bit of progress in language modeling” (describes just
    about everything related to n-gram language models
    这是一个survey,这个survey写了几乎拥有和n-gram有关的东西,包括平滑
    聚类)
  • Teh “A Bayesian interpretation of Interpolated Kneser-Ney” (shows
    how to get state-of-the art accuracy in a Bayesian framework,
    opening the path for other applications)

Machine Learning for NLP

  • Sutton & McCallum “An introduction to conditional random fields for
    relational learning”
    (CRF实在是于NLP中极好用了!!!!!而且我们大家都懂得有好多成的tool实现者,而这就是是一个异常简单的论文讲述CRF的,不过实在还是蛮数学=
    =。。。)
  • Knight “Bayesian Inference with Tears” (explains the general idea of
    bayesian techniques quite well)
  • Berg-Kirkpatrick et al. “Painless Unsupervised Learning with
    Features” (this is from this year and thus a bit of a gamble, but
    this has the potential to bring the power of discriminative methods
    to unsupervised learning)

Information Extraction

  • Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora.
    COLING 1992. (The very first paper for all the bootstrapping methods
    for NLP. It is a hypothetical work in a sense that it doesn’t give
    experimental results, but it influenced it’s followers a lot.)
  • Collins and Singer. Unsupervised Models for Named Entity
    Classification. EMNLP 1999. (It applies several variants of
    co-training like IE methods to NER task and gives the motivation why
    they did so. Students can learn the logic from this work for writing
    a good research paper in NLP.)

Computational Semantics

  • Gildea and Jurafsky. Automatic Labeling of Semantic Roles.
    Computational Linguistics 2002. (It opened up the trends in NLP for
    semantic role labeling, followed by several CoNLL shared tasks
    dedicated for SRL. It shows how linguistics and engineering can
    collaborate with each other. It has a shorter version in ACL 2000.)
  • Pantel and Lin. Discovering Word Senses from Text. KDD 2002.
    (Supervised WSD has been explored a lot in the early 00’s thanks to
    the senseval workshop, but a few system actually benefits from WSD
    because manually crafted sense mappings are hard to obtain. These
    days we see a lot of evidence that unsupervised clustering improves
    NLP tasks such as NER, parsing, SRL, etc,

实则我深信不疑,大家再次感兴趣的凡上层之一部分运~而非是什么贯彻分词,如何落实命名实体识别等等。而且应当大家再次指向信息搜索感兴趣。不过自然语言处理和信息寻找还是有所区别的,So~~~我便非以这边写啊

 

 

还要盼同一篇NLP觉得有必不可少现在说一样游说,,以后被上关于的NLP都见面说一样游说(1)。。
NLP的上曲线与拓展似乎你说的这些用多长时间才会达成我们要求,,不是本身顾刚面世的小度,,小冰那种智力水平(也许隐藏了技术成果)。。为什么没有突破性进展,,方法的题材??方向的题目??人的题材??这些我死去活来少之能看此层面的稿子(印象中尚无)。。按照卿的攻道只不过是指向先辈之长以及更正,现在主流是统计的NLP。。大多数总人口犹当攻读。。我看了瞬间统计的道,,了解约(毕竟我只是业余爱好者),,被动统计的结果,,只要语言的变迁,,统计就要跟着变动,,到了极点还是多少题目无法解决。。我之所以图论中之一个概念复杂度分析来拘禁一下你们的频率,,n-gram算法的复杂度是聊,,我还惦记不下来,,现在人工智能火起了,,那些世界级的大咖出了些什么成果,,我无晓,,我未思了解,,因为自身从来也无掌握。。我干吗如此说,,我服知有限,,闲着没事从NP问题面临领悟到连由网的饱受搜索与本人一样或近似的道,,目前尚尚未,,也许是屌丝想法,,这个不根本,因为微微图论的题目即自从没觉察于自己的算法要好的(仅有的自信),,从复杂度分析角度来拘禁即NLP在一个界里打转儿,,我吗绝非还好办法的解决NLP,,脑子里独自是看统计办法的受制。。方法更简单越好,,统计方式其实就没办法,,就是一个个之失统计,,我于NP中发现及就加一个概括数据结构,,效率陡然提升,,当然仁者见仁智者见智,,每个人的坏境不同,,至少能够观看人工智能的生气起来,参与的人大多啦,三个臭皮匠顶个聪明人,,希望统计出新的展开,,更愿意其余方式来新的突破。。

 

 

 

 

 

作者:刘知远
链接:https://www.zhihu.com/question/19895141/answer/24710071
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

都写过千篇一律篇小温情,乍家如何查阅自然语言处理(NLP)领域学术材料_zibuyu_新浪博客,也许可以供应你参考。

昨实验室一员正进组的校友发邮件来提问我何以寻找学术论文,这被自己回忆自己刚刚读研究生时茫然四顾的事态:看正在学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的熏染,现在总算能自信地领略失去哪里了解时科研动态了。我怀念立即或者是新大家等共通的迷惑,与那个单独告诉一个人口理解,不如用这些Folk
Knowledge写下来,来减少重复多人的分神吧。当然,这个总不过是一模一样下的道,只盼望有人会从中得到一点点益处,受个人体会所限,难免挂同一漏万,还于大家海涵指正。

  1. 国际学术组织、学术会议与学术论文

自然语言处理(natural language
processing,NLP)在异常特别程度达到与计量语言学(computational
linguistics,CL)重合。与其他电脑课类,NLP/CL有一个属自己之极致高贵的国际标准学会,叫做The
Association for Computational Linguistics(ACL,URL:ACL Home
Page),这个协会主办了NLP/CL领域最为权威的国际会议,即ACL年会,ACL学会还会于北美暨欧洲开分年会,分别名叫NAACL和EACL。除此之外,ACL学会下设多只非常兴趣小组(special
interest
groups,SIGs),聚集了NLP/CL不同子领域的大家,性质类似一个大学校园的兴趣社团。其中较有名的诸如SIGDAT(Linguistic
data and corpus-based approaches to NLP)、SIGNLL(Natural Language
Learning)等。这些SIGs也会见举行一些国际学术会议,其中于显赫的即使是SIGDAT组织的EMNLP(Conference
on Empirical Methods on Natural Language
Processing)和SIGNLL组织的CoNLL(Conference on Natural Language
Learning)。此外还有一个International Committee on Computational
Linguistics的大名鼎鼎NLP/CL学术组织,它每半年集团一个称International
Conference on Computational Linguistics
(COLING)的国际会,也是NLP/CL的严重性学术会议。NLP/CL的严重性学术论文就分布于这些会达到。

当NLP/CL领域的专家最特别之福在,ACL学会网站建立了称作ACL
Anthology的页面(URL:ACL
Anthology),支持该领域绝大部分国际学术会议论文的免费下载,甚至饱含了另外组织主持的学术会议,例如COLING、IJCNLP等,并支持因Google的全文检索功能,可谓一站于亲手,NLP论文我出。由于是论文集合好大,并且可以开得,很多家也冲它进行研究,提供了更丰富的追寻支持,具体入口可以参考ACL
Anthology页面上方搜索框右侧的不等检索按钮。

以及大部分电脑课类,由于技术发展快速,NLP/CL领域再尊重发表学术会议论文,原因是上周期短,并可通过议会进行交流。当然NLP/CL也闹协调之旗舰学术期刊,发表了很多经学术论文,那便是Computational
Linguistics(URL:MIT Press
Journals)。该杂志每期只有出几篇稿子,平均质量大于会议论文,时间允许的言辞值得及时追踪。此外,ACL学会为增进学术影响力,也刚刚创办了Transactions
of ACL(TACL,URL:Transactions of the Association for Computational
Linguistics (ISSN:
2307-387X)),值得关注。值得一提的是即刻简单份杂志也还是放得的。此外也起有以及NLP/CL有关的刊物,如ACM
Transactions on Speech and Language Processing,ACM Transactions on
Asian Language Information Processing,Journal of Quantitative
Linguistics等等。

根据Google Scholar Metrics
2013年针对NLP/CL学术期刊和集会的褒贬,ACL、EMNLP、NAACL、COLING、LREC、Computational
Linguistics位于前5各,基本体现了以领域学者的关切程度。

NLP/CL作为交叉学科,其有关领域呢值得关注。主要包括以下几独面:(1)信息搜索和数量挖掘领域。相关学术会议主要由美国计算机学会(ACM)主办,包括SIGIR、WWW、WSDM等;(2)人工智能领域。相关学术会议主要概括AAAI和IJCAI等,相关学术期刊主要包括Artificial
Intelligence和Journal of AI
Research;(3)机器上世界,相关学术会议主要不外乎ICML,NIPS,AISTATS,UAI等,相关学术期刊主要概括Journal
of Machine Learning Research(JMLR)和Machine
Learning(ML)等。例如最近四起的knowledge
graph研究论文,就产生一定有登载于人工智能和信搜索领域的议会与杂志上。实际上国内计算机学会(CCF)制定了“中国计算机学会引进国际学术会议和期刊目录”(CCF推荐排名),通过是列表,可以高速了解每个领域的重大期刊和学术会议。

说到底,值得一提的凡,美国Hal Daumé III维护了一个natural language
processing的博客(natural language processing
blog),经常评论时学术动态,值得关注。我每每看他有关ACL、NAACL等学术会议的参会感想和指向舆论的点评,很有启发。另外,ACL学会保护了一个Wiki页面(ACL
Wiki),包含了大气NLP/CL的系信息,如著名研究单位、历届会议录用率,等等,都是家必备的良品,值得充分挖潜。

  1. 国内学术组织、学术会议与学术论文

以及国际及相似,国内也时有发生一个同NLP/CL相关的学会,叫做中国中文信息学会(URL:中国中文信息学会)。通过学会的理事名单(中国中文信息学会)基本得以了解国内从事NLP/CL的根本单位同大家。学会每年组织众多学术会议,例如全国计算语言学学术会议(CCL)、全国青年计算语言学研讨会(YCCL)、全国信息搜索学术会议(CCIR)、全国机械翻译研讨会(CWMT),等等,是境内NLP/CL学者进行学术交流的显要平台。尤其值得一提的凡,全国青年计算语言学研讨会是专程面向国内NLP/CL研究生的学术会议,从集体及审稿都出于该领域研究生担任,非常有风味,也是NLP/CL同学等学术交流、快速成长之好去处。值得一提的是,2010年以都做的COLING以及2015年且以北京市召开的ACL,学会都是重要承办者,这为决然水准达到体现了学会以境内NLP/CL领域的主要地位。此外,计算机学会中文信息技术专委会组织的自然语言处理与中文计算会议(NLP&CC)也是近期突出的机要学术会议。中文信息学会主编了一样份历史悠久的《中文信息学报》,是国内该领域的要学术期刊,发表了不少首重量级论文。此外,国内著名的《计算机学报》、《软件学报》等刊物上吗经常发生NLP/CL论文发表,值得关注。

千古几乎年,在水木社区BBS上立的AI、NLP版面已是境内NLP/CL领域在线交流讨论的要平台。这几乎年就社会媒体之发展,越来越多大家转战新浪微博,有厚的交流氛围。如何找到这些学者也,一个大概的法就是是于初浪微博寻找的“找人”功能受到找找“自然语言处理”、
“计算语言学”、“信息寻找”、“机器上”等字样,马上便会和过去才以舆论被看出名字的民办教师同学等近乎距离交流了。还有一样种方式,清华大学梁斌开发的“微博寻人”系统(清华大学消息检索组)可以寻找每个领域的产生影响力人物,因此也足以为此来寻觅NLP/CL领域的基本点学者。值得一提的是,很多每当海外任教的教工和学习之同校也活跃在新浪微博上,例如王威廉(Sina
Visitor
System)、李沐(Sina
Visitor
System)等,经常爆料业内消息,值得关注。还有,国内NLP/CL的有名博客是52nlp(自身爱自然语言处理),影响力比较大。总之,学术研究既用苦练内功,也要以及人口交流。所谓言者无意、听者有心,也许其他人的一致词话虽可知接触醒来你苦思良久的题目。无疑,博客微博等提供了特别好之交流平台,当然也留意不要沉迷哦。

  1. 如何高效了解有圈子研究进展

最终简短说一下快速了解某领域研究进展的更。你会意识,搜索引擎是查看文献的关键工具,尤其是谷歌提供的Google
Scholar,由于那个宏大之索引量,将凡咱大胆的利器。

当用了解某世界,如果会找到同样首该领域的新颖研究综述,就省劲多了。最有利于之方法还是在Google
Scholar中搜索“领域名称 + survey / review / tutorial /
综述”来找。也闹部分出版社专门出版各领域的归纳文章,例如NOW
Publisher出版的Foundations and Trends系列,Morgan & Claypool
Publisher出版的Synthesis Lectures on Human Language
Technologies系列等。它们发表了多热门方向的概括,如文档摘要、情感分析及看法挖掘、学习排序、语言模型等。

如若方向最好新还未曾相关综述,一般还好搜寻该方向上的新星论文,阅读它们的“相关工作”章节,顺着列有之参考文献,就着力会了解有关研究系统了。当然,还有很多其他方式,例如去http://videolectures.net高达看红专家在列大学术会议或暑期学校达到召开的tutorial报告,去一直咨询者小圈子的研究者,等等。

 

 

 

 

 

 

 

 

 

笔者:微软亚洲研究院
链接:https://www.zhihu.com/question/19895141/answer/149475410
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

针对此题目,我们特邀了微软亚洲研究院首席研究员周明博士否大家解答。

766net必赢亚洲手机版 10

周明博士被2016年12月入选为中外计算语言学和自然语言处理研究领域最好富有影响力的学术团队——计算语言学协会(ACL,
Association for Computational
Linguistics)的初一及候任主席。此外,他还是炎黄电脑学会中文信息技术专委会领导、中国中文信息学会常务理事、哈工大、天津大学、南开大学、山东大学相当大多所学博士导师。他1985年毕业于重庆大学,1991年取哈工大博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999走访日本高电社公司牵头被日机器翻译研究。他是中华率先独受花翻译系统、日本太显赫的饱受日机器翻译产品J-北京底发明人。1999年在微软研究院并继负责自然语言研究组,主持研制了微软失败入法、对联、英库词典、中花翻译等享誉系统。近年来与微软产品组合作开发了小冰(中国)、Rinna(日本)等聊天机器人系统。他发表了100余首重要会议与期刊论文。拥有国际发明专利40余件。

————这里是规范回应的分割线————

自然语言处理(简称NLP),是钻计算机处理人类语言的同样门技术,包括:

1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别与链接、句法分析、语义角色识别及多义词消歧。

2.信息抽取:从给定文本中抽取重要之音讯,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是如果询问谁当啊时、什么来头、对孰、做了啊事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。

3.文件挖掘(或者文本数据挖掘):包括文件聚类、分类、信息抽取、摘要、情感分析和针对性发掘的信息与学识的可视化、交互式的表述界面。目前主流的艺还是根据统计机器上之。

4.机械翻译:把输入的源语言文本通过自动翻译得另外一种语言的公文。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译由太早的基于规则之不二法门及二十年前之根据统计的法子,再届今底因神经网络(编码-解码)的主意,逐渐形成了同一效仿比较谨慎的法体系。

5.消息寻找:对周边的文档进行索引。可粗略对文档中之词汇,赋之缘不同之权重来建目录,也只是应用1,2,3底技能来建立更加深层的目。在询问的下,对输入的询问表达式比如一个检索词或者一个词进行解析,然后以目里面找匹配的候选文档,再依据一个排序机制把候选文档排序,最后输出排序得分最高的文档。

6.问答系统
对一个自然语言表达的题材,由问答系统给有一个精准的答案。需要针对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后至知识库中搜索可能的候选答案并由此一个排序机制找有最佳的答案。

7.对话系统:系统经过一样层层的对话,跟用户进行拉、回答、完成有平等码任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等于技能。此外,为了体现上下文相关,要所有多轮对话能力。同时,为了体现个性化,要开销用户画像和根据用户画像的个性化回复。

趁着深度上在图像识别、语音识别领域的大放异彩,人们对纵深上在NLP的值吗寄予厚望。再加上AlphaGo的中标,人工智能的钻研与下变得炙手可热。自然语言处理作为人工智能领域的体味智能,成为时大家关心的枢纽。很多研究生还当进自然语言领域,寄望未来在人工智能方向大展身手。但是,大家常遇到有些题材。俗话说,万事开头难。如果第一宗工作成功了,学生即便能起信心,找到窍门,今后更为开越好。否则,也恐怕就是泄气,甚至相差这个领域。这里对为起己个人的建议,希望我的这些粗浅观点可知唤起大家更充分层次之讨论。

建议1:如何当NLP领域快速学会第一个技巧?

自之提议是:找到一个开源项目,比如机械翻译或深上的型。理解开源项目之职责,编译通过该型揭示之以身作则程序,得到同项目示范程序一样的结果。然后还深刻了解开源项目示范程序的算法。自己编程实现转以此示范程序的算法。再遵照项目提供的标准测试集测试好实现之次。如果出口的结果及品种遭到起的结果不一样,就要仔细检视自己的程序,反复修改,直到结果及示范程序基本一致。如果还是不行,就挺身吃项目的作者来信请教。在此基础及,再省好是否更进一步完善算法或者实现,取得比较示范程序还好之结果。

提议2:如何选第一单好题材?

工程型研究生,选题很多还是教员给定的。需要以比较实用的章程,扎扎实实地着手实现。可能无需多少理论创新,但是急需比强之落实力量和汇总创新能力。而学术型研究生需要得到一流的研究成果,因此选题需要出得的换代。我此给起如下的几乎沾建议。

  • 事先找到好爱的钻研世界。你找到同样按最近之ACL会议论文集,
    从中找到一个而于好的圈子。在选题的时候,多留心选择蓝海底小圈子。这是以蓝海的领域,相对比较新,容易出成果。
  • 尽管调研之小圈子时之开拓进取景象。包括如下几只地方的调研:方法方面,是否发一样仿照于清晰的数学体系和机械上体系;数据方面,有无产生一个豪门公认的正式训练集和测试集;研究组织,是否发著名团队及人士列席。如果上述几乎单方面的调研结论未是太清晰,作为初学者可能并非任意进入。
  • 当确认进入一个世界后,按照建议同样所陈述,需要找到本领域的开源项目或工具,仔细研究一合现有的严重性派系和方式,先入门。
  • 再三读本领域时发表的篇章,多阅读本领域牛人发表之稿子。在深刻摸底就起工作之底蕴及,探讨还有没发生部分地方得推翻、改进、综合、迁移。注意做试验的上,不要贪多,每次试验才待征一个想方设法。每次试验以后,必须使开展辨析在的左,找有由。
  • 对成功之试验,进一步探索如何改进算法。注意实验数据要是业界公认的多少。
  • 跟曾有的算法进行比,体会能够得出比较一般的下结论。如果生,则去描绘一篇文章,否则,应该换一个初的选题。

建议3:如何勾勒有第一篇论文?

  • 对接上一个题目,如果想法是,且受试所证明,就只是起勾画第一篇论文了。
  • 规定论文的问题。在定题目的时候,一般不要“…系统”、“…研究暨履行”,要避免太长的题材,因为糟糕体现中心思想。题目要实际,有深,突出算法。
  • 形容论文摘要。要突出本文针对什么要问题,提出了啊艺术,跟已出工作相比,具有什么优势。实验结果表明,达到了什么水平,解决了啊问题。
  • 形容引言。首先讲话来以项工作之背景,这个问题的概念,它有什么要。然后介绍对之问题,现有的方法是什么,有啊长。但是(注意但是)现有的办法仍然有为数不少通病或者挑战。比如(注意仍),有啊问题。本文针对此题目,受呀法(谁的行事)之诱,提出了啊新的计并开了之类几单方面的研究。然后对每个上面分门别类加以叙述,最后证实实验的结论。再说本文有几乎漫长贡献,一般写三漫漫足矣。然后说说章的章组织,以及本文的基本点。有的上东西顶多,篇幅有限,只能介绍最重大之片段,不需要面面俱到。
  • 连带工作。对相关工作举行一个梳理,按照流派划分,对重要的极其多三个门户做一个简练介绍。介绍该原理,然后说明该局限性。
  • 接下来可举办两独章节介绍自己之工作。第一单章是算法描述。包括问题定义,数学符号,算法描述。文章的根本公式基本还于此。有时候要给出明显的演绎过程。如果借鉴了人家的辩论与算法,要叫来清的引文信息。在是基础及,由于一般是依据机器上或深上的办法,要介绍你的范训练方法和解码方法。第二回就是实验环节。一般如果让闹实验的目的,要查看什么,实验的道,数据由哪来,多异常范围。最好数据是因此公开评测数据,便于别人再次而的行事。然后针对每个实验被起所用的技术参数,并告知实验结果。同时以跟已经出工作较,需要引用已发工作的结果,必要之时节需要重现重要的劳作并告结果。用试验数据说话,说明您比较家的计要好。要本着实验结果可以分析你的劳作同旁人的干活之不比和个别利弊,并说明该因。对于目前还不绝好之地方,要分析问题的四海,并将该列为未来的工作。
  • 敲定。对本文的献再同浅总结。既而从理论、方法齐加以总结及提纯,也只要证明在试验上之奉献与结论。所做的下结论,要吃读者感到信服,同时指出未来之钻研方向。
  • 参考文献。给有具有主要相关工作之舆论。记住,漏掉了平等篇重要之参考文献(或者牛人的行事),基本上就从未于录用的想望了。
  • 形容了第一草,然后就重新转移三整。
  • 拿稿子交给同一个类组的人士,请他俩自算法新颖度、创新性和试验规模与结论方面,以挑剔的看法,审核你的章。自己对薄弱环节,进一步改善,重点提高算法深度和做事创新性。
  • 然后要不同种类组的人物审阅。如果她们看不知底,说明文章的可读性不够。你得修改篇章结构、进行文字润色,增加文章可读性。
  • 设若投ACL等国际会,最好还请英文专业或母语人士提炼文字。

————这里是回完之分割线————

感大家的看。

本帐号啊微软亚洲研究院的合法知乎帐号。本帐号立足于计算机领域,特别是人为智能相关的前线研究,旨在为人造智能的连带研究提供范例,从业内的角度推动公众对人工智能的知,并也研究人员提供讨论以及涉企的开放平台,从而共建计算机领域的前景。

微软亚洲研究院的各国一样各项学者都是我们的智囊团,你以此帐号可以看到自计算机对领域各个不同倾向的大方等的视角。请大家不用吝惜手里的“邀请”,让咱们当分享着共同进步。

 

 

 

 

 

 

 

作者:瑾瑾DURARARA
链接:https://www.zhihu.com/question/24417961/answer/148743442
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

说说我学NLP的历程遭到扣的书写吧:
1.宗改成庆 《统计自然语言处理处理》
大周到,基本上涉及了自然语言处理的有着知识
766net必赢亚洲手机版 11

2.《Natural Language processing with Python》
死实用的工具书,叫您怎么用Python实际进行操作,上手处理公事或者语料库。
以下简单本书都是我在咱们学借的英文原版,如果搜索不至可错过抄中文译本~
766net必赢亚洲手机版 12

  1. 聊进阶一点之 Philipp Koehn 《Statistical Machine Translation》
    假若您对机器翻译感兴趣,可以延续羁押这本
    马上本开的中文版也是宗成庆先生翻译的,可以错过找寻找

766net必赢亚洲手机版 13

4.翻新两按部就班就几乎上恰好好当看的,《编程集体智慧》,应该为是可找到中文翻译版PDF的,主要围绕机器上就同天地来深化你的编程功底,每一个例子都有充分完整的代码,可以学及广大!766net必赢亚洲手机版 14

5.《Pattern Recognition and Machine Learning》
从没啥好介绍的,机器上藏书籍~但是生硬,晦涩,晦涩…入坑需严谨,我可能将从入门到放弃了…
766net必赢亚洲手机版 15

如果本身还有看呀开,我当会不期更新一下即时漫漫对吧,也当是受好开个记录~

大多就这些啦,如果看了这些本该力所能及胜利入门了,剩下的虽是温馨达成亲手去做!

 

 

 

 

笔者:匿名用户
链接:https://www.zhihu.com/question/24417961/answer/113638582
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

挥洒主 和 我 情况好像,应该吗是 “野生”
NLPer。我之做事主要是文件数据挖掘,和 NLP 相关性
很强。我平开始只关注一两只小点,后面自己逐渐系统地补足。我说一下友好之习路线吧。

我参考了少于本书 作为上的蓝图,并且重要章节(机器翻译与话音识别
没看)都信以为真看了一两所有。
(1) 统计自然语言处理(第2版)宗成庆 著
(2) 语音以及语言处理(英文版 第2版)Daniel Jurafsky, James H. Martin

马上半本书分别是 中文 和 英文 中 比较贵的书,
并且知识点全面。出版时也正如新。以即时半本为念主线 配合
其他的图书和论文作为 辅助。

此外 自然语言处理 与 机器学习
十分有关,我参考相关的几乎本书,主要推荐两按部就班:
(3) 机上 周志华 著
本书比较好掌握, 看完 前10段,颇有取。然而一开始看的是 范明 翻译的
机器学习导论,但较生硬,就未引进了。看到国人写来这么的好写,还是值得欣喜的。

(4) 统计上方式 李航 著
即仍开那个难啃的, 我随需看了一半,其中 CRF 这本提的于全。

配合性的另外书籍主要有:
(5) 计语言学(修订 版)刘颖 著
于偏语言学一些,数学理论比较少,相对简单一点, 看一样全勤 收益也起很多

(6) 自然语言处理简明教程 冯志伟 著
相对简单,稍微有些发啰嗦,不过感觉 HMM 这按照开说的极端容易亮。

(7) 自然语言处理的款型模型 冯志伟 著
马上本以及 (6) 比,增加多 深度 和
难度,建议以需要慢慢啃。我咋了几章,觉得异常有因此。

(8) 自然语言处理基本理论及方 陈鄞 编
哈工大出的书,纯粹吗 配合 超星视频 而购买。

(9) Java自然语言处理(影印版 英文版) Richard M Reese 著
如法炮制了总要实行吧,Java 还是 要比较 Python 靠谱。

(10) 本体方法及其应用 甘健侯 等 著
(11) 本体和词汇库(英文影印版)典居仁(Chu-Ren Huang)等 编
随即半本书对 信息抽取 有肯定帮助,不感兴趣的可稍过。

上述所有列有的书籍我还起纸介质 (能置办则购买, 买不至就是打印)

另外超星学术视频 (网络上得以找到资源):
(12)自然语言理解 宗成庆(中科院)
看了感到是配套 宗成庆书的初版

(13)自然语言处理 关毅(哈工大)
关押起还算大简单,和(8)几乎是配套的

(14) Stanford 的 NLP 课程(Youtube)
Dan Jurafsky & Chris Manning: Natural Language
Processing

(15) Michael Collins 的Coursera课程 和 主页
Michael Collins:Natural Language
Processing

 

 

 

 

作者:刘知远
链接:https://www.zhihu.com/question/24417961/answer/66872781
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

自然语言处理有一样学严整的理论体系,如果期望系统学得参照Stanford NLP
Group几员教授的老三依照读本,基本还产生中文翻译版本。以下按自心中的易懂程度排序:

Christopher D.
Manning,
Prabhakar
Raghavan,
and Hinrich
Schütze.
2008.Introduction to Information
Retrieval.
Cambridge University Press.

Christopher D.
Manning
and Hinrich
Schütze.

  1. Foundations of Statistical Natural Language
    Processing.
    Cambridge, MA: MIT Press.

Daniel
Jurafsky
and James H.
Martin.

  1. Speech and Language Processing: An Introduction to Natural
    Language Processing, Speech Recognition, and Computational
    Linguistics.
    2nd edition. Prentice-Hall.

 

 

 

 

国际计算语言学学会ACL Fellow的名单应当就是是参天的认可吧?历年ACL
Fellow的名册请参考官网ACL Fellows – ACL
Wiki

因人类语言也研究对象的“自然语言处理”(Natural Language
Processing:NLP)是人造智能最要的研究方向之一。在自然语言处理领域,ACL是世界上影响力最充分、也尽有生命力、最有大的国际学术组织,成立至今已有57年历史,会员遍布世界60大多单国家以及地方,代表了自然语言处理领域的世界最高档次。

2011年起来,ACL开始因为相同年平均4-5个之快评选会士,ACL
Fellow的头衔是本着NLP领域产生杰出贡献的食指高的承认。截至2016年ACL共评选产生40单会士,其中4各类是华人/华裔,分别是:

Dekai Wu(2011 ACL
Fellow)
,香港科技大学吴德凯教授,成就是“较早以中文分词方法用于英文词组的剪切,并且以英文词组和中文词在机翻译时对应起来”,已上学术论文百余首,论文引用量超6800不行;

766net必赢亚洲手机版 16

Hwee Tou Ng(2012 ACL
Fellow)
,新加坡国立大学黄伟道教授,自然语言处理和信搜索专家,精通于核心分辨率和语义处理和语义语料库的开支,ACL2005程序委员会召集人,已刊登学术论文百不必要篇,被引用超8200差;

766net必赢亚洲手机版 17

Dekang Lin(2013 ACL
Fellow):
林德康,前Google高级管理科学家(senior staff research
scientist),在在Google之前是加拿大Alberta大学计算机教学,发表了越90篇论文,被引用过14000不善,对自然语言解析及词汇语义做出重要贡献。林德康教授还再三做计算语言最高学术单位国际计算语言学学会ACL(Association
for Computational Linguistics)的领导职务, 包括:ACL
2002先后委员会并主席、ACL2011大会主席、ACL
2007负美分会实行委员等。2016年回国创办了平贱智能语音助手相关的号奇点机智;

766net必赢亚洲手机版 18

王海峰(2016年 ACL
Fellow)
:现任百度副总裁,AI技术平台体系(AIG)总领导,已发表学术论文百不必要篇,论文引用量超2800蹩脚。已授权或明之专利申请120余起。王海峰已作为企业管理者负责国家核高基重大专项、863重大项目,并在承受973、自然科学基金重点项目等。

766net必赢亚洲手机版 19

写主问的是境内的牛人,那就是林德康王海峰有数号教授啊~

闻讯两各教授所当铺子即且在招NLP方面的人才,有趣味之大神可以投简历至hr@naturali.io
暨 hr@baidu.com试一试试,祝大家好运~㊗️

 

 

 

 

 

 

机上、深度上及自然语言处理领域引进的图书列表

766net必赢亚洲手机版 20王下邀月指责

4 个月前

机上、深度上及自然语言处理领域引进的书列表 是笔者 Awesome
Reference 系列的相同有些;对于其余的材料、文章、视频教程、工具实施请参考面向程序猿的数额对与机具上知识系统暨资料合集。本文算是抛砖引玉,笔者日前闲暇便见面当
Pad 上面随手翻阅这些书,希望能了解其他良好的书本。

数学基础

  • 2010 – All of Statistics: A Concise Course in Statistical
    Inference【Book】:
    The goal of this book is to provide a broad background in
    probability and statistics for students in statistics, Computer
    science (especially data mining and machine learning), mathematics,
    and related disciplines.
  • 2008-统计学完全教程:由美国当代赫赫有名统计学家L·沃塞曼所著的《统计学元全教程》是平遵循几乎涵盖了统计学领域全方位知识之美教材。本书除了介绍传统数理统计学的全部内容以外,还包含了Bootstrap方法(自助法)、独立性推断、因果推断、图模型、非参数回归、正交函数光滑法、分类、统计学理论以及数挖掘等统计学领域的初点子以及技艺。本书不但推崇概率论与数理统计基本理论的阐述,同时还强调数据解析能力的培训。本书中蕴含大量之实例以帮扶广大读者快速控制使用R软件进行统计数据分析。

机器上

  • 2007 – Pattern Recognition And Machine
    Learning【Book】:
    The book is suitable for courses on machine learning, statistics,
    computer science, signal processing, computer vision, data mining,
    and bioinformatics.
  • 2012 – Machine Learning A Probabilistic Perspective
    【Book】:
    This textbook offers a comprehensive and self-contained introduction
    to the field of machine learning, a unified, probabilistic approach.
    The coverage combines breadth and depth, offering necessary
    background material on such topics as probability, optimization, and
    linear algebra as well as discussion of recent developments in the
    field, including conditional random fields, L1 regularization, and
    deep learning.
  • 2012 –
    李航:统计方法学:李航先生的及时仍开偏优化以及推翻,推倒相应算法的时光可参见这本书。
  • 2014 – DataScience From
    Scratch【Book】:
    In this book, you’ll learn how many of the most fundamental data
    science tools and algorithms work by implementing them from scratch.
  • 2015 – Python Data Science
    Handbook【Book】:Jupyter
    Notebooks for the Python Data Science Handbook
  • 2015 – Data Mining, The
    Textbook【Book】:
    This textbook explores the different aspects of data mining from the
    fundamentals to the complex data types and their applications,
    capturing the wide diversity of problem domains for data mining
    issues.
  • 2016 – 周志华
    机器上【Book】:周志华先生的即时本开非常适合作为机器上入门的书籍,书被的例证很影像都简单容易亮。
  • University of Illinois at Urbana-Champaign:Text Mining and
    Analytics【Course】
  • 大好机械上窍门【Course】
  • 斯坦福
    机器念课程【Course】
  • CS224d: Deep Learning for Natural Language
    Processing【Course】
  • Unsupervised Feature Learning and Deep
    Learning【Course】:来自斯坦福的不论是监控特征上及深上系列教程

深度上

  • 2015-The Deep Learning
    Textbook【Book】:中文译本这里,The
    Deep Learning textbook is a resource intended to help students and
    practitioners enter the field of machine learning in general and
    deep learning in particular. The online version of the book is now
    complete and will remain available online for free.
  • Stanford Deep Learning
    Tutorial【Book】:
    This tutorial will teach you the main ideas of Unsupervised Feature
    Learning and Deep Learning. By working through it, you will also get
    to implement several feature learning/deep learning algorithms, get
    to see them work for yourself, and learn how to apply/adapt these
    ideas to new problems.
  • Neural Networks and Deep
    Learning【Book】:
    Neural Networks and Deep Learning is a free online book. The book
    will teach you about: (1) Neural networks, a beautiful
    biologically-inspired programming paradigm which enables a computer
    to learn from observational data. (2) Deep learning, a powerful set
    of techniques for learning in neural networks
  • Practical Deep Learning For Coders
    【Course】:七到之免费深度上课程,学习怎样构建那些可以之模子。
  • Oxford Deep NLP 2017
    course【Course】:
    This is an advanced course on natural language processing.
    Automatically processing natural language inputs and producing
    language outputs is a key component of Artificial General
    Intelligence.

自然语言处理

  • 2016 – CS224d: Deep Learning for Natural Language
    Processing【Course】
  • 2017 – Oxford Deep NLP 2017
    course【Course】
  • 2015 – Text Data Management and
    Analysis【Book】:
    A Practical Introduction to Information Retrieval and Text Mining
  • DL4NLP-Deep Learning for NLP
    resources【Resource】

泛数据对

  • 2012 – 深入浅出数据解析
    中文版【Book】:深入浅出数据解析》以看似“章回小说”的活泼形式,生动地为读者展现良好的数目解析人员应知应会的艺:数据解析中心步骤、实验艺术、最优化措施、假设检验方法、贝叶斯统计办法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧;正文之后,意犹未老地以三首附录介绍数据解析十异常要务、R工具和ToolPak工具,在充分展现目标知识外,为读者搭建了走向深入研讨的桥梁。
  • Lean Analytics — by Croll & Yoskovitz:
    本书是让会你什么样立基本的坐商业思维去行使这些数据,虽然当时按照开我定位是面向初学者,不过自己道你可以从中学到再次多。你得于本书中模拟到同修基本准则、6只基础之丝及买卖形态及隐藏其后的数码策略。
  • Business value in the ocean of data — by Fajszi, Cser & Fehér:
    如果说Lean
    Analytics是有关面向初学者讲解商业逻辑加上数量,那么本书是面向大型公司来教学这些情节。听上去类似从来不啥异常的,不过数初创公司以及独角兽之间直面的问题是出入,本书中见面介绍譬如保险企业是哪开展定价预测还是银行从业者们同时当面临哪些的数据问题。
  • Naked Statistics — Charles Wheelan:
    这仍开本身直接挺是引进,因为其不只面向数据科学家,而是为任何一个行业的人数资基本的统计思维,这一点恰好是自个儿认为很关键的。这按照开并没尽多之长篇大论,而是因一个还要一个的故事形式来上课统计思维在企业运营着的首要作用。
  • Doing Data Science — Schutt and O’Neil:
    这算最后一比照无技术于的书写了咔嚓,这仍开相较受点三仍更上一层楼,他尖锐了像拟合模型、垃圾信息过滤、推荐系统等等方面的学问。
  • Data Science at the Command Line — Janssens:
    在介绍本书之前率先使强调下,千万不要惧怕编程,学习来简单的编程知识能够推向你做还多有意思的从。你可以好去取得、清洗、转化或者分析你的数据。不过自己吗不会见同样达成来就算废来大堆的编程知识,我提议或从简单的命令行操作起来学于,而本书正是介绍如何才所以命令执行就是帮你成功头数据对的职责。
  • Python for Data Analysis — McKinney:
    Python算是近几年来非常流行的多寡解析的言语了吧,人生苦短,请用Python。这本书算是独大部头了,有400多页吧,不过它首先为汝介绍了Python的功底语法,因此学起来不见面异常不方便吧。
  • I heart logs — Jay Kreps:
    最后一本书则是胆识过人,加起才60多页吧。不过它于数据搜集和处理的艺背景有老好之概述,虽然多分析家或者数额科学家并无会见直接用到这些文化,但是起码你能够知情技术人员等得以据此什么架构去解决数量问题。

 

 

 

 

 

率先非常乐意看到而有人跳NLP大坑了,欢迎欢迎!下面正经回答问题(貌似很少正经过对问题。。。):
本科大三,学过机上算法。假设你模仿过之算法都烂熟的话,你曾经产生矣是的根基了。那么问题解释为:1.哪入门NLP;2.哪开始举行NLP的研讨。这有限个自分别应对,但是若可以同时行动。
入门NLP。就如您自学机器学习一样,你无比好系统的拘留同样本书,或者达到等同宗公开课,来系统的梳理一合NLP的基本知识,了解NLP的主干问题。这里自己引进Michael
Collins的公开课:COMS W4705: Natural Language Processing (Spring
2015),以及Jason
Eisner的Lecture Notes:600.465 – Natural Language
Processing。如果学有余力的话,可以看一下参考书:https://web.stanford.edu/~jurafsky/slp3/。
时间有限的情景下,公开课和Notes就够用了。
系学知识的同时(或下),你可以起来着手复现一些经典的类别。这个历程格外重大:1.若可以巩固好的知识(确定你确实正确理解了);2.你可以进一步提高自己之科研与工程能力;3.而非常可能于贯彻之过场中发现题目,产生灵感,做出自己的做事(发一样首paper)。那么复现什么类型为?如果您的教工没有为您指定的话,不妨从历年NLP顶会(ACL,EMNLP,NAACL)的得奖论文被筛选你感兴趣而发生力量形成的。由于full
paper的工程量通常比充分,你可以先行由short paper中展开选。
下是多年来之ACL,EMNLP和NAACL的任用论文列表:
ACL | Association for Computational
Linguistics
EMNLP
2016
Accepted
Papers
并且,再沾一些Jason Eisner为辅助本科生做研究而写的有建议:
Advice for Research Students (and
others)
冀而能enjoy NLP!

 

 

 

主题提取:http://gibbslda.sourceforge.net/
文件聚类:gmeans.html
文本分类和摘要提取:http://texlexan.sourceforge.net/

 

 

 

 

 

偏旁部首对于词性标注确实是行之,尤其是对此不发表录词的泛化能力。
本言字旁、提手旁的貌似是动词(说、谈、记等);提土旁的相似为名词(地、堤、城等)。我学姐09年做了千篇一律篇论文,题目是:基于SVMTool的中文词性标注,使用了部首特征。这也是我们实验室LTP早期版本被所利用的词性标注器,现版LTP没有动用。

对此命名实体识别,我眼前尚从未见到出什么样工作之所以了部首特征。猜测出三个或的故:
1.
命名实体绝大多数且是名词,部首特征于名词中的细粒度区分作用比较小;

  1. 命名实体识别任务多已采取了词性特征,与部首特征来比较充分overlap;
  2. 取名实体识别任务中词缀的熏陶更显著,比如:xx国,xx银行,xx所。

另的劳作,最近糕神用部首召开了汉字embedding,可以参见:http://arxiv.org/ftp/arxiv/papers/1508/1508.06669.pdf

整体而言,传统NLP框架上平添部首特征,即使发生力量呢是比较有限的,而且创新性较小。但是以Neural
Network上应当要生可发挥的上空。最近英文及之一个研方向是Character-aware
neural modeling,我当当汉语言上是免是吗得举行类似之扩大,Character-based
or even
Radical-based,通过统筹还好之修结构由再老的信号中学习feature。

 

 

 

python和R

 

 

 

python速度跟利程度还不比不上matlab。而且文献中起许多主次还是用matlab写的。另外matlab的矩阵计算优化得十分好,计算速度远远超过了numpy。

要是要是当产品,那么因此C++和Eigen库开发,然后连行化,是无与伦比好的。整体进度远远超过matlab和python,内存使用量也略微(大数据情况下内存使用量为是如考虑的)。

本身事先以核心用matlab做原型,用C++开发产品。

python介于两者之间,我要好因此下来的痛感是比尴尬的。

「python速度与方便程度都不比不上matlab」——方便程序?安装的便捷性和时空吃?启动之时空消息?语法对人口之要好度?另外,说
Matlab 算矩阵超过 numpy,我好意外 Fortran
会这么不给力。有可说明的对待测试么?

 

 matlab的矩阵运算速度而于Numpy快很多。我测试的结果是:
Matlab <= C++Eigen优化 < C++ Eigen < C++ for循环优化 < Numpy
< C++ for循环
优化是乘编译的当儿加了-O3
-march=native,for循环优化的时手动设置了部分有些变量。
自身测试的条件是Phenom X4 + ddr2 8G + ubuntu 12.04
结果也许仍机器配置不同而异,你得试试。

 我较的凡矩阵乘法。matlab 2013b, numpy 1.6.1, Eigen 3.14。
stackoverflow上有人说numpy的进度也可长足,但是目前自自从benchmark的结果与事实上编程的结果来拘禁,matlab的快慢或太抢最平稳的。

 

 

 

自己觉得要看具体事“什么样的自然语言处理了”,如果单独是就的所以正则表达式挖掘有文本中之实业(name
entity)或者特定组织的语句(比如一个网页遭到的天气预报文字结构有些),那么Perl比Python有过之而无不及,因为Perl的正则表达式真的挺便捷强大。但是,如果要开展更错综复杂的自然语言处理,比如,涉及到“词形还原(symbolic
->
symbol)”,“同义词”,甚至“语义网”这类似的拍卖,那么Python是极品选项,因为他起像NLTK这样的强大库。

此外NLP是好东西,分享一点素材:
http://www.52nlp.cn/
http://blog.csdn.net/sinboy/article/details/952977
http://www.chedong.com/tech/lucene.html
(听说lucene入门都是看这个的,CJK的撰稿人,貌似没有他就是无IK和庖丁了)
除此以外还有同客PDF 数学之美及浪潮的巅.pdf
AC自动机, HMM算法等请求自学好。。。

 

 

PS:混了3年了, 还是觉得自己吗都非会见。不敢说“掌握”这个词。
PS2:感觉LZ是盲目了,对前途的模糊, 想多读一家语言,
感觉立马则来安全感一点。我先为发了如此的想法, 谁知道PHP, .NET, JAVA,
ASM,
C++全部且学了个入门。到头来毕业的当儿什么还见面==啥都未会见。LZ时重新该的是做点什么出来。譬如说做个网站(起码几万代码规模),然后嵌入外网,让人口走访,提出修改意见,学会设计一个产品。这样才是您一旦开的事宜。
我呢是倒这漫长总长的口啦, 希望是建议对LZ有扶持^__^

 

 

 

 

乘胜 2016 年了却,剑桥大学高等研究员 Marek Rei 对人工智能行业之 11
单至关重要集会及杂志进行了分析,它们包括
ACL、EACL、NAACL、EMNLP、COLING、CL、TACL、CoNLL、Sem / StarSem、NIPS 和
ICML。本次分析对时当机械上和自然语言处理领域的各组织同学校的科研情况展开了比。分析显示,在舆论数量及,卡耐基梅隆大学(CMU)高居第一号。

以下各级图所用到之音讯都源于网络,每份文件之部门组织消息还是出于论文的 pdf
文件中收获之,并无保险了标准。

每当你看罢就卖分析,得出自己之结论之前,请留意一个前提:论文的质量远较数据要,而舆论质量并无在本次分析的范围外。我们的辨析来自这样一个想法:我们期望展示深度上和机器上园地在过去之平等年里来了哟,大商家暨校正在做啊,希望它能够为汝提供部分增援。

先是是 2016 年最为活跃的 25 单机关:

766net必赢亚洲手机版 21卡耐基梅隆大学特因同篇论文优势击败谷歌。2016
年,微软跟斯坦福也发表 80 多首论文。IBM、剑桥、华盛顿大学以及 MIT 都达了
50 篇的鸿沟。谷歌、斯坦福、MIT
以及普林斯顿大学判关注的凡机器上世界,论文发表几乎都集中在了 NIPS 和
ICML 上。实际上,谷歌论文几乎占了 NIPS 所有论文的
10%。不过,IBM、北大、爱丁堡大学与达姆施塔特工业大学(TU
Darmstadt)显然关注之是自然语言处理应用。

通下去,看看作者个人情况:

766net必赢亚洲手机版 22Chris Dyer
继续他惊人的论文上势头,2016 年一并上了 24 首论文!我深奇异怎
Chris 不发 NIPS 或 ICML,但他着实于列一个 NLP 会议还生同样篇论文(除了
2016 没有开始之 EACL)。紧跟其后的凡 Yue Zhang (18)、Hinrich Schütze
(15)、Timothy Baldwin (14) 和 Trevor Cohn (14)。来自哈尔滨工业大学的
Ting Liu 在 COLING 上就是作了 10 首论文。Anders Søgaard 和 Yang Liu 在 ACL
上还生 6 篇论文。

脚是 2016 年最高产的首先作者:

766net必赢亚洲手机版 23其三个研究者发表了六首第一作者论文,他们是
Ellie Pavlick(宾夕法尼亚大学)、Gustavo Paetzold(谢菲尔德大学)和
Zeyuan Allen-Zhu(普林斯顿大学高级研究所)。Alan Akbik(IBM)发表了 5
篇第一作者论文,还有七个研究者发表了季篇第一作者论文。

除此以外有 42 人发表了三篇第一作者论文,231 人发布了一定量篇第一作者论文。

连着下省在日序列及之排布,首先,在不同会上上之舆论总数:

766net必赢亚洲手机版 24

NIPS
一直以来历年都出同等场层面大要命之会,今年羁押起越不可了。另外,COLING
今年底变现超了预想,甚至超越了 ACL。这是自 2012 年 NAACL 和 COLING
合并以来的首先不好。

下面是每个团队机构的历年来的论文数量:

766net必赢亚洲手机版 25

以 2015 年超过微软随后,CMU
继续领跑。但是谷歌也大步跨越,几乎快赶上上来了。斯坦福的显现吧非常巧妙,后面随着
IBM 和剑桥大学。

末尾,让咱来看看个人作者:

766net必赢亚洲手机版 26

每当图上足看出,Chris Dyer
有一致长达老明确的升高曲线。其他过去五年来直接保持增长之撰稿人:Preslav
Nakov、Alessandro Moschitti、Yoshua Bengio 和 Anders Søgaard。

 

 

 

NLP(自然语言处理)界有什么神级人物?

 

作者:jiangfeng
链接:https://www.zhihu.com/question/32318281/answer/55588123
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

率先想到的非应是Michael Collins吗……

Michael Collins (Columbia), Jason Eisner (JHU), David Yarowsky
(JHU)三个师兄弟(David > Michael > Jason)均师承于Upenn的Mitchell
Marcus教授,也即是举世闻名的Penn
Treebank的撰稿人。这三各项是NLP界公认的大神,研究领域各个有珍惜。collins/eisner对NLP结构学习园地贡献大,yarowsky早年研究词义消歧,是资深的yarowsky
algorithm的作者,后来召开了众多跨语言学习的开创性工作。

Michael Collins的生吃有名的有Terry Koo (Google), Percy Liang
(Stanford), Luke Zettlemoyer (UW);Jason Eisner的得意弟子当首推动Noah
Smith (CMU->UW);David Yarowsky似乎没有呀特别典型的学员。

Stanford NLP掌门Chris
Manning,以《统计自然语言处理基础》一开与Stanford NLP (toolkit)
而名噪一时。Dan
Jurafsky,著有《语音及语言处理》一书,具有坚不可摧的语言学背景。稍微提一下Manning的学员Richard
Socher,近几年声名鹊起,在dl4nlp领域形势一时无两,属年轻一代翘楚。

UCBerkeley的Dan Klein,早些年当无指导上世界建树颇多。Percy
Liang也是他的学生。
UIUC的Dan Roth,Chengxiang Zhai (偏IR);MIT的Regina
Barzilay;哦,当然还有Brown大学之Eugene Charniak大神(Charniak
parser),Brown大学为可算是没落的贵族了,和UPenn有一定量相似。

欧洲地方,Joakim Nivre (Uppsala
University),代表工作是基于转移的现有句法分析。Philipp
Koehn,著名机器翻译开源系统Moses作者,14年参加JHU。

本,在工业界也是NLP群星璀璨。Google有Fernando
Pereira坐镇,此外还有Ryan McDonald,Slav
Petrov等句法分析领域绕不上马之名字;而近年来Michael
Collins也投入了Google;IBM则生Kenneth Church;提一口Tomas Mikolov
(Facebook)吧,word2vec作者,虽然他严加意义及并无属NLP核心圈子,但是只能说,近两年acl/emnlp近一半篇章还被他孝敬了citation,能形成这种程度的口无比少。

以上自干的人头都是对NLP领域有至关重要基础性贡献并经岁月考验的(citation超过或接近1W),除了以上关联的,还有众多死美妙之师,比如Kevin
Knight,Daniel Marcu, Mark Johnson,Eduard Hovy,Chris
Callison-Burch,年轻一代的David Chiang,Hal Daume III等。

临时想到的就这些口,水平有限,抛砖引玉。相对而言,虽然华人学者近几年以ACL/EMNLP等世界级会议上占有越来越重要之身份,但是本着NLP领域有着举足轻重基础性贡献的大方相对还是杀少之。

 

 

 Michael Collins(Google)

http://web.science.mq.edu.au/~mjohnson/    

增补一下,UIUC的Dan Roth   

Jason Eisner原来这么强?上了他的课,感觉他除了学业量非常外好像也并未啥了……

 

 

 

Christopher Manning, Stanford
NLP
他的生:Dan Klein’s Home
Page
下一场立即号之学童:Percy
Liang

然后Stanford另一位NLP大神:Dan
Jurafsky
及时员在JHU的“亲戚”(误:两各项还是俄罗斯/苏联裔,据说俄语的last
name几乎是平的,现在的不等拼写多半是当场凡美国边界官员的大手笔):David
Yarowsky
(很巧两各还是言语学的大拿)

其他一样员JHU公认的大神:Jason
Eisner
其余一样号受Dan的大神:Dan Roth – Main
Page

老大早生已经起研究parsing并一致战成名的Michael Collins大神,是Percy
Liang的任何一样位大师:Michael
Collins
(有空就再……)

感本科生去追寻他套磁做research还是生不容易的,因为他其实太忙碌了,一般只要坚持不懈地骚扰他,表现有诚意,然后朝外说明你的实力。如果说上至外组里去的语句外要么于nice。

以下摘自wikipedia:

Michael J. Collins (born 4 March 1970) is a researcher in the field
of computational
linguistics.

His research interests are in natural language
processing
as well as machine
learning
and he has made important contributions in statistical parsing and in
statistical machine learning. One notable contribution is a
state-of-the-art parser for the Penn Wall Street Journal corpus.

His research covers a wide range of topics such as parse re-ranking,
tree kernels, semi-supervised
learning,
machine
translation
and exponentiated gradient algorithms with a general focus on
discriminative
models
and structured
prediction.

Collins worked as a researcher at AT&T
Labs
between January 1999 and November 2002, and later held the positions of
assistant and associate professor at
M.I.T.
Since January 2011, he has been a professor at Columbia
University.

 

 

 

充分喜欢 Michael Collins,
认为外形容的paper看得无比舒适最爽,犹如沐浴于樱花之中。Jason
Eisner确实是决定,不过看他paper实在太丢人懂,写的言语很抽象,我顶屌丝实在麻烦深入了解。
经过Collins大侠的片paper才能够针对Eisner的paper妙语进行掌握。

总之,就是极品喜欢Michael Collins. 期待能够来看他要follow 他干活。

此外Ryan Mcdonald也是自家好爱的一个NLP researcher.
写的paper虽然木有collins那样妙笔生花,但是呢是通俗易懂。

国际计算语言学会ACL Fellow的名单应当就是高的认同吧?ACL Fellows – ACL
Wiki

名单里发35个会士,前面答案里提到的Michael Collins、Christopher
Manning也于名单的列。看名字中有3个是中国人/华裔(其中一个凡香港人口)。

  • Dekai
    Wu,如果没有抓错应该是香港科技大学吴德凯教授,成就是“较早以中文分词方法用于英文词组的分开,并且以英文词组和中文词在机翻译时对应起来”;
  • Hwee Tou Ng,(这个不知情是哪位大神)
  • Dekang Lin,林德康先生,前Google高级管理科学家(senior staff
    research
    scientist),在入Google之前是加拿大Alberta大学电脑教学,发表过越90篇论文、被引用过12000不好,目前做了扳平寒NLP相关的创业企业奇点机智。

本着机器翻译比较感兴趣,记得比较牛逼的起Koehn,Och,Hermann
Ney这三个德国总人口,第一单凡是形容了Machine
Translation,算是将这系统化教程化的一个人,也是Moses翻译系统的主力,Och,
Ney都是德国Aachen的,对Discriminative model以及phrase based
translation贡献巨大,当然还有Language
Model的词频smoothing算法,然后现在较牛之该生出Bengio,Mikolov,Bengio是加拿大montreal的,从众多年前就是直接为神经网络,解决了众多overfitting以及dimension
exploding,lare vocabulary的问题,后来提出的Neural Network Machine
算是业界新规范了,Mikolov的word embedding也是搭的新突破

 

 

国际计算语言学学会仅部分4各华人ACL
Fellow之一,林德康教授对准自然语言解析及词汇语义做出重大贡献。

766net必赢亚洲手机版 27

林德康(Dekang Lin):国际计算语言学学会会士(ACL
Fellow)。前Google研究院高级管理科学家(senior staff research
scientist),在加入Google之前担任加拿大阿尔伯塔大学电脑教学。他于自然语言处理及了解领域共发表了90不必要篇论文,其研究共为引述过14000赖。1985年毕业被清华大学计算机科学和技能专业,后赴英国读书,又转入加拿大阿尔伯塔大学读取计算机博士。先后任职阿尔伯塔大学副教授、正教授,任教期间重点从自然语言理解研究.研究成果包括同磨蹭基于最简原则的英文语法分析器Minipar和同样栽用不监督上和义词组的计。后在美国Google研究院任高级管理科学家,是Google搜索问答系统的开拓者与技艺官员,领导了一个由于科学家及工程师组成的组织,将Google搜索问答系统于一个基础研究项目逐渐提高加大变成一个每天对两千万问题的产品。

766net必赢亚洲手机版 28

林德康教授还三番五次当计算语言最高学术部门国际计算语言学学会ACL(Association
for Computational Linguistics)的领导职务, 包括:ACL
2002主次委员会共同主席、ACL2011大会主席、ACL
2007打败美分会执行委员等。2016年初回国,创办一小研发手机智能帮手的铺——奇点机智,2017年4月披露的乐视AI手机宣布搭载奇点机智研发的语音助手——“小不点”。

听说那个店即正招聘NLP方面的姿色,有意的大神可以投简历至hr@naturali.io,不过面试题来得难度,不惧挑战的牛人可以尝试一下,反正我起个南充分的同窗没有通过(老铁,真心不是黑你TT),但要祝福各位好运~

 华人两非常元老张国维博士和李中莹,国外的呢有人死了得

 

 

 

James H. Martin,Speech and Language Processing 一书的作者有,CU
Boulder 的 CS Professor。。。
做 NLP 的该基本还扣留了及时仍开,甚至就是是立本入门的吧。。。我以 CU
的那么片年类要系里的 dean,当年达他的 NLP 的清收,final project
在数集巧合的情景下刷了个比较他的 PhD 给闹之 benchmark 还要高之
f-score,自我感觉爆棚了至上来,然并卵最后还是尚未叫 A。。。

 

微机视觉和自然语言处理,哪个还享有发展前景呢,还是各个有主

还是无结构化数据,但鉴于图像是数字信号,处理及特征提取的一手更为长以及可靠,文本数据提取特征难度比较生,比较主流的就是是词频矩阵和word2vec,而且由于语言类多,并且文本数据大质量糟糕,数据清洗和预处理的做事于多。

私觉得,NLP现在对肤浅层次的特征提取,分类等问题已经于成熟了,而好层次之语义理解是今日大家研究的香,也是暨纵深上做密切的端。比如就有限年来说Neural
machine translation在机械翻译上针锋相对于以前Phrase-based
ML所收获的长足进步。并且现在工业界对于NLP的期望非常十分,在chatbot,翻译,语义分析,summarization,信息提取和本文分类且有成千上万尝。

图像这面,是初次开始跟纵深上合作的领域,现在既产生对的工业化的例证,比如在临床领域的帮忙诊断,安防的人脸识别,但犹是浅层(并无是指道简单易行)的图像处理技术,感觉对于图像深层次意义的知道与发掘还欲多多矢志不渝,估计这方面未来吗待依赖自然语言的研究成果。

大概的话,两只都是殊过硬的大方向,大有可为。图像的工业化方面的实例不丢掉,研究世界啊扣收获众多前景。NLP初称坑会很多,但应是以后立刻几年业界会投资很多底园地,并且有些势头都快上了工业化所急需之性。

 

 

 

 

1.商业使用来讲,当前nlp更成熟,cv处在探索等

nlp的小买卖使用上,国内的比如说百度语音、科大讯飞都召开得够呛熟了。
当下机械视觉主要利用定位、识别、检测和测量,虽说四死块都拿走了进行,但备受应用场景、算法的限,稳定性较差,商业利用尚未成熟。
之所以由就业来说,短期的几乎年内cv应该更火一点,现在来拘禁呢是这么的。

2.nlu凡是nlp未来的突破方向

nlp经过十大多年之短平快发展,精度就相当强,但是上99%自此,再升级就显示非常艰难。从各大巨头发布的介绍来拘禁,各家事实上是在追求自然语言理解(Natural
Language
Understanding,NLU)的突破,但是在短期内还非显现曙光。因为当时点的突破用见面与脑神经科学、认知是的迈入联系密切,所以可能再次可为研究(比较牛逼的突破性研究)。

3.私学习来讲,打好数理和编程基础是首要

自身cv和nlp许多算法的原理都是相通的,数学与编程搞好了哪方面还爱吃得开。

恰两片都生看,CV多片,NLP和以前的色事关又甚,有了研究而不足够深入。
由宏观之发话,CV自然是会又产生“前景”一些,从应用面的轻重缓急就会看下,当然这为是一个不负责任的大概的判断。虽然CV已经发出很多年之聚积,有了过多成熟的路与技能,但是个人感觉它还有大深之上空还并未受发掘出来,
关于NLP,与那拿其范围以言语的辨别,不如退后一点来看audio
progcessing(包括语言及另外声音), audio
processing已经以死多之世界,未来还会见于再次多之领域取得应用。而且合情合理地说,目前看来audio
processing是一个于低估的趋势。因为咱们无限过度依赖视觉来判定,audio中所富含的音信,值得我们领到的音讯还有大多,但于咱们而言很多还是隐性的,就光是当下或多或少,audio
processing就曾起了那个老之潜力。

基本上加同句,从个人进步角度说,我感觉少只还负有十分充分潜力的圈子无论大小,都还不一定影响及个体发展,所以更要的凡找到适合自己之样子,选择你再次有热心,更感兴趣的主旋律会为您可知研究之尤为深刻。

电脑视觉与自然语言处理侧重各不平等。
单论发展前景而言的语,从少上面来拘禁,一个凡是工业界,一个凡是教育界。
于工业界,我看nlp的发展前景更老,有更为清明的小买卖盈利模式,像推荐,翻译等,然而当下视觉在互联网工业界还并未特意晴朗的盈利模式。
于学术界,我以为cv的发展前景更特别,因为图像被含有信息还多,理解图像,描述图像很为难,另外目前多数生影响力的做事都是从视觉开始之,DL也是盖CNN的宏伟成功使起。

约莫扫了产,这个题材之答时多来源于并没有真的做过NLP的童鞋们……这吗基本得以影响整个智能信息处理非常环境下CV和NLP相关研究人员的比例来差不多未平衡。

这边要强调一点:NLP不是字符串处理,也非是简简单单的词袋或文本分类。很多职责要搞好就待知道被你的词或语段到底在道啊。暂且先不考虑任何篇章级别的信息结构。给一定任何一个句子,都可以出相对句长齐指数级数量的结果来分析其的语法结构,然而其中就出一个要么太少个凡是语义上对的。同时,同一个意思来管根本多种法得以表达出来,绝大多数发挥模式于豪门眼前的试验数据被或许出现还向没有出现过。Ambiguities(一个达多种意义)和variations(一个意思又发挥)是NLP的常有难点,短期内不见面时有发生其它工作得提出通用使得的缓解方案。

万一您只要咨询发展前景,那短期内得是vision。原因颇简单:就相关题材我的难和时的支持技术进步现象来拘禁,想办好NLP的难度远还胜似。这实际呢是前有人称“目前大部分生影响力的工作还是从视觉开始之”的因由。

发现在境内NLP的商海还不是十分广阔啊,很多庄还无招就地方的人。椰子你看未来几乎年国内NLP会引发更多号关注为

可是分为短期和老的比,以及采取或辩论研究之较。着眼点不雷同,结论为殊。从短期看两者都发前景,语言恰恰自口音识别走向语义理解,应用场景急速拓展,从平静环境的单人口语到喧闹环境和多人对话,车载、会议、远场、翻译、阅读,都以伺机突破。语音进入手机、医疗、教育、服务,非常有前景。而视觉在通畅、安全、工业、医疗影像、物体识别、视频、情绪相当逾大。但不使语言专一,视觉场景无限杂,不同状况视觉算法和模型千变万化,而语言则重要汇集在亮上,可能重利于技术精进。
自从远期,视觉的能接到更加庞大之信息量,进入图像理解之后还好学创造,我个人认为远期若是过语言类,不过好变更啊,我说之远期起码是十年后。语言最终会抵达极限,比如二十年后,可能语言类的技巧完全成熟后会见停滞不前。

CV啊,因为NLP现在犹不曾咬下来(模型、计算资源、数据,都并未搞定),CV几只很任务,反正在公然的数目集上都争先让啃得几近了。

使解决了NLP,也就是自然语言理解的问题,我道离AGI也不怕未例外几步了,语言的申本来就是人类历史的一个飞速,难度可想而知。在马上之前,估计一般人投身进去都是错过填坑。CV现在技能基础就起了,玩点儿应用来名堂的可能性还是有。

手上片答案大多都是由技术的角度,已经分析的生好了。补充某些,任何技术之发展前景,归根到底是在于它的应用越来越是商用前景。年轻人要想选自己一生一世从事的园地,首当其冲要考虑的恐怕并无是一个物在技术上还有小现存问题从未解决,而是一个事物在未来20、30竟50年发生无来或意味着一个硕大的市场以。如果产生,那么当会生多的艺问题被创造出,需要多的人才投入,那么自然而然的好之“发展前景”也便形成了。所谓选错行、站错队,大多数时候就是当如此的选择上生了问题。当然,timing也殊重要,最突出的事例就是当年之生命科学….

作为AI的道岔领域,CV和NLP根本达吧就是是代表了总人口希望机器能够“代替自己扣”和“代替自己读与描绘”(听和游说也依赖NLP但相隔了一致交汇speech)。短期之内,可能是囿于在少数场景下(例如安防人脸识别、人机自动问答)。但漫漫来说,只要看好AI,就必须认识及CV和NLP会在一发多之情景下取代人的“看”和“读写”功能。那回过头来评价这片只世界的前景,只需要考虑:这些吃CV和NLP所代替的man
power,到底意味着了大半百般的生产力、时间跟生机投入,就能够此领域的前景无限酷可能有多要命。再本质一点说,我们当人口,到底出多少时精力是花费在“看”上,多少日子精力花在“听说读写”上,也许就算代表了CV和NLP领域本身的巅峰potential。再脑洞开一点,如果来同等种艺术,能够计算一下生人平均来说出稍许卡路里是耗以“看”相关的行事上,多少是吃在“听说读写”相关的一言一行上,估计就是CV和NLP领域的末梢“发展前景”大小了。

 

文件是太常见的数量格式,也是数据量最可怜之,需求端高下立判。工作时跟需求或不是线性相关,但必然是刚相关的。
AI的发展得是为了有利于人类的在,而大部分气象下跟人交互最直白、有效的主意是文本,市场空间大下立判。
图像处理会较文本处理得重新多之资源,这点来朋友说过了,具体不再说。成本越来越强逾不便宜前期发展,尤其是略商店、缺经费之实验室。
唯独图像相比文本也发生好多独到之处,比如更直观、信息量更甚、更易吸引人口眼球等。
新家会以为打图像、语音比文本更要命,也正如文本更麻烦处理(不单纯是正入门的会面产生之误会,微软某部应用科学家亲口说他也闹了这个误会)。但上学时间更长越发现无是这般,因为图像、语音相对来说更客观、规律性更强,自然语言更具有人的无理、更加空虚、对应的场面更多、更加多义性并且爱歧义。
现阶段以来,无疑cv发展还成熟,nlp还需进一步获取好突破、挑战吧再不行,可能得十年居然几十年之基本上总人口拼命,任重道远但为巧提供了双重怪之上进空间。
只是,cv和nlp很多型、方法还是相通之,大同小异。未来推进人工智能发展的不光是cv,也不仅是nlp、语音识别,而是基本上只世界的协同发展。
最终,cv和nlp都是好方向,选好都推行,根据兴趣决定就是哼,把兴趣当事情之人口尽甜蜜为极其有效率!祝好!

 

 

 

作者:解浚源
链接:https://www.zhihu.com/question/49432647/answer/144958145
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

先期说学术圈

视觉大热过后今已进入了一个瓶颈期,现有数量及较主要之题材还早就举行的基本上了。视觉发生三杀问题:分类(classification)、检测(detection)、分割(segmentation)。

分拣方面,imagenet已经MNIST化,折腾半龙提升半只点实在没什么意思。检测点产生RCNN和SSD两单可怜方向,骨架已多好,剩下的就是是填trick了。分割基本上是dilated
convolution/upsampling的各种变种,也是过几只月加几独trick提高一个点之模式。

视频理论及是鹏程之来头,但是犹如视频需要之计算量比图片大得差不多,目前尚从未呀突破,前途不明朗。可能还要等核弹厂挤两年牙膏。所以现在大家还在做GAN啊pix2pix啊这种看起炫酷但是无法量化评价的事物,虽然看起百花齐放但是很难说前途明朗。

自然语言处理粗不温不火,虽然吃水上在翻译等地方带来一些前行而连无颠覆的感觉。由于自然语言先天的惊人结构化、高度抽象、数据量(相对)小的特色,糙快猛的神经网络有些施展不起。如果说视觉已经过气了,那么自然语言就是还没火起。未来应当是产生前途的样子,但是是未来起多远还坏说。

更何况工业及使用方向

视觉每当学术圈退火意味着技术既于成熟,正是工业界大干快上的好机遇。但是工业使用想使学有所成,必须深耕一个垂直市场,比如自动驾驶,医疗图像,安全督查,其中治疗图像我看是无比有潜力的大方向。想念要开一个通用平台将分类监测的商号核心还见面碰到商业模式不清晰,竞争剧烈,变现困难的题目,最好的下台也就算是叫大厂收购还是包养。

自然语言处理也来部分商业机会,但是想依靠深度上横扫天下不现实。需要新一直艺术的重组及深厚的涉积累。自然语言更是用深耕垂直市场,通用算法完全看不到商业模式,像聊天机器人啊自动翻译这种东西都是颇厂用来增强知名度的,无法表现。垂直市场点我主持法律运用,助理律师的博干活,比如对比判例、专利这种,完全好自动化。

 

 

 

 

 

NLP由于特性比较高层,因此现有算法处理起来较好,发展比较成熟,像文档分类等任务,简单的风味可以高达非常强之准确率。但是当享用完基于统计的浅层语义果实后,下同样步之深层语义理解则困难重重。像机器翻译,对话系统等因深层语义理解的天职,目前底系去人类水平,尚有非小之别。

CV由于特性比较底层,因此前要人工设计大方特性,效果呢未尽如人意,所以发展没有NLP成熟。但是深度上技能以特征提取上的具大优势,为CV的开拓进取翻开了一个新的时日。像图像分类等任务,已经达标近似甚至超人类的程度,而之前想还非敢想的图像生成,视频生成等,也频频产生兴奋的果实涌现。

NLP相当给已达成90分叉,想增强到99细分,困难非常要命,而CV之前可能只有发60分,因此提高至90分非常容易,这吗是眼前CV迅速发展之原故。

但是是因为深度上技能之顶天立地潜力,NLP领域逐渐被深上席卷,大家想会依靠深度上技能,向99分开发起冲刺,因此NLP领域为不行有前景。

自打进化达成,两只世界时犹死有前景,没有必要一定要是分开出单强下。从技术上,它们还日益让深度上统治,像描述生成图片和图转描述这样的穿插任务为愈发多,有相当多互动借鉴之地方。从个人倾向选择角度,我提议以个人兴趣作为第一角度,无论选择哪个方向还老好。而且发生矣深度上技能的根基之后,想更改另外一个势头,也不是非常不便。

 

 

 

先说我的见地:处理器视觉将尤其融合自然语言处理。

盖自身要好是计算机视觉研究背景,所以下面要讨论一下自然语言处理在计算机视觉中之几只应用。

首先,自然语言给电脑视觉的图片数带动了结构化和语义化。自然语言中一个“词”代表有概念或者类,比如说“猫”和“动物”。通过语义关系,利用这些歌词可以老容易建立一个语义结构关系网。WordNet是时最为充分的语义结构关系,其中的hypernym/hyponym代表了点滴单词里的语义关系。在微机视觉中,由像从结合的图片本身是只大高维的多少,比如说800×600如从的图形,是个强臻480000的向量。图片空间里极其稀有的凡对这些高维数据的语义结构化。ImageNet
(ImageNet Tree
View)的要害贡献是冲WordNet建立的图语义结构。其中每个synset有为数不少摆设所属种类的图样,这样ImageNet就成功了针对一千大多万摆放图片的语义性的分类和讲述。

就此,对图片数的语义化和结构化,可以说凡是自然语言处理在微机视觉里之一个第一应用。随着的各种基于机器上的图形识别算法,都是为预测图片的语义标定。Deep
learning本身吗是representation
learning,说到底就是是在图片高维空间中建立更好的性状,使得这些特点对语义标定有再次好的分别和投。

图片的语义标定本身可以衍生出多采用,这里我推两独比好玩的职责:Entry-level
recognition和Zero-shot learning。 Entry-level recognition(From Large
Scale Image Categorization to Entry-Level
Categories)主要是分析wordnet上之synset到entry-level
description的关系,比如说一摆海豚的希冀,Wordnet里面为的凡grampus
griseus,而人们常见会因此dolphin去讲述这张图,怎么给两岸建立联系是entry-level
recognition要解决之题材。

Zero-shot
learning解决的问题是,如果某个项目没有外训练图片数,如何错过分辨是类别。因为世界上之用语太多,对每个词语对应之概念都采访图片训练多少明显不具体。zero-shot
learning的大约做法是,利用目前尚无其它图片数的标定与事先发生图表数的标定的语义相似度,来起语义标定之间的涉嫌。自然语言处理的word
embedding也取得了使用。Zero-shot
learning的一些代表作,比如说DeViSE(http://papers.nips.cc/paper/5204-devise-a-deep-visual-semantic-embedding-model.pdf),
semantic codes(http://papers.nips.cc/paper/3650-zero-shot-learning-with-semantic-output-codes.pdf),
domain-adaptation(http://papers.nips.cc/paper/5027-zero-shot-learning-through-cross-modal-transfer.pdf)。Zero-shot
learning的摩登进展得瞻仰最近之平差ECCV‘16 Tutorial(Zero-Shot
Learning Tutorial | ECCV
2016)。

顿时两三年紧密结合自然语言处理的视觉任务吗越发多。2014年及2015年大热的根据CNN+RNN的看图说话(Image
Captioning):给自由一摆图,系统可以输出语句来叙述这幅图里的内容。Microsoft,Google,Stanford等大厂都发生concurrent
work,一些代表作如Vinyals et al. from Google (CNN +
LSTM)
和 Karpathy and Fei-Fei from Stanford (CNN +
RNN)。New
York TImes这首大文章还不易,(https://www.nytimes.com/2014/11/18/science/researchers-announce-breakthrough-in-content-recognition-software.html?\_r=0)。这里来首十分好玩的来源于Ross
GIrshick和Larry Zitnick的论文https://arxiv.org/pdf/1505.04467.pdf,里面所以nearest
neighbor
retrieval的土产措施取了可与那些因RNN/LSTM系统不相上下的结果。由此可看到,目前底image
captioning系统基本要于召开简单的retrieval和template matching。Image
captioning大火之后立刻半年是研究方向好像就是从未有过啥相关论文了,前阵子Microsoft
Research做了篇Visual Storytelling的劳作(https://www.microsoft.com/en-us/research/wp-content/uploads/2016/06/visionToLanguage2015\_DataRelease-1.pdf),并提供了单dataset(Visual
Storytelling
Dataset)。

随着,2015年以及2016年图片问答Visual Question Answering
(VQA)又大热。VQA是看图说话的进阶应用:以前看图说话是于张图,系统输出语句描述,而VQA更强调互动,人们可因给定的图片输入问题,识别系统要受出题目的答案。目前极其特别之dataset是基于COCO的VQA
dataset(Visual Question
Answering),最近起了v2.0本子。CVPR’16闹了个VQA
challenge & Workshop(Visual Question
Answering),其页面里产生深多材料可供应上。我之前好吧举行过会儿VQA的办事,提出了一个非常简单的baseline。这里是一个只是供应测试的demo(Demo
for Visual Question
Answering),代码和report也披露了,感兴趣的同桌可以看看。当时之baseline跟那些因RNN的繁杂模型比起来为毫不逊色,侧面说明了时VQA系统到跟人一样真正了解以及回应问题还有很丰富的一段距离。Facebook
AI Research前片个月发布了一个新的数据库(https://arxiv.org/pdf/1612.06890.pdf),用于诊断visual
reasoning系统。我要好非常喜欢这样的辨析性质的论文,推荐阅读。

此外,Feifei-Li先生组新建立的Visual Genome Dataset
(VisualGenome),其实呢是力求为电脑视觉更好地跟自然语言处理里的知识库和语义结构还进一步融合起来。

有鉴于此,计算机视觉和自然语言处理并无是死的点滴只研究方向。两者的未来上扬会拄独家的优势齐头并进,融合到General
AI的框架之下。未来而会时有发生什么样的新钻问题,我满期望。

 

 

 

 从当下仍开开始吧,还有配套的MOOC,也许对题主轻松局部
Introduction to Statistical
Learning
Statistical
Learning

 

 

 

NG的课以网易有字幕版,是当斯坦福教的实拍,比cousera的又特别,因为教学的是本科生(没记错的言辞),比较相符入门。不过数学之底稿有要求,特别是线代。

话说回来,要举行就同样行,英语不行重大,楼主你得学英语了,读与听要搞定,最低限度读而无问题。另外,既然数据挖掘都是零基础,先拿统计上一补。。。

一个粗修正,Andrew的Machine Learning在S是graduate
course,虽然发出本科生毕竟还是master &
PhD为主,尽管的确是呀背景的且发出。。。所以十分片啊是正常(话说Coursera上使也跟外的CS229难度同样可能要损失不少用户的吧。。。)

 

 

即时边我就单纯对该怎么入门这个题材应这题目吧。

既是点就发出好多丁吃来了充分好的回,这边我叫起片独参考,希望对君生辅助。

假定自学的话,这边我顺手给闹己整的自学路径,如果您道产生比较是更好的参考,欢迎并分享。

自然语言处理整理:
JustFollowUs/Natural-Language-Processing
机上整理:
JustFollowUs/Machine-Learning

 数据挖掘相对简便易行。
吴恩达的征都大粗略了,本科低年级的学童都得以好。
扣押3一体统计上道,然后将具有算法实现。
ok,然后您又来咨询,自己是错过百渡过,还是阿里。

 

 每个人犹不比吧,我吗国内前十校软工专业的,一个年级500丁,本科时就是扣留罢Ng先生的ML课的或是就是10%,而且大多数要大四百无聊赖看之,况且现在Coursera的ML课比几年前网易公开课那个版本的若简明了森为。可能答主非常牛,但是这个正式本身想不抱提问者这种刚入门的程度吧

 

 

 

 

先夺国内前20,米国前100的学堂混一个数学/统计/计算机,并且与多少有关的学位在游说吧

机器上的岗位,目前供需严重无抵。很多人数调过一两个仓库底几单算法就堂而皇之的将机器上加到简历里去矣,滥竽充数的场面非常严重。所以对新人来说,没有学历基本上就是是为秒刷的一声令下。

 

 

 

知乎首答,写个短的。本人现在大三,计算机本科。目前在官办台湾大学举行交换生。

第一独同老三个问题我不知道,坐等大牛回答。我单独做自己的景况说一下次个问题。

NG的课我以前看罢一样有的,讲的作风我以为以干货之前还比好明(笑)。但是天朝的读书人接受起来或来紧。台湾大学之林轩田先生的machine
learning至少在本科生教育及召开的良好。他们产生只team经常去各种竞赛及刷奖。我眼前于编写他的机上课程,觉得质量不错。现在coursera上吗时有发生联合课程。

传送门:Coursera.org

民用认为机器上之成百上千术都是自从统计学上借鉴过来的,所以现在在补统计学的知。同时作为一个理论性比较高的世界,线性代数和高档数学的文化起码是要负有的(至少人家用矩阵写个公式再举行梯度下降而如果扣押明白是于干嘛)。

本身在陆地的mentor是召开机械翻译的。我说我备感这小圈子现在凡面黄肌瘦,结果于自己mentor教育了。现在微博数量类挺好用底,数据抓恢复跑同飞能生出点票房预测什么的(其实深吊了,反正我弗见面QAQ)。记得来本Python自然语言处理,NLTK还于带语料库,用来入门不错。起码要熟悉正则语言,再套个脚本语言。虽然Python已经死好用了,你只要无使考虑下linux
shell。以后混不下去了足以错过叫运维打下手。这东西还要未是C语言,入门又没什么用,所以没什么30上会NLP之类。而且好研究NLP也面临着广大题目。首先你协调无可钻之题目,没有动力。其次,研究材料吧不到底好找(虽然接近发出免费之)。去年mentor给了自单5M之树库,还交代我身为有版权的,不能够为旁人。(笑)

实际上自己好都存疑读研的时候如果无苟转换个方向(请行里行外的师兄来劝我有限句子,要无苟错过做别的什么!!QAQ)

末尾说一样句子,机器上之类我觉着是国内大学所谓计算机专业于偏于CS而休是CE的局部了。虽然工程性很要紧,但是与软件工程什么的较起来Science的成分到底要重复充分有。我是较喜欢理学才来套这个事物。当然我之认或者怪,我姑妄说之。

 

 

 

《统计上方式》是凭李航那按照?不符合初家,术语太多,干货满盈,在introduction那无异段连个例子都舍不得举,简直看不下去(我未曾说就按照开不好,只是不称初师,等您拟的差不多了之后再也来拘禁这本开会发发展的)。

Andrew
Ng的课指的凡啊?网易公开课还是Coursera上的公开课?前者上不下去的言语正常。后者于前者压缩掉了诸多内容,把长视频切成了短视频,还有作业等相互环节,听不亮堂可以起字幕。要是这样您都放不下,要么说明你该学英语了,要么说明您该学数学了:把机器上之老三开马车——高等数学、线性代数、概率统计——好好补一填补吧。

本身未知情机器上、数据挖掘、自然语言处理哪一个再度发出潜力,但自身看您得事先把数学及英语学好才会出潜力。

作者:White Pillow
链接:https://www.zhihu.com/question/26391679/answer/34169968
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

题主的题目最多矣,每个展开都可以说很多~
作为自然语言处理(NLP)方向的研究生,我来回应瞬间题主关于自然语言处理如何入门的题材吧,最后又YY一下自然语言处理的前程~

发生接触话我想说于头里:
不管学什么东西,都使跟大牛去学,真正的大牛可以将同桩事解释的不可磨灭。
If you can’t explain it simply, you don’t understand it well enough.
及那个牛学东西,你免见面当麻烦,一切还看非常自然,顺利成为章的即掌握了全方位的学识。
而是大不满,大牛毕竟是个别,愿意叫别人的大牛更不见,所以只要赶上,就不用逼语言了咔嚓~

起进入正题,我将介绍如何自零基础入门到中心达成NLP前沿:

———-NLP零基础入门———-

首推进资料和唯一的素材:

Columbia University, Micheal Collins教授的自然语言课程
链接>> Michael
Collins

Michael
Collins,绝对的大牛,我心目中之偶像,这宗课是自己见了讲NLP最极端极端懂的!尤其是外的教材!
Collins的讲义,没有跳步,每一样步逻辑都太自然,所有的缩写在率先不良面世常常犹有全拼,公式角标是本人见了之极端漂亮的(不像有些舆论公式角标反人类啊),而且公式角标完全正确(太多舆论的公式角标有这样那样的错标,这种时刻正是坑死人了,读个舆论和破译密码似的),而且几乎未关乎矩阵表示……(初家或许不惯矩阵表示吧)。
极致要紧的凡,Collins的言语措辞真是超级顺畅,没有添加难句,没有作逼句,没有语法错误以及偏难怪的意味(学术圈大都是死理工科宅,语文能这样好真正最可贵了)。《数学的美》的撰稿人吴军博士当题被评价Collins的博士论文语言如小说般流畅,其著作功底可见一般。

选两单例子,如果发生时空,不妨亲身感受下,静下心来读一念,我深信就是零基础的口呢是能感受及师父的魅力的。
1.语言模型(Language Model)
http://www.cs.columbia.edu/~mcollins/lm-spring2013.pdf
2.隐马尔可夫模型和序列标注问题(Tagging Problems and Hidden Markov
Models)
http://www.cs.columbia.edu/~mcollins/hmms-spring2013.pdf

现在Michael Collins在coursera上为开始了公开课,视频免费看
链接>>
Coursera
较看教科书更鲜明,虽然从未字幕,但是不妨一试,因为言语的着实吓明。
彼以句法分析与机具翻译部分的讲课是绝的经典。

只要能够拿Collins的课跟下来,讲义看下,那么您早已控制了NLP的最主要技术和现状了。
当好扣押明白一些舆论了,你既入门了。

———-NLP进阶———-

Collins的NLP课程则说话的鲜明,不过有点比较根本之火线的内容并未提到(应该是为突出重点做了挑),比如语言模型的KN平滑算法等。
除此以外,Collins的课又讲究于NLP所依赖之基础算法,而于这些算法的某些重要应用并没有干,比如虽然说话了排标注的算法隐马尔可夫模型,条件仍机场模型,最酷熵模型,但是连没云如何用这些算法来开命名实体识别、语义标注等。

Stanford NLP组在coursera的这课程非常好的对准Collins的课进行了补。
链接>>
Coursera

按课程偏算法的使,算法的落实了之便捷,不过上结Collins的课后更上感到刚好~
(这半派课是Coursera上仅有的两门NLP课,不得不钦佩Coursera上的课都是精品啊!)

———-进阶前沿———-

落得收尾以上两独课后,NLP的机要技术以及落实细节就相应都理解了,
离前沿已经十分贴近了,读论文已经没问题了。
怀念使延续进阶前沿,就使读论文了。
NLP比从外世界的一个无比充分的利益,此时就是显现出来了,NLP领域的有所国际会议期刊论文都是可免费下载的!而且发生专人整理保护,每篇论文的bibtex也是相当清楚详细。
链接>> ACL
Anthology

有关NLP都发出哪研究方向,哪些比较热门,可以参照:[当前国内外以自然语言处理领域的钻研热点&难点?

  • White Pillow
    的回答](http://www.zhihu.com/question/30305058/answer/50184043)

NLP是议会中心,最前方的做事都见面事先发表在集会上。关于哪个会议档次比较高,可以参照谷歌给有底会排名:
Top
conference页面
也得以参照各个会议的录稿率(一般的话更是没有表示会档次越来越强):
Conference acceptance
rates
基本上大家公认的NLP最顶级的会也ACL,可以先看ACL的舆论。


末尾简短讲一下即时三者哪个更发生发展潜力……作为一个NLP领域的研究生,当然如果说NLP领域发生潜力啦!

此处YY几个未来说不定会见热的NLP的运:
语法纠错
脚下文档编辑器(比如Word)只能开单词拼写错误识别,语法级别之不当还无法。现在学术圈子太好的语法纠错系统的正确率已经好接近50%了,部分细分错误可以形成80%之上,转化成为产品的语句非常有吸引力吧~无论是增强文档编辑器的力量或作为教学软件更凑巧英语学习者的做错误。

结构化信息抽取
输入一首稿子,输出的是产品名、售价,或者活动名、时间、地点等结构化的信。NLP相关的钻研广大,不过产品即拘留并无多,我也未是研讨是的,不知瓶颈在何处。不过想象未来互联网信息大量底结构化、语义化,那时的查找频率绝对比今翻番啊~

语义理解
斯时开的并无好,但就发生siri等一律宗语音助手了,也发生watson这种逆天的专家系统了。继续研究下,虽然去人工智能还相互去特别远,但是去真正好用的智能帮手估计也未远了。那时在方式会重新改变。即使举行不顶这般玄乎,大大改善搜索体验是大势所趋能够做到的~搜索引擎公司以当下方面的投入肯定会是远大的。

机械翻译
其一不多说了,目前径直于缓前行中~我们早已能够从中获益,看越南网页,看阿拉伯网页,猜个大概意思没问题了。此外,口语级别之简约句的翻译时底法力已颇好了,潜在的商业价值也是惊天动地的。

可是……在可预见的濒临几年,对于各级大公司提高再发生帮衬的估量要机器上及数码挖掘,以上自YY的那些目前差不多还在实验室里……目前能吃商家带来实际价值之又多还是引进系统、顾客喜爱好分析、股票走势预测等机器上与数码挖掘以~

 

 

 

 

 

本国内IT互联网公司大部分NLP和IR人才为BAT公司占据,导致市场上之妙NLP人才最少,因此不少创业企业欠这上头的姿色。从人工智能进化之来头来拘禁,我以为这是一个不利的领域,可以吗之斗争终身。

学位都是浮云,关键要实力。

NLP几乎是互联网机器学习业务的必备技能。因为互联网内容最特别比重的是文本。NLP挺好找工作之,但是最为好机器上之情节学都一点,毕竟实际工作内容是成千上万档次的,所以NLP是比较必要但非充分。
根据提交就是深感工资不太给力
,还有这东西不好创业要接私活。但是就上班打工做做要比好的30~6,70万

nlp人才非常短,这个不像是android,c#这种东西三独月好塑造出来的。机器上就看似工作就再热门,也非会见起极端多的竞争者,这个不是北大青鸟可以塑造出来的。普通的开发校招8-15k,nlp能给到15-20k,工作几乎年之再能够以到40w-100w的年薪。找就上头的行事可错过NLPJob看看

即总的来说,nlp的口在境内找工作机遇比窄,主要是BAT特别是百度比较多,然后美图,新浪,搜狗,乐视,360这些公司里发出局部,再不怕是有前进成熟的创业公司零零星星有一些团组织。作为一个猎头,经常会面与在湾区之
data scientist
聊了,他们或者期待在那边多用几年,将中心建设祖国的皇皇中国梦又按一自制。

Fintech 中国50赛企业 数库科技上海公司
招聘自然语言处理工程师:自然语言处理工程师岗位要求:1.语料库掩护;2.文化图谱构建和保护。岗位要求:1.熟悉Python或Java开发;2.产生自然语言处理相关经验,如分词、词性标注、实体识别、情感分析;3.生知图谱构建相关经历;4.耳熟能详机器上算法。有意者请发简历及hr@chinascope.com,欢迎您的参加!

 

作者:刘知远
先期说结论:哈工大之SCIR实验室绝对是国内首屈一指的顶尖NLP实验室。</b></p><p>学术方面:</p><noscript><img
src=\"https://pic1.zhimg.com/v2-b803f387266502f6f57ffbb9521027c4\_b.png\\&quot;
data-rawwidth=\"389\" data-rawheight=\"192\"
class=\"content_image\"
width=\"389\"></noscript><img
src=\"//zhstatic.zhihu.com/assets/zhihu/ztext/whitedot.jpg\"
data-rawwidth=\"389\" data-rawheight=\"192\"
class=\"content_image lazy\" width=\"389\"
data-actualsrc=\"https://pic1.zhimg.com/v2-b803f387266502f6f57ffbb9521027c4\_b.png\\&quot;&gt;&lt;br&gt;&lt;p&gt;刘挺教授在google
scholar上究竟引用为6529破,2012年来一头引用4114糟,<b>目前我还不知情国内谁NLP方向的教授的引用量比他重高</b>,如产生知友发现,烦请告知。</p><br><noscript><img
src=\"https://pic4.zhimg.com/v2-be972138cf4abf28b65351d5a004e21f\_b.png\\&quot;
data-rawwidth=\"693\" data-rawheight=\"565\"
class=\"origin_image zh-lightbox-thumb\"
width=\"693\"
data-original=\"https://pic4.zhimg.com/v2-be972138cf4abf28b65351d5a004e21f\_r.png\\&quot;&gt;&lt;/noscript&gt;&lt;img
src=\"//zhstatic.zhihu.com/assets/zhihu/ztext/whitedot.jpg\"
data-rawwidth=\"693\" data-rawheight=\"565\"
class=\"origin_image zh-lightbox-thumb lazy\"
width=\"693\"
data-original=\"https://pic4.zhimg.com/v2-be972138cf4abf28b65351d5a004e21f\_r.png\\&quot;
data-actualsrc=\"https://pic4.zhimg.com/v2-be972138cf4abf28b65351d5a004e21f\_b.png\\&quot;&gt;&lt;p&gt;据剑桥大学高级研究员
Marek Rei 统计(<a
href=\"https://link.zhihu.com/?target=http%3A//www.marekrei.com/blog/nlp-and-ml-publications-looking-back-at-2016/\\&quot;
class=\" wrap external\" target=\"_blank\"
rel=\"nofollow noreferrer\">NLP and ML Publications –
Looking Back at 2016 – Marek Rei<i
class=\"icon-external\"></i></a>),2016年,<b>刘挺教授的顶会论文总数据在业界第九,第六凡是神一样的Bengio。</b>(注:本人未了解这些会具体内容,若发生笑的处在,还呼吁轻喷)</p><p>工业界方面:</p><p>百度:百度副总裁,<b>AI技术平台系统总主任王海峰博士</b>毕业于哈工大,目前凡是SCIR实验室的兼职教授,王海峰博士是ACL50几近年历史上唯一出任了主席之炎黄子孙。据不净统计,该实验室在百度的毕业生约为20号,其中管李彦宏的开门弟子(博士后),百度高级研究院赵世奇博士等。</p><p>腾讯:SCIR实验室是<b>腾讯AL
Lab最早的同台实验室</b>,<b>腾讯AI平台部NLP技术中心契合总监周连强</b>就是SCIR实验室07层的硕士生,刘挺教授要<b>腾讯AI
Lab特聘学术顾问</b>(<a
href=\"https://link.zhihu.com/?target=http%3A//ai.tencent.com/ailab/%25E8%2585%25BE%25E8%25AE%25AF-%25E5%2593%2588%25E5%25B0%2594%25E6%25BB%25A8%25E5%25B7%25A5%25E4%25B8%259A%25E5%25A4%25A7%25E5%25AD%25A6%25E8%2581%2594%25E5%2590%2588%25E5%25AE%259E%25E9%25AA%258C%25E5%25AE%25A4.html\\&quot;
class=\" wrap external\" target=\"_blank\"
rel=\"nofollow noreferrer\">腾讯 AI Lab –
腾讯人工智能实验室官网<i
class=\"icon-external\"></i></a>)。据不完全统计,该实验室在腾讯的毕业生约为25个。</p><p>阿里:<b>自然语言处理部总监郎君</b>为SCIR实验室的06层博士生。据不了统计,该实验室在阿里的毕业生约为10个。</p><p>微软:微软跟国内的过剩大学有伙同实验室
(详见<a
href=\"https://link.zhihu.com/?target=http%3A//www.msra.cn/zh-cn/connections/jointlab/default.aspx\\&quot;
class=\" wrap external\" target=\"_blank\"
rel=\"nofollow noreferrer\">联合实验室 –
微软亚洲研究院<i
class=\"icon-external\"></i></a>),但NLP方向的联合实验室就发生清华和哈工大点儿下,在微软亚洲研究院的门户网站上,<b>共列出研究人口11称,其中起5丁是于哈工大得博士学位。</b></p><p>(注:微软哈工大一块实验室是哈工大机械智能实验室,此实验室并非事先说之SCIR实验室,该实验室有著名的李生教授坐镇,其官网也
<a
href=\"https://link.zhihu.com/?target=http%3A//mitlab.hit.edu.cn\\&quot;
class=\" external\" target=\"_blank\"
rel=\"nofollow noreferrer\"><span
class=\"invisible\">http://&lt;/span&gt;&lt;span
class=\"visible\">mitlab.hit.edu.cn</span><span
class=\"invisible\"></span><i
class=\"icon-external\"></i></a>
,由于鄙人不了解该实验室,恕不详细介绍,知友可自行了解。)</p><p>科大讯飞:科大讯飞是亚太地区最要命的口音上市企业,在智能语音技术之几近个领域都处于业界领先地位。科大讯飞与哈工大起语言认知计算并实验室(<a
href=\"https://link.zhihu.com/?target=http%3A//ir.hit.edu.cn/1348.html\\&quot;
class=\" wrap external\" target=\"_blank\"
rel=\"nofollow
noreferrer\">哈尔滨工业大学社会计算和信寻找研究中心 –
理解语言,认知社会 &amp;amp;quot;
科大讯飞与哈工大联合创办语言认知计算并实验室<i
class=\"icon-external\"></i></a>),<b>刘挺担任实验室主任。</b></p><p>SCIR实验室官方网站:<a
href=\"https://link.zhihu.com/?target=http%3A//ir.hit.edu.cn/\\&quot;
class=\" wrap external\" target=\"_blank\"
rel=\"nofollow
noreferrer\">哈尔滨工业大学社会计算和信息寻找研究中心 –
理解语言,认知社会<i
class=\"icon-external\"></i></a></p><p>此外,顺便再说一样词,国内大部分一品大学的研究生还是三年或个别年半,哈工大而简单年哦~</p><p>两年而进无了吃亏,两年而买无了上当~</p><p>而且SCIR实验室的老师还超级nice的~</p><p>欢迎各位来SCIR!</p><p>希望刘教授收留我
(ಥ﹏ಥ)
</p><p>评论区有询问实验室招生情况的,这个自己为非是特地询问,请为ir实验室的书记李冰咨询,她底信箱请去实验室网站及寻找

 

 

国内自然语言处理学者众多,很不便一一枚举。我虽概括罗列一下咱系的几个相关老师,方便大家了解。都是自个儿无写的,没有字斟句酌,排名呢不分开次,如产生脱和错误多要指出,不要怪。:)孙茂松教授:早年为汉语分词研究成果闻名,计算机系人智所自然语言处理课题组(THUNLP)的学带头人,是境内自然语言处理唯一的一级学会、中国中文信息学会副理事长,研究兴趣比较宽泛,涵盖中文信息处理、社会计算、信息寻找等。马少平教授:计算机有关人聪明所信息寻找课题组(THUIR)的学术带头人,是中国人工智能学会副理事长,研究兴趣偏重搜索引擎,为本科生上《人工智能导论》必修课,深受欢迎。朱小燕教授:计算机有关智能技术及系统国家要实验室(即人智所)主任,信息获取课题组的学问带头人,研究兴趣偏重问答系统、情感分析、文档摘要等。李涓子教授:计算机有关软件所知工程课题组的学术带头人,研究兴趣偏重知识图谱和学识工程。研制生产的XLORE是国内屈指可数的常见知识图谱。唐杰副教授:数据挖掘领域的华年学者,主要研究社会网络分析、社会计算和数量挖掘,也会召开有自然语言处理研究。刘洋副教授:自然语言处理领域的妙龄学者,主要研究统计机器翻译。我有幸同刘洋先生一个办公,非常崇拜他的学问品味、工作态度同人。张敏副教授:信息寻找领域的华年学者,主要研究推荐系统跟感情分析。是信搜索和数挖掘的头面会议WSDM
2017之PC主席。刘奕群副教授:信息寻找领域的青春学者,主要研究搜索引擎用户的所作所为建模,近年来用眼动手段进行研究工作,得到比较多之学关注。是信息寻找顶级会议SIGIR
2018的PC主席。朱军副教授:机器上世界的青春学者,主要研究统计机器上,也会以自然语言处理和文化获取等方面举行有钻,例如比较著名的StatSnowball,MedLDA等。黄民烈副教授:自然语言处理领域的青年学者,过去重中之重研究情感分析、文档摘要,近年来开始以智能问答和人机对话发力。贾珈副教授:多媒体处理领域的华年学者,早期研究语音,现在讲究社会媒体之多媒体处理,进行情感计算等研究,研制了累累不行有趣的利用(如服装加配推荐等)。喻纯可研究员:人机交互领域的青年学者,研究面向文本输入等方面的互相设计,例如如何筹划更省事的输入法等。从咱自然语言处理领域来拘禁创意非常风趣、脑洞深怪,例如在VR中通过头之摇晃输入文本。刘知远副教授(也不怕是自己):早年研究主要词抽取和社会标签推荐,现在重视知识图谱、表示学习与社会计算。值得一提的凡,从上年起我们系开始执行人事制度改革,采取国际的Tenure
Track(教学研究系列)制度,进入该系列之师都有征博士生的资格,极大的增高了青年教师的生产力。因此,以上绝大部分师资都有征资格,欢迎对这些动向感兴趣之校友关系他们。如果来尚想了解之信息,可以评报我,我尽可能提供或转告相关老师。:)

 

作者:鱼小贱

说一下投机听说了之比牛的社要个体吧,可能无周全,还请求见谅。(排名不分次)学术界清华大学自语言处理以及人文计算实验室(欢迎来到清华大学当然语言处理与社会人文计算实验室):清华计算机有关前院长孙茂松教授是他俩的leader北京大学计算语言学教育部重点实验室(北京大学计算语言学教育部重点实验室):是北大计算机课比较起实力的一个切磋方向有中科院计算所自然语言处理研究组(欢迎来到中科院计算所自然语言处理组网站):尤其特长于机器翻译领域,组长为刘群研究员,大家常利用的国语分词工具ICTCLAS就是她们与开发的哈尔滨工业大学:实力为格外强,实验室查看了瞬间深感好乱,主要出:智能技术以及自然语言处理研究室(ITNLP)、哈工大语言语音教育部-微软重点实验室(哈工大语言语音教育部)、(哈尔滨工业大学社会计算和信息寻找研究为主)哈尔滨工业大学社会计算和信息寻找研究为主;现任中文信息学会理事长李生教授就是是哈工大之、下面提到的现任ACL主席王海峰先生为是哈工大毕业的;而且值得一提的凡,哈工大则处在最东北地区,但是与工业界,像微软、百度、科大讯飞等还出正在紧密的关系。工业界像老牌搜索引擎公司以这些点该还发出正当之累搜狗公司百度公司:现任副总裁王海峰先生是自然语言处理领域世界上影响力最可怜、也最好具有活力的国际学术组织ACL(Association
for Computational
Linguistics)50基本上年历史上唯一的炎黄子孙主席。微软亚洲研究院科大讯飞:国内正式做中文语音、文字产品研发的信用社,是眼前境内极酷的智能语音技术提供商。

 

国内NLP三特别中心:清华、哈工大、中科院(自动化所,计算所)。另外一些NLP比较强之大学:复旦大学黄萱菁、邱锡鹏组,苏州大学周国栋、朱巧明组,北京大学李素建组,东北大学朱靖波组相当。

 

 

http://www.cs.columbia.edu/~mcollins/notes-spring2013.html

https://github.com/ZixuanKe/Ch2r\_ood\_understanding

https://www.coursera.org/browse?languages=en&source=deprecated\_spark\_cdp

 

 

 

 

 

 

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注