NLP

经典算法ELMo、GPT、Bert、GPT-2

在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了很好的提升,也十分吸引大家的眼球。就此,我将最近看的一些相关论文和博文进行总结,选取了几个代表性模型(包括ELMo ,OpenAI GPT 和BERT)和大家一起学习分享。         一个对文本有效的抽象方法可以减轻NLP对监督学习的依赖。大多数深度学习方法需要大量的人工标注信息,这限制了在很多领域的应用。在这些情况下,利用来未标记数据的语言信息的模型来产生更多的注释,这可能既耗时又昂贵。此外,即使在可获得相当大的监督的情况下,以无人监督的方式学习良好的表示也可以提供显著的性能提升。到目前为止,最引人注目的证据是广泛使用预训练词嵌入来提高一系列NLP任务的性能。一、ELMo1.1 ELMo的优势(1)ELMo能够学习到词汇用法的复杂性,比如语法、语义。(2)

  • yuting
29 min read
NLP

Transformer详解

感谢各位大佬的博客分享,我在你们这里学到了许多,下面我就将结合大佬们的分享来总结一下我的学习内容。下面我们先介绍seq2seq,attention,然后进入正题,transformer。一、seq2seq模型1. 1 seq2seq模型简介        所谓Seq2Seq(Sequence to Sequence), 就是一种能够根据给定的序列,通过特定的方法生成另一个序列的方法。        举个简单的例子,当我们使用机器翻译时:输入(Hello) --->输出(你好)。再比如在人机对话中,我们问机器:“你是谁?”,机器会返回答案“我是某某某”。机器翻译、人机对话、聊天机器人等等,

  • yuting
21 min read
舆情分析

舆情事件发展趋势预测

事情发展趋势预测,简单来讲,就是对正在发生的事件,根据它现已产生的数据(即历史数据)来预测它接下来可能会产生的数据(即未来发展趋势)。在互联网科技高速发展的今天,社交网络上的热门话题可在短时间内大范围扩散,甚至形成重大的舆情事件,需政府部门或相关责任人及时应对解决。因此尽早预测社交网络舆情事件的发展趋势具有很重要的现实意义。我们对此研究的主要内容包括:1)与应用系统(鹰击、鹰眼、鹰领)相结合2)预测模型研究:ARIMA模型、ceemdan+lstm模型3)上线效果测试4)下一步计划1. 问题与系统结合        社交网络中事件的传播热度影响因素众多,很难预测其最终的传播热度。然而,通过分析研究者发现社交网络事件的历史热度和未来热度存在很强的相关性。         一段时间内事件的热度:对于鹰眼系统,热度为该段时间内各个媒体关于该事件的网页的总数,

  • gengxueqin
  • yuting
11 min read
深度学习

第三章 注意力机制(Attention)

注意力机制最早是在视觉图像领域提出,但真正得到广大关注是从Google mind团队发表的论文开始,使用attention机制在RNN模型上来进行图像分类。随后,Bahdanau等人使用attention机制在机器翻译任务上将翻译和对齐同时进行,注意力机制开始应用到自然语言处理领域。0 注意力机制的主要学习内容1)注意力机制的基本理论2)注意力机制的运用1 基本理论         注意力机制模型的构建是受到人类视觉的启发,当在看一样物体时,其实并不是一次性就把该物体的各个方面都看到,大多是根据自身需求,对该物体各个位置的注意力分布是不一样的。在CNN和RNN中,提取出的特征都是赋予相同的权重,因此重要特征没有得到重视,而Attention这种思想可以对特征进行加权处理,加强重要特征对分类的作用,具体结构如下图1所示。图1 attention机制结构2 注意力机制的总结与应用         Attention的出现就是为了两个目的:1. 减小处理高维输入数据的计算负担,通过结构化的选取输入的子集,降低数据维度。2. “去伪存真”

  • yuting
3 min read
深度学习

第二章 循环神经网络

循环神经网络(RNN)是一种特殊的网络结构,特殊在于同一隐藏层的节点之间是有连接的。还有个最大的特点是在于将时间序列思想引入到神经网络构建中,通过时间关系不断加强数据间的影响关系。结合过去的经验记忆和现正在学习的知识,融合贯通得到现在的认知。也就是说RNN模型不仅考虑到当前的输入,还赋予网络对过去的记忆,并且隐藏层的输入不仅包括当前时刻的输入,还需要加入上一时刻隐藏层的输出。0 循环神经网络的主要学习内容1)循环神经网络的基本结构2)循环神经网络的改进结构3)循环神经网络的应用1循环神经网络的基本结构         RNN可有多个隐藏层,隐藏层可不断的循环和递归信息。例如,在双层循环神经网络中,数据进入第一隐藏层得到的输出以一定的权重进入第二隐藏层,然后最后一层的输出反过来通过损失函数,反向调整各层的连接权重,利用梯度下降方法寻找最优化参数。        RNN网络结构大致是由输入层、隐藏层、输出层构成。如图1.1所示:图1.1 RNN网络结构

  • yuting
8 min read
深度学习

第一章 卷积神经网络

卷积神经网络是源于人工神经网络的深度学习方法,在深度学习中是极具代表性的网络结构。CNN相较于传统的算法避免了繁琐的前期处理(人工提取训练样本特征等),可以直接作用于原始的训练样本上(如图片、语音、文本等)。0 卷积神经网络的主要学习内容1)卷积神经网络的基本结构2)卷积神经网络的特点3)卷积神经网络参数更新4)卷积神经网络的应用1 卷积神经网络的基本结构        卷积神经网络的基本结构包含输入层、卷积层、池化层、全连接层和输出层。卷积层和池化层都能实现将特征映射降维,即特征提取。为了提取较多的特征,我们将会自行设置卷积层中卷积核的个数,因此,特征映射的数量往往会比较多。卷积得到的特征进入池化降维,然后展开并排列成为一个向量,这就是自动提取的特征向量,再进入分类器。分类器通常由一个全连接前馈神经网络构成,特征向量作为该分类器的输入,输出为分类器以最大概率判定该特征样本的类别。卷积神经网络的结构,

  • yuting
10 min read
机器学习

十六 关联规则

关联规则是一种基于规则的机器学习算法,利用一些度量指标来分辨数据中存在的强规则,也就是说,关联规则挖掘是用于知识发现而非预测,所以是属于无监督学习。0 关联规则的主要学习内容1)关联规则的基本思想2)关联规则的度量指标3)关联规则的应用场景1关联规则定义         “啤酒与尿布”的例子相信很多人都听说过吧,故事是这样的:在一家超市中,人们发现了一个特别有趣的现象,尿布与啤酒这两种风马牛不相及的东西居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的销量大幅增加,为什么有这么奇怪现象呢?看了资料后发现是因为美国丈夫回家前买尿布时顺手买了自己喜欢的啤酒,所以发生了这么有趣的事情。这就存在一种关联性,而我们今天就来分析数据集间的有趣的关联。下面我们根据表来解释关于关联分析中的一些定义:1. 事务:每一条交易称为一个事务,如表,有十个交易号,代表有10条交易,即十条事务。2. 项:交易的每一个物品称为一个项,

  • yuting
9 min read
机器学习

十五、主成分分析

主成分分析(PCA)是利用降维的思想,在损失很小信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能,也提高了分析的效率。0主成分分析的主要学习内容1)主成分分析的基本思想2)主成分分析的基本理论3)主成分分析步骤4)主成分分析的应用场景1主成分分析的基本思想        在对某一事物进行实证研究时,为了更全面、准确地反映事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量,这也就产生了下面这些问题:(1)为了避免遗漏重要的信息而考虑尽可能多的指标;(2)指标太多增加问题的复杂性,同时由于各指标均是对同一个事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。        基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。由于研究某个问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,

  • yuting
7 min read
机器学习

十四、EM算法

EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望;M步,求极大,所以这一算法称为期望极大算法,简称EM算法。0 EM算法主要学习内容1) EM算法的作用2) EM算法理论3) EM算法应用1 EM算法的作用         在概率模型中,若都是观察变量,也就是给定数据,可以直接用极大似然估计方法,或贝叶斯估计模型参数。但当模型含有隐变量呢?这些方法还适用吗?这时是不能简单地使用这些估计方法了,而EM算法就是我们今天要讲的解决含有隐变量的概率模型参数的极大似然估计法。例子[1]:     这个问题不能直接求解,只能通过迭代的方法求解,而EM算法就是可以用于求解这个问题的一种迭代算法,下面针对以上问题给出EM算法[1]。2

  • yuting
4 min read
机器学习

十三、K均值聚类

k均值聚类算法,是一种无监督算法,该算法的主要作用是将相似的样本自动归到一个类别中。所谓的无监督算法,就是输入样本没有对应的输出或标签,而聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇。k均值聚类简单易懂而且非常有效,但是确定合理的k值和k个初始类簇中心点对于聚类效果的好坏有很大的影响。0 k均值聚类算法的主要学习内容1)基本原理2)k的选择及初始质心3)k均值的优缺点1  k均值聚类的基本原理1.1  k均值聚类算法描述        k均值聚类算法中的一种,其中k表示类别数,是一种通过均值对数据点进行聚类的算法。适用于大样本,但需要事先指定分为k个类。     原理:从n个数据对象任意选择k个对象作为初始聚类中心,对剩余的其他对象,则根据它们与k个聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;再计算每个所获的新的聚类中心(该聚类中所有对象的均值);不断重复这一过程,

  • yuting
9 min read
机器学习

十二、条件随机场

条件随机场(CRF)是给定一组输入随机变量条件下,另一组输出随机变量的条件概率分布概率,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题。在这里,我们研究的是线性链条件随机场在标注问题的应用。0条件随机场的主要学习内容1)概率无向图模型2)条件随机场的定义与形式3)条件随机场的概率计算问题4)条件随机场的学习算法5)条件随机场的预测算法1前期准备工作        首先,我们来看看什么是随机场。随机场是由若干个位置组成的整体,当给每一个位置中按照某种分布随机赋予一个值之后,其全体就叫做随机场。举例说明一下:假如我们有一句话,共十个词需要进行词性标注,这十个词每个词的词性我们可以在已知的词性集合(名词,动词,...)中去选择。当我们为每个词选好词性后,这就形成了一个随机场。        马尔可夫随机场:简单的说,就是假设随机场中某个位置的赋值仅仅与和它相邻的位置的赋值有关,和与其不相邻的位置的赋值不相关。比如第三个词的词性除与自己本身的位置有关外,

  • yuting
11 min read
湘ICP备14008278号-9