联邦学习(Federated Learning)

一、应用场景        从以上两个场景可以看出当前机器学习领域对于知识共享、隐私保护两大需求所面临的挑战:数据量越大、越全面,训练出的模型效果越佳,但单个用户设备数据量小,训练出来的模型效果不佳,故服务器需集合大量用户数据来训练模型;服务器要集合用户数据,需每个设备进行数据共享,服务器需和用户设备频繁通信,这样易造成数据泄露,想要保护隐私,本地数据不能离开设备。        要意识到这样一个现状:欧美国家的法律对用户隐私保护非常严格,但我国的个人信息获取渠道泛滥,网站/app均需获取个人信息,但人们不以为然。因此,面对以上两个场景,更智能or更隐私之间怎么选择呢?能否两者兼得呢?这时联邦学习来了,他的学习目的便是训练出好模型的同时能保护隐私。在介绍联邦学习前,首先得了解下分布式机器学习,因为联邦学习的工作思路就是基于分布式机器学习拓展开来的。二、分布式机器学习

  • wujunyang
20 min read
NLP

自然场景文本识别

这次分享的是场景更丰富、情形更复杂的自然场景ocr。核心算法将分为两部分介绍——文本检测和文本识别。不同于传统ocr,自然场景ocr的特点在于“场景”,我们需将文本从复杂的图片场景中独立出来,剔除场景的干扰,才能更快、更准地实现文本识别。故文本检测和文本识别是自然场景ocr端到端系统中两个必不可少的步骤。下面将由近期的ocr学习成果展开介绍。一、文本检测算法1.1 PSENet简介         现阶段的文本检测算法主要分为两大类:基于矩形边界盒与基于像素实例分割。但这两类算法面临着两大挑战:(1)基于矩形边界盒的文本检测方法,很难将文本完全封闭在矩形中,即很难处理任意形状的文本。(2)大多数基于像素实例分割的算法很难将彼此接近的文本实例分开。         为了解决上述问题,南京大学与南京理工大学提出了PSENet(渐进尺度扩展网络),是一种改良版的实例分割的算法。下面对三个典型的文本检测算法进行对比分析,这三个算法分别是:ctpn,

  • wujunyang
15 min read
湘ICP备14008278号-9