查看原文
其他

ICLR 2024 | Twin-sight:标签稀缺下的联邦模型鲁棒训练范式

让创新获得认可 PaperWeekly
2024-08-23


©作者 | 杨智钦单位 | TMLR group, HKBU来源 | 将门创投

本文提出了一种新型联邦半监督学习训练范式,Twin-sight。首先分析了现有联邦半监督学习由于单一模型下的多目标函数优化,导致模型更新时的梯度冲突,降低了联邦学习系统对无标签知识的有效利用。基于孪生视角的 Twin-sight 双模型训练范式,将多目标函数问题解耦,从根本上杜绝了梯度冲突的发生。大量的实验证明,Twin-sight 有效提升了联邦半监督学习的性能。



论文标题:

Robust Training of Federated Models with Extremely Label Deficiency

论文地址:

https://arxiv.org/abs/2402.14430

代码地址:

https://github.com/visitworld123/Twin-sight


引言

在联邦学习的分布式环境中,由于客户端硬件资源的限制以及数据标注的高昂成本,客户端往往无法对其拥有的全部数据进行标注,这导致联邦系统难以充分发挥其性能优势,同时也造成了对收集到数据的一种浪费。
由此可见,标签稀缺一直是联邦学习场景中普遍存在的关键问题,联邦半监督学习(Federated Semi-supervised Learning, FSSL)中一系列工作都致力于解决这一问题。其中很多工作将现成的半监督学习和联邦学习结合起来,以充分发挥两种方法各自的优势。这些方法通常联合多个客户端,使用有标签或无标签数据共同训练一个单一模型 [1]。
传统半监督学习中有标签和无标签数据都在同一个设备上,而联邦场景下,不同的客户端拥有的标注能力不同,导致了不同客户端出现了不同程度的标签稀缺问题。而在同一个全局模型上,聚合不同目标函数学习得到的客户端模型,会使更新模型的梯度方向发生冲突。因此需要针对联邦学习这一分布式特性,设计特有的半监督学习框架,利用不同客户端的无标签数据。


研究动机

在 FSSL 场景中,我们假设个客户端的数据集是完全被标注过的,而剩余的个客户端的数据集则没有任何数据标注信息。联邦系统所有标签数据,全部由有数据标签的个客户端的数据组成,而则全部由剩余的个没有标注的客户端数据构成。
在现有 FSSL 算法中,在有标签数据上的目标函数为交叉熵或其他有监督损失函数,同时,一些 FSSL 方法提出利用传统的半监督学习方法,例如伪标签或教师平均算法,配合数据增强函数来充分利用无标签数据。这些方法在无标签数据上的目标函数记作。因此,FL 系统的全局模型目标函数变为了:

▲ 图1. 不同目标函数优化过程的梯度相似性

由于客户端不同的目标函数,在聚合时也可能会造成一种新的"客户端漂移"的状况,由公式 (3) 可以看到,这种偏移状况主要是由于用于聚合全局模型的来自不同客户端的模型,它们各自的优化目标函数各不相同,进而不同模型更新梯度产生了冲突所造成的。


为了验证这种现象,计算了不同目标函数梯度的相似性,梯度相似性为负时,证明梯度之间存在冲突,干扰了模型向最优方向更新,结果如图 1。



方法

3.1 Twin-sight模型

Twin-sight由两个模型组成,其中一个是的无监督模型和参数化的有监督模型。无监督模型通过实例分类[2]来学习对下游任务有意义的表征,所有客户端上的无监督模型都相同,其目标函数为:


其中是温度系数,代表数据嵌入表示,经过正则化后的内积。它不仅期望分出数据所属的粗粒度类别,还将每个样本都当作一个类,期望把每一个数据样本都区分开。
有监督模型在有标签数据集的客户端上通过交叉熵损失函数训练,然而客户端集合中无法接触到有标签数据。因此,为了避免在有监督模型上训练目标函数不一致,引入了代理损失来训练中客户端的有监督模型,因此全局有监督模型的优化函数为:
其中代理损失用通过伪标签计算的交叉熵损失来计算, 而伪标签则是通过有监督模型在无标签数据上推理得到的,因此代理损失为:
其中是一个指示函数,选择给定向量中的最大值,而是选择具有高置信度伪标签的阈值,是一个超参数。
3.2 Twin-sight交互
在客户端本地单独训练两个模型并不能有效提升 FSSL 的性能,受到分布对齐的启发 [3],在不同的特征空间中,相同数据的特征(或嵌入)应保持相同的邻域关系。因此引入 Twin-sight 交互,该项期望保持通过有监督模型和无监督模型提取的数据特征之间的邻域关系,以达到互相校准的目的,可以被定义为:
其中是一种特定的度量标准,用来衡量两个矩阵之间的差异,则构建了数据之间的邻域关系。在本文中,使用格拉姆矩阵来量化在一个小批量数据中的邻域关系,度量标准则均方损失来衡量。在此也期望激发更多研究者尝试更加精准的邻域关系度量和交互方式。
Twin-sight 的框架图如图 1 所示,将 Twin-sight 模型以及 Twin-sight 交互组合在一起,通过 FL 方式共同训练两个模型。因此,在本地数据全部有标签的客户端上,训练方式可以表示为:
相似的,在本地数据全部没有标签的客户端上,训练则为 :


实验结果与分析

为了验证 Twin-sight 有效性,我们在四个广泛使用的数据集 CIFAR-10、CIFAR-100、FMNIST 和 SVHN 上进行了实验,并和现有的 SOTA 基线算法进行了比较,结果如表 1 和表 2,加粗的结果为最优算法,下划线结果为次优。
更多消融实验也验证了 Twin-sight 的有效性,我们还实验了不同无监督算法对 Twin-sight 的性能影响。
以及不同无数据标签客户端比例下,Twin-sight 是否能稳定超过基线算法的实验。
不同通信轮次对 FSSL 算法及 Twin-sight 的影响。


结论与展望

本文提出了 Twin-sight 模型训练范式,该方法能够有效提升在 FSSL 中的性能主要是由于:1)双模型下的优化目标解耦,将学习目标解耦为两个模型,这样做避免了梯度冲突。2)数据、模型和目标函数的一致性,这种一致性确保了模型能够在整个联邦学习系统中协同工作。
但是 Twin-sight依 旧引入了额外模型来辅助,因此期望未来能研究出内存友好的双模型范式,来解决这些问题。与此同时,能够有效应对多种 FSSL 场景的方法还不多,期望未来能够研究出适应 FSSL 多场景泛化和鲁棒的方法。
篇幅原因,本文忽略了诸多细节,更多细节可以在原文中找到。感谢阅读。

参考文献


[1] Liang X, et al. Rscfed:随机抽样共识联邦半监督学习.在 CVPR 中,2022 年。
[2] Mitrovic J, et al. 通过不变因果机制进行表征学习。在ICLR,2020年。
[3] Zhang Y, et al. Causaladv:Adversarial robustness through the perspective of causality.在 ICLR,2022 年。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·


继续滑动看下一个
PaperWeekly
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存