聯邦學習中的non-IID數據

關于non-IID數據

independent and identically distributed(IID)獨立同漫衍,指的是全體樣本服從某一漫衍,而每次獲得的樣本都是獨登时從這個漫衍上采樣獲得的。

獨立:指的是每次采样之间不会有关系。例如多次投骰子,第一次投和第十次投之间没有甚么关系;相较之下,呈现乌云与下雨就非獨立。

同漫衍:指的是隨機變量服從統一漫衍。仍以骰子舉例,若骰子質量漫衍不會變動,則每次投的結果將會呈現必然的規律;相較之下若采取作弊骰子(可以人爲改變某一真个質量),則會破壞這一性質。

non-IID自然是以上概念的否命题(獨立和同漫衍肆意不满足便可)。

聯邦學習中的non-IID數據分类

在真實世界中數據经常會因爲各種各樣的启事此呈現non-IID的特点(例如某地雨水天氣多,生鏽故障的樣本會更多)。在機器學習領域,我們无妨從輸入空間$X$與輸出空間$Y$來考慮。

假設樣本獨立但分歧漫衍

樣本滿足貝葉斯公式:$P(X,Y)=P(X)P(Y|X)$。對于客戶端$i$與$j$,考慮$P_i(X)$($i$輸入漫衍)、$P_i(Y|X)$($i$標簽漫衍)與$P_j(X)$($j$輸入漫衍)、$P_j(Y|X)$($j$輸入漫衍)。

  1. 若$P_i(X)\ne P_j(X)$,且$P_i(Y|X)=P_j(Y|X)$:客户端输入不不异,但输出不异。例如分歧国度对汽车行驶标的目标的规定分歧,但都需要遵循不异的交通法则(跟从旌旗灯号灯)。
  2. 若$P_i(X)= P_j(X)$,且$P_i(Y|X)\ne P_j(Y|X)$:客户端输入不异,但输出不不异。例如分歧地区对交通律例的定义分歧,有些地区红灯必须遏制,而有些地区可以在确认安然的环境下通行。
  3. 若$P_i(X)\ne P_j(X)$,且$P_i(Y|X)\ne P_j(Y|X)$:客户端输入输出均不不异。此为以上两种环境的组合,例如行驶标的目标与交通律例均不不异。

若$P_i(X)=P_j(X)$,且$P_i(Y|X)=P_j(Y|X)$:與假設不符(這是IID)。

假設樣本不獨立但同漫衍

对全部样本而言考虑$X\sim B(n,p)$,那么如有$Y=(n-X)\sim B(n,p)$则输入与输出不獨立但同漫衍。例如抛$n$次硬币$x$次正面朝上的概率与$n-x$次背面朝上的概率。

放在聯邦學習的角度,可以理解为$P_i(X)$与$P_j(X)$不獨立,而$P_i(Y|X)=P_j(Y|X)$从命同一漫衍。例如银行中用户数据异构但用户大年夜多一样。

假設樣本不獨立且分歧漫衍

比如讀paper與掉落頭發的關系(?

再從樣本特点上分類

屬性傾斜

屬性傾斜从客户端样本属性堆叠程度解缆考虑,分为:非堆叠屬性傾斜(Non-overlapping Attribute Skew)、部分堆叠屬性傾斜(Partial Overlapping Attribute Skew)与完全堆叠屬性傾斜(Full Overlapping Attribute Skew)。

非堆叠屬性傾斜

客户真个属性完全没有堆叠(例如$k_1$具有属性$A,B$,$k_2$具有属性$C,D$),但揭示强相干性,此时可以视为纵向聯邦學習(Vertical FL)。

部分堆叠屬性傾斜

客戶真个屬性部分重疊(例如$k_1$擁有屬性$A,B$,$k_2$擁有屬性$B,D$)。

完全堆叠屬性傾斜

客戶真个屬性部分重疊(例如$k_1$擁有屬性$A,B$,$k_2$也擁有屬性$A,B$)。

標簽傾斜

標簽漫衍傾斜

標簽偏好傾斜

客戶端對樣本的偏好分歧(對于同一樣本,客戶端$A$喜歡,$B$不喜歡)。

時間傾斜

隨著時間的推移,客戶真个數據會有所傾斜(可參考聯邦增量學習)。

其它

属性&標簽傾斜

質量傾斜


Ref

  • Non-IID data and Continual Learning processes in Federated Learning: A long road ahead
  • Federated Learning on Non-IID Data: A Survey
  • Federated Visual Classification with Real-World Data Distribution
  • 《机械进修》 - 周志华著
利用 Hugo 構建
主題 StackJimmy 設計
xxfseo.com