根据signal neighbor选择环境的定义,本文引入了GDPNet模型,其中包括两个阶段:信号邻居选择(signal neighbor selection)和表示学习(representation learning)。
-
确定neighborhood顺序:
本文使用链式法则去分解signal neighbor selection分解为一个顺序的决策过程。然而这需要一个顺序去执行决定。在这里涉及了一种高级策略去学习一个顺序[u1,...,u∣N(v)∣]并用于策略函数πθ做出action。
本文为每一个邻居定义了一个regret score l去帮助确定顺序。邻居的regret score越高就越可能被选中。在每一次的step中,本文计算每一个邻居的regret score然后采样邻居中的一个作为第t个邻居。这个regret score被描述为:
lk=W1⋅ReLU(W2⋅st),st=[hvt,huk]
其中uk是neighborhood集合N(v)在随机顺序下的第k个邻居,W1,W2是参数矩阵。为了减小N^(v)的大小来提高计算效率,本文引入了一个ending neighbor ue到N(v)中,用于实现提前停止的目的。当采样到ue时,节点v的neighborhood selection过程就会停止。本文使用Softmax函数去normalize regret scores。然后从通过Softmax生成的分布中采样一个邻居作为第t个邻居。
ut∼SOFTMAX([l1,l2,…,le,…,l∣N(v)ec∣∣)
其中ut∈N(v)tc是用于signal neighbor selection的第k个邻居,N(v)tc=(N(v)\N^(v)t)。le表示ending neighbor ue的regret score。在选择一个邻居ut后,采用策略函数πθ去决定是否选择ut作为一个signal neighbor。然后ut将从N(v)tc中移除。
-
signal neighbor selection
给定第t个邻居ut,GDPNet在第t步采取一个动作at={0,1}决定是否选择ut。在这里signal neighbor的所有数量将被自动地确定。策略函数πθ(at∣st)被学习在第t步(t=1,...,∣N^(v)∣),去映射状态st到对应的动作,同时对应的reward rt将被提供。本文的目标是去最大化在这些steps过程中所有采取的actions的总reward。
πθ(at∣st)at=σ(W1⋅ReLU(W2⋅st))∼πθ∈{0,1}
其中W1,W2是与公式1共享的权重矩阵,action at是从通过πθ(at∣st)生成的伯努利分布中采样的结果。
signal neighbor selection的目标是选择neighbor中的一个组合,最大化reward Rπ(N^(v))=EN^(v)[∑t=1∣N^(v)∣rt],其中N^(v)是生成的signal neighborhood集合,rt是特定任务的reward,用于检验动作at。Rπ是累积reward函数。
reward计算方式如下
rt=∑u^∈N^(v)tfc(AGG(xv,{xu^}))fc(AGG(xv,xut))
其中AGG(⋅)聚合目标节点特征xv和邻居节点特征{xut}去更新目标节点的表示,当考虑ut作为邻居时,fc会从节点分类任务中返回一个micro-averaged F1 score
这个地方有点笨比
-
Representation Learning:
在每一个step中,GDPNet计算目标节点v和第t个邻居ut的embedding,如下:
hvthut←AGG(xv,{xuˉ,∀u~∈N^(v)t})←AGG(xut,{∅})
其中AGG(x,{yi,∀i∈I})=σ(W⋅MEAN({x}∪{yi,∀i∈I})。xv和xut分别是v节点和ut的特征。本文通过邻居节点ut的特征xut计算他自己的embedding,因为目的是估计ut的独立分布。GDPNet可以简单地拓展去聚合多阶邻居信息,使用一种增强的候选neigborhood集合,用于signal neighbor selection。对于第t步的状态st=[hvt,hut]是中间点解嵌入hvt和hut的拼接。最终可以得到表示hv,以及状态st=[hvt,hut]
-
迭代优化:
本文考虑迭代优化的方法去优化GDPNet,其迭代地优化了signal neighobor selection阶段和representation learning阶段去学习策略函数πθ和表示hv。当用于representation learning阶段时,他聚合从πθ选择的signal neighobors中的信息去学习目标节点v的embedding hv。然而,策略函数πθ通过使用hv计算的状态和相应的rewards进行训练。在本文中,πθ使用PPO进行优化,最常用的策略梯度方法如下:
maxEs∼ρθold,a∼q[q(a∣s)πθ(a∣s)Qθold(s,a)]s.t. Es∼ρθ old [DKL(πθold(⋅∣s)∥πθ(⋅∣s))]≤δ
其中使用KL散度惩罚用于控制每次迭代是策略的更改,以使用阈值δ执行trust region中的更新。q(a∣s)和Qold=∑i=tTγri分别是策略和Q-value。这些都是在训练期间当前step保存的。ρθold是一个discounted state分布,定义如下:
ρθold(st)=t=0∑Tγt−1p(st=s∣πθold)