7.5图卷积编码器-解码器-白红宇

7.5图卷积编码器-解码器

阅读量：3950 次

发布时间：2019-05-24

本文共 5719 字，大约阅读时间需要 19 分钟。

文章目录

1、前言

图卷积编码是让编码器能够访问丰富的语法信息，但让它决定语法的哪些方面对MT（机器翻译）有益，而不是对语法和翻译任务之间的交互执行严格的约束，因为严格的语法限制通常会损害机器翻译。

基于的NMT系统，将源句词表示为编码器中的潜在特征向量，并在生成翻译时使用这些向量。

图卷积编码目标是将源词的语法邻域信息自动合并到这些特征向量中，从而潜在地提高翻译输出的质量。因为向量对应于单词，所以很自然地使用依赖语法。依赖树(见图1)表示单词之间的句法关系:例如，monkey是谓语eat的主语，banana是谓语eat的宾语。

图 1 : 依 赖 树

使用GCN生成单词的语法感知特征表征，GCN可以被视为基于节点的k阶邻域(即距离节点最多k跳的节点)计算节点(即实值向量)的潜在特征表征。

2、图卷积神经网络

GCN是一个多层神经网络，它直接在图上运行，将节点的邻域信息编码为实值向量。在每个GCN层中，信息沿着图的边流动;换句话说，每个节点接收来自其所有邻居的消息。当多个GCN层被堆叠时，关于更大邻居的信息就会被集成。例如，在第二层中，一个节点将从它的邻居接收信息，但是这些信息已经包含了来自它们各自的邻居的信息。通过选择GCN层数，调节了信息传播的距离:在 $k$ 层中，一个节点接收来自邻居的信息最多有 $k$ 个跳数。

形式上，考虑一个无向图 $\mathcal{G}=$ $(\mathcal{V}， \mathcal{E})$ ，其中 $\mathcal{V}$ 是一个 $n$ 节点的集合，而 $\mathcal{E}$ 是一个边的集合。每个节点都被假定是连接到自己的，即 $\forall v \in \mathcal{V}:(v, v) \in \mathcal{E}$ 。

设 $\in \mathbb{R}^{d \times n}$ 是一个包含所有 $n$ 节点及其特征的矩阵，其中 $d$ 是特征向量的维数。 $X$ 将包含单词嵌入，但通常它可以包含任何类型的特征。对于1层GCN，新的节点表征计算如下:

\mathbf{h}_{v}=\rho\left(\sum_{u \in \mathcal{N}(v)} W \mathbf{x}_{u}+\mathbf{b}\right)

其中

\in \mathbb{R}^{d \times d}

是一个权重矩阵，

\mathbf{b} \in \mathbb{R}^{d}

是一个偏置向量。

\rho

是一个激活函数，例如ReLU。

\mathcal{N}(v)

是

v

的邻居集合，这里我们假设

v

总是包含它自己。为了允许信息在多个跃点上流动，需要堆叠GCN层。递归计算如下:

\mathbf{h}_{v}^{(j+1)}=\rho\left(\sum_{u \in \mathcal{N}(v)} W^{(j)} \mathbf{h}_{u}^{(j)}+\mathbf{b}^{(j)}\right)

其中j索引层，和

\mathbf{h}_{v}^{(0)}=\mathbf{x}_{v}

3、语法GCN

方向性

为了处理边的方向性，分别对入边和出边使用权重矩阵。遵循这样的约定:在依赖树中，头指向它们的依赖项，因此，输出边用于 head-to-dependent 的连接，传入边用于dependent-to-head的连接。修改方向性的循环计算，得到:

\mathbf{h}_{v}^{(j+1)}=\rho\left(\sum_{u \in \mathcal{N}(v)} W_{\operatorname{dir}(u, v)}^{(j)} \mathbf{h}_{u}^{(j)}+\mathbf{b}_{\operatorname{dir}(u, v)}^{(j)}\right)

其中

\operatorname{dir}(u, v)

选择与

u

和

v

之间的边的方向性相关的权值矩阵(即

W_{\mathrm{IN}}

：

u

-to-

W_{\text {OUT }}

：

v

-to-

u

，

W_{\text {LOOP }}

：

v

-to-

v

）。注意，自循环是单独建模的，因此现在有三倍于非定向GCN的参数。

逐边门

句法GCN还包括门，可以降低单个边的贡献。它们还允许模型处理嘈杂的预测结构，即忽略潜在的错误的语法边缘。对于每条边，一个标量门的计算方法如下:

g_{u, v}^{(j)}=\sigma\left(\mathbf{h}_{u}^{(j)} \cdot \hat{\mathbf{w}}_{\operatorname{dir}(u, v)}^{(j)}+\hat{b}_{\operatorname{lab}(u, v)}^{(j)}\right)

其中

\sigma

是logistic sigmoid函数，而

\hat{\mathbf{w}}_{\operatorname{dir}(u, v)}^{(j)} \in \mathbb{R}^{d}

和

\hat{b}_{\operatorname{lab}(u, v)}^{(j)} \in \mathbb{R}

是门的学习参数。计算就变成:

\mathbf{h}_{v}^{(j+1)}=\rho\left(\sum_{u \in \mathcal{N}(v)} g_{u, v}^{(j)}\left(W_{\operatorname{dir}(u, v)}^{(j)} \mathbf{h}_{u}^{(j)}+\mathbf{b}_{\operatorname{lab}(u, v)}^{(j)}\right)\right)

图 2 ： 一 种 基 于 卷 积 编 码 器 的 两 层 语 法 G C N 。 循 环 连 接 用 点 划 线 描 述 ， 语 法 连 接 用 实 线 (依 赖 到 头) 和 点 线 (头 到 依 赖) 边 描 述 。

4、图卷积编码器

在这项工作中，着重于利用结构信息的源端，即编码器。假设，使用包含语法的编码器将导致单词的更多信息表示，并且当解码器使用这些表征作为上下文向量时，将导致翻译质量的提高。因此，使用seq2seq的解码器，并保持模型的这一部分不变。正如现在的常见做法，在解码器中不使用maxout层，但除此之外，不会偏离最初的定义。在所有模型中，使用gru 。

模型在编码器部分有所不同，在编码器部分，利用GCN的能力来诱导具有语法意识的表征。现在定义了一系列越来越复杂的编码器