可视化并度量 BERT 的几何结构IT技术这篇文章的发现:• BERT 在单独的句法和语义子空间中存储语言特征的证据 ◦ 已发现 2 个表示句法和语义子空间的线性变换 ◦ 这些应该是彼此正交的 ◦ 注意力矩阵似乎包含相当数量的句法信息• 休伊特和曼宁发现的表示几何的数学论证 ◦ 毕达哥拉斯嵌入(平方 嵌入)很可能是对观察到的距离的解释 ◦ 可视化• BERT 具有细粒度的词义几何表示 ◦ 不同的词义构建分离良好的集群 ◦ 在这些集群中,上下文嵌入似乎编码了额外的细粒度含义2023-1-10 可视化 BERT 词义 上下文 语法 树嵌入 论文阅读