bojone / attention Goto Github PK

View Code? Open in Web Editor NEW

1.4K 32.0 511.0 56 KB

some attention implements

Python 100.00%

attention's Introduction

attention

some attention implements

《Attention is All You Need》中的Attention机制的实现

http://kexue.fm/archives/4765/

测试环境

python 2.7 + tensorflow 1.8+ + keras 2.2.4

注：本项目不再跟进新版本的tensorflow/keras，如果有新版本的需求，可以到bert4keras的layers.py处复制对应的函数。

交流

QQ交流群：67729435，微信群请加机器人微信号spaces_ac_cn

attention's People

Contributors

Stargazers

Watchers

Forkers

ieee820 ieckevinsky guokeda chen89 xxcharles jianbotang nemocpp mingmingyang davidwangchen bwendy1 bityangke cloudsurging sodagreencellur iris8beiny innerface linpingchuan zhuxf0407 shen2003 weibobo2015 leocnj ewrfcas sanmucode xueguohua yusifu mili6qm ethanzhaokk chapzq77 mqrshiyan sy950921 pemywei n2meetu berryhn jidlin sszzsupersupersupersuper batterysnoopy hins mryeshuai tjunlp dumplingximen kingofoz bb-beta yzhou1122 frankblood huangxizhi alwayssomeone caoqian2016 weifenghu summer-liu ai3dvision andyrbm chensvm r06942143 zbn123 rxlgq jjaugust demon-jiehao cuteapi gycg yeahestherchan laisun searchmodel zbxzc35 zkyzq tianshuaifei junix williamwhe inistlwq mingspy datianshi21 shengxiaoxiao zjms x-hacker joe2loft yuanjie-ai xupanxiong konroyzhu chaconez yanghaocsg blackguap1 lxiangge1126 zhangjiulong lidhcs wushilian fendaq breadsh steveqaq l294265421 gusuperstar rebrn drewer9 gongqin721 stevenlol syx528911137 jkhlot mcmaxmm xu-zekun myvrml zlzr200599 hecongqing dupanfei1

attention's Issues

Is there tensorflow implementation of sparse attention?

Thanks.

@bojone 您好，看了您的代码（Keras），很赞！
请教个问题：
在输入经过 Word Embedding 之后，又经过了一层 Position Embedding，这相当于补充了词向量的位置信息。
但由于Keras的Layer中的权值矩阵是默认是可以被训练的（trainable），那么补充的 Position Embedding 的参数信息也会在BP中不断被优化，这样的话增加 Position Embedding 这一层并计算sin和cos值只是相当于对 PE 的权值做了一次初始化？随着迭代进行，其权值也会不断变化。。。
还是说在调用Position Embedding的时候应该要设定trainable=False呢?

希望得到您的解答！感谢~！

position_ij = tf.concat([tf.cos(position_ij), tf.sin(position_ij)], 1)

原文分的是奇偶，这里这么处理好像不对

模型加载问题

训练完后加载模型时一直报错，找不到attention层，但我有import attention

K，Q，V映射

我想问一下多头attention那里，通过一次线性映射产生K,Q,V，paper中说要8次不同的映射。代码实现时，是因为，8次不同的映射可以一次完成，只要权重参数的数量已经相当于8次映射的数量了么？

请问一下，tf版的78，80行的转置操作是什么意思呢？去掉这两行进行训练对结果也没什么影响。

不支持mask

您好，非常感谢您的分享，但是我在调用您的模型时：
embeddings=Embedding(len(vocab),200,mask_zero=True)(inputs)
embeddings = Position_Embedding()(embeddings)
发现以下列错误信息
Layer position__embedding_1 does not support masking,
请问一下该如何解决，十分感谢。

你好，这个注意力有没有使用的例子呢？如何调用注意力层呢？

I have no idea what method "to_mask" helps.

Could you give me a brief expanantion, please? Anyway thanks a lot.

attention_keras.py中，Position_Embedding的pos的计算

你好，

想请教一下，attention_keras.py中的第21行，

position_i = K.cumsum(K.ones_like(x[:,:,0]), 1)-1 #K.arange不支持变长，只好用这种方法生成

这行代码具体在计算什么？

我翻阅了论文原文和ones_like, cumsum的keras backend资料，对这行代码的用途猜测是计算论文中Position_Embedding公式的pos值，但不太理解具体是如何实现计算的，论文似乎也没有详细涉及。

请问能解释一下吗？谢谢！

Position_Embedding肯能有些问题

Position_Embedding中
position_ij = tf.concat([tf.cos(position_ij), tf.sin(position_ij)], 1)
只能将cos和sin前后连接,并不能做到论文中的交叉连接

我认为应该把这行代码替换成:
cos = tf.expand_dims(tf.cos(position_ij), 2)
sin = tf.expand_dims(tf.sin(position_ij), 2)
position_ij = tf.concat([cos, sin], 2)
position_ij = tf.reshape(position_ij, shape=[seq_len, -1])

不知道这样对不对,如果不对请指正

Keras的batch_dot()如何用pytorch改写

你好，我想把你的Keras版本改写成pytorch版本的，但是K.batch_dot(qw, kw, [4, 4])这个功能好像没有类似pytorch的函数可以转换，请问你有什么建议吗？谢谢

感觉好像少了参数Wo

原paper里面，每个head拼接之后会乘上Wo，这个实现里好像木有写诶

K.permute_dimensions(A, (0,3,2,1))运行时报错

您好，我在运行您的代码时，出现了错误，在
#计算内积，然后mask，然后softmax
A = K.batch_dot(Q_seq, K_seq, axes=[3,3])
A = K.permute_dimensions(A, (0,3,2,1))
这一块，报了valueError:('You cannot drop a non-broadcastable dimension.'((False,False,False,False,False),(0,3,2,1)
这是因为batch_dot的计算结果是5维，而permute_dimension中参数是4维吗？我的输入格式跟你的是一样的，想请教你这个问题要怎么解决？

position_ij = tf.matmul(position_i, position_j)
应该改为 
position_ij = tf.multiply(position_i, position_j)

不然维度不匹配

How to understand the decoder input(target)?

您好，不知道能不能向您请教一下在解码的时候输入的target怎么理解呢？