抛弃循环结构,完全基于注意力的模块——Attention is all you need.
最近偶然接触了苏剑林大佬所提的稀疏版的多标签分类交叉熵损失函数,觉得十分有意思,并且github上鲜有代码,于是使用了pytorch进行复现,故将相关学习过程记录在此。