argsort()
是 NumPy
数组的方法,用于返回数组中元素按升序排序的索引。
Tensor.masked_fill_
是 PyTorch
中张量(Tensor)的一个就地(in-place)操作函数,用于根据掩码(mask)将张量中的某些元素替换为指定的值。该函数在处理需要条件替换的数据时非常有用,例如在掩码语言模型(Masked
Language Models, MLM)、填充序列(padding
sequences)或处理无效数据时。Tensor.masked_fill_(mask, value)
mask
(BoolTensor
):
一个布尔类型的张量,其形状必须与调用该函数的张量相同。mask
中的 True
值表示需要被替换的位置,False
则表示保留原值。
value
(float
或
int
): 用于替换的标量值。
torch.matmul
支持高维张量的批量矩阵乘法,其中最后两维用于矩阵乘法,前面的维度被视为批量维度。
# 批量大小为2,每个矩阵为3x4
a = torch.randn(2, 3, 4)
# 批量大小为2,每个矩阵为4x5
b = torch.randn(2, 4, 5)
result = torch.matmul(a, b)
print(result.shape) # 输出: torch.Size([2, 3, 5])
对于批量中的每一个矩阵对 Ai 和
Bi,计算
Ci=Ai×*B**i*,最终得到形状为
[2, 3, 5]
的张量
TF-IDF
:如果某个词语在某一份文档中出现的频率高,并且在其他文档中很少出现,则认为此词语具有很好的类别区分能力,适合用来分类。“Term
Frequency-Inverse Document Frequency”可以拆分为“Term
Frequency”和“Inverse Document Frequency”两部分来理解。
“Term Frequency”即“词频”,是指一个词在文档中出现的频率。它是衡量一个词在文档中重要性的一种方式,词频越高,通常意味着这个词在文档中的重要性相对越高。
“Inverse Document Frequency”即“逆文档频率”,是一个词语普遍重要性的度量。它是通过将语料库中的文档总数除以包含该词语之文档的数目,然后将得到的商取对数得到的。其作用是衡量一个词的普遍重要性,如果一个词在很多文档中都出现,那么它对于区分文档的贡献就小,逆文档频率就低;反之,如果一个词只在少数文档中出现,那么它对于区分文档的贡献就大,逆文档频率就高