ORIGIN

小知识

2025-03-04

NumPy

argsort() 是 NumPy 数组的方法，用于返回数组中元素按升序排序的索引。
Tensor.masked_fill_ 是 PyTorch 中张量（Tensor）的一个就地（in-place）操作函数，用于根据掩码（mask）将张量中的某些元素替换为指定的值。该函数在处理需要条件替换的数据时非常有用，例如在掩码语言模型（Masked Language Models, MLM）、填充序列（padding sequences）或处理无效数据时。Tensor.masked_fill_(mask, value)
mask (BoolTensor): 一个布尔类型的张量，其形状必须与调用该函数的张量相同。mask 中的 True 值表示需要被替换的位置，False 则表示保留原值。
value (float 或 int): 用于替换的标量值。
torch.matmul 支持高维张量的批量矩阵乘法，其中最后两维用于矩阵乘法，前面的维度被视为批量维度。
```
# 批量大小为2，每个矩阵为3x4
a = torch.randn(2, 3, 4)
# 批量大小为2，每个矩阵为4x5
b = torch.randn(2, 4, 5)

result = torch.matmul(a, b)
print(result.shape)  # 输出: torch.Size([2, 3, 5])
```
对于批量中的每一个矩阵对 Ai 和 Bi，计算 Ci=Ai×*B**i*，最终得到形状为 [2, 3, 5] 的张量
TF-IDF：如果某个词语在某一份文档中出现的频率高，并且在其他文档中很少出现，则认为此词语具有很好的类别区分能力，适合用来分类。“Term Frequency-Inverse Document Frequency”可以拆分为“Term Frequency”和“Inverse Document Frequency”两部分来理解。

“Term Frequency”即“词频”，是指一个词在文档中出现的频率。它是衡量一个词在文档中重要性的一种方式，词频越高，通常意味着这个词在文档中的重要性相对越高。

“Inverse Document Frequency”即“逆文档频率”，是一个词语普遍重要性的度量。它是通过将语料库中的文档总数除以包含该词语之文档的数目，然后将得到的商取对数得到的。其作用是衡量一个词的普遍重要性，如果一个词在很多文档中都出现，那么它对于区分文档的贡献就小，逆文档频率就低；反之，如果一个词只在少数文档中出现，那么它对于区分文档的贡献就大，逆文档频率就高

TOP

COMMENT