ORIGIN

小知识

NumPy

  • argsort() 是 NumPy 数组的方法,用于返回数组中元素按升序排序的索引。

  • Tensor.masked_fill_ 是 PyTorch 中张量(Tensor)的一个就地(in-place)操作函数,用于根据掩码(mask)将张量中的某些元素替换为指定的值。该函数在处理需要条件替换的数据时非常有用,例如在掩码语言模型(Masked Language Models, MLM)、填充序列(padding sequences)或处理无效数据时。Tensor.masked_fill_(mask, value)

  • mask (BoolTensor): 一个布尔类型的张量,其形状必须与调用该函数的张量相同。mask 中的 True 值表示需要被替换的位置,False 则表示保留原值。

  • value (floatint): 用于替换的标量值。

  • torch.matmul 支持高维张量的批量矩阵乘法,其中最后两维用于矩阵乘法,前面的维度被视为批量维度。

    # 批量大小为2,每个矩阵为3x4
    a = torch.randn(2, 3, 4)
    # 批量大小为2,每个矩阵为4x5
    b = torch.randn(2, 4, 5)
    
    result = torch.matmul(a, b)
    print(result.shape)  # 输出: torch.Size([2, 3, 5])

    对于批量中的每一个矩阵对 Ai​ 和 Bi​,计算 Ci​=Ai​×*B**i*​,最终得到形状为 [2, 3, 5] 的张量

  • TF-IDF:如果某个词语在某一份文档中出现的频率高,并且在其他文档中很少出现,则认为此词语具有很好的类别区分能力,适合用来分类。“Term Frequency-Inverse Document Frequency”可以拆分为“Term Frequency”和“Inverse Document Frequency”两部分来理解。

    “Term Frequency”即“词频”,是指一个词在文档中出现的频率。它是衡量一个词在文档中重要性的一种方式,词频越高,通常意味着这个词在文档中的重要性相对越高。

    “Inverse Document Frequency”即“逆文档频率”,是一个词语普遍重要性的度量。它是通过将语料库中的文档总数除以包含该词语之文档的数目,然后将得到的商取对数得到的。其作用是衡量一个词的普遍重要性,如果一个词在很多文档中都出现,那么它对于区分文档的贡献就小,逆文档频率就低;反之,如果一个词只在少数文档中出现,那么它对于区分文档的贡献就大,逆文档频率就高

TOP
COMMENT
made with ❤️ by o_oyao
©Yuxi undefined-2025

|