LLM词频规律:Zipf定律

LLM词频规律:Zipf定律

Zipf定律(Zipf’s Law)是语言学和信息论中描述文本中词语出现频率分布的规律,由美国语言学家乔治·金斯利·齐夫(George Kingsley Zipf)提出。其核心结论是:在自然语言的大型文本语料中,若将所有词语按出现频率从高到低排序,第n个词语的频率与n的倒数大致成正比

Zipf定律的数学表达

若用 f(n)f(n)f(n)表示排序后第n个词语的出现频率,CC

你可能感兴趣的:(教学,2024大模型以及算力,2021,AI,python,深度学习,人工智能,pytorch,语言模型,python)