本发明涉及自然语言数据处理,具体涉及一种基于大语言模型的商品标题spu关键词提取方法。
背景技术:
1、自然语言处理技术包括文本分词、词性标注、命名实体识别等多种技术,在关键词提取中应用广泛。而商品标题spu关键词提取在电商领域中至关重要,能够便于搜索引擎和推荐系统对商品进行准确分类和匹配。
2、而大语言模型能够对商品标题spu关键词提取过程进行预训练和微调,从而提高关键词提取的准确性和泛化能力。因此现有技术通常借助大语言模型进行商品标题spu关键词提取。但是基于大语言模型的关键词提取方法通常需要考虑上下文信息,但是商品标题对应的文本信息通常较短,对应的上下文信息较为匮乏,导致借助大语言数据模型进行商品标题spu关键词提取的准确度较低。
技术实现思路
1、为了解决现有技术通常借助大语言模型进行商品标题spu关键词提取的准确度较低的技术问题,本发明的目的在于提供一种基于大语言模型的商品标题spu关键词提取方法,所采用的技术方案具体如下:
2、本发明提出了一种基于大语言模型的商品标题spu关键词提取方法,所述方法包括:
3、获取用于关键词提取的商品标题;
4、根据商品后台类目将对应的各个商品标题划分为至少两种商品标题类型;在每种商品标题类型中,根据每个商品标题的文本结构分布情况,将每个商品标题划分出至少两个文本分词;
5、根据每种文本分词在各个商品标题中的出现频率以及位置分布情况,得到每种文本分词的位置特性参数;根据每种文本分词的搜索频率整体分布状况,得到每种文本分词的搜索指数参数;
6、根据所述位置特性参数和所述搜索指数参数,得到每种文本分词的关键词特征值;根据所述关键词特征值结合大语言模型进行商品标题spu关键词提取。
7、进一步地,所述位置特性参数的获取方法包括:
8、对于任意一个商品标题:
9、根据商品标题中文本分词的数量构建0序列;根据每个文本分词在商品标题中的位置,得到每个文本分词在0序列中的位置;依次将商品标题中的每个文本分词作为目标文本分词;将目标文本分词在0序列中对应位置的值置1,得到目标文本分词对应的二进制数;将所述二进制数转化为十进制得到目标文本分词的位置特性值;
10、将每种文本分词在同种商品标题类型的所有商品标题中的出现次数,作为每种文本分词的参考出现频次,所述每种文本分词中的各个文本分词相同;
11、在每种商品标题类型中,根据每种文本分词中的各个文本分词的位置特性值的数值整体分布情况,得到每种文本分词的参考位置特征值;
13、进一步地,所述参考位置特征值的获取方法包括:
14、将每种文本分词对应的所有位置特性值的标准差与预设第一调节参数的和值,作为每种文本分词的第一参考和值,所述预设第一调节参数大于0;将每种文本分词对应的所有位置特性值的均值与所述第一参考和值的比值,作为每种文本分词的参考位置特征值。
15、进一步地,所述根据所述参考出现频次和所述参考位置特征值,得到每种商品标题类型中每种文本分词的位置特性参数的方法包括:
17、进一步地,所述搜索指数参数的获取方法包括:
19、将每种文本分词对应的所有搜索指数的均值,作为参考搜索均值;将所述参考搜索均值与每种文本分词对应的搜索指数的最小值之间的差异,作为参考均值差异;将所述参考均值差异与每种文本分词对应的搜索指数极差之间的比值,作为每种文本分词的搜索指数趋势参考值;
21、将每种文本分词对应的所有搜索指数的标准差与预设第二调节参数的和值,作为每种文本分词的第二参考和值;将所述参考搜索均值与所述第二参考和值的比值,作为每种文本分词的搜索指数稳定度;
23、进一步地,所述搜索高峰趋近度的获取方法包括:
25、进一步地,所述关键词特征值的获取方法包括:
26、将所述位置特性参数与所述搜索指数参数的和值,作为每种文本分词的关键词特征值。
27、进一步地,所述根据所述关键词特征值结合大语言模型进行商品标题spu关键词提取包括:
28、将用于关键词提取的商品标题输入到大语言模型中,输出对应的至少两个文本分词;将最大的预设数量个关键词特征值对应的文本分词,作为商品标题对应的spu关键词。
29、进一步地,所述文本分词的获取方法包括:
30、将每个商品标题对应的文本通过分词和去停用词过程,得到每个商品标题对应的至少两个文本分词。
31、进一步地,所述商品标题类型的获取方法包括:
32、将电商系统中属于同一个三级类目的商品对应的所有商品标题,划分为一种商品标题类型。
33、本发明具有如下有益效果:
34、考虑到一个商品标题的文本所能提供的信息有限,而大语言模型需要足够的上下文信息,因此本发明实施例对同种商品标题类型的商品标题进行分析,使得同种商品标题类型的商品标题之间产生有效的上下文信息,使得后续的关键词提取更加准确。而商品标题通常由多个文本分词组成,其中就存在所需要提取的关键词,因此本发明实施例对商品标题中的各个文本分词进行分析,得到衡量文本分词重要程度的关键词特征值,从而借助关键词特征值进行关键词的提取。根据商品标题的客观规律,越重要的文本分词对应的位置越处于商品标题中靠前的位置,并且同种文本分词在相同商品标题类型中出现的次数也能够在一定程度上影响其重要性,因此本发明通过每种文本分词在各个商品标题中的出现频率以及位置分布情况,得到位置特性参数;并且考虑到对于每种文本分词而言,其对应的搜索频率也能反映其重要程度,因此本发明根据每种文本分词的搜索频率整体分布状况,得到每种文本分词的搜索指数参数;进一步地将位置特性参数和搜索指数参数结合,得到表征每种文本分词重要性的关键词特征值,使得最后根据关键词特征值结合大语言模型进行商品标题spu关键词提取的准确度更高。