本发明涉及分类领域,尤其涉及一种获得商品的税收分类编码的方法及系统。
背景技术:
税收分类编码包括商品和服务的税收分类和编码两个组成部分。商品和服务税收分类,包括货物、劳务、服务、无形资产等四大类、4021类商品和服务名称;编码采用19位加自定义编码19+2*n位。税收分类编码的商品大类由税务总局维护,企业、个人不能自行编辑修改,商品小类可在税收分类编码商品的最底层商品下,由纳税人自行维护。税收分类编码适用于使用增值税发票系统升级版的纳税人开具的增值税专用发票、增值税普通发票、货物运输业增值税专用发票和机动车销售统一发票。
从2016年8月份,企业开具的增值税发票,在选择商品信息时,必须维护税收分类编码。目前采用的方式:
人工录入:录入商品时,维护属性税收分类,模糊查询手工选择,但企业用户对税收分类不熟悉,很多匹配不到情况不知如何选择。
文件导入:商品信息比较多的用户,通过导出文件,手工维护税收分类信息,再次导入增值税发票系统中。这种方式需要知晓每一商品和服务对应的税收分类编码,输入是难题,容易出现错误和不知道输入什么的问题。
工具匹配:文件导入或接口方式,导入商品和税收分类,进行数据库模糊匹配,但匹配准确度较低,需要人工干预。
本发明人在实施本发明的过程中发现现有技术中存在如下技术问题或缺陷:
采用的获取商品的税收分类编码的方式,匹配准确度低,在匹配选择上,人工参与易出错且不方便,用户选择税收分类难度较大。
技术实现要素:
本发明提供了一种获得商品的税收分类编码的方法和系统,用以解决现有技术中采用的获取商品的税收分类编码的方式,匹配准确度得不得保证,在匹配选择上,人工参与易出错且不方便,用户选择税收分类难度较大的技术问题。
本发明一方面提供了一种获得商品的税收分类编码的方法,包括:
获得商品数据库中的一商品的商品信息;
获得所述商品信息对应的词元组合;
基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述商品的税收分类编码。
优选的,所述基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述商品的税收分类编码,具体为:
基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述词元组合的对应的n个税收分类编码;其中n为整数,且n≥1;
基于预设规则从所述n个税收分类编码中获得所述商品的税收分类编码。
优选的,在n=1时,所述基于预设规则从所述n个税收分类编码中获得所述商品的税收分类编码,具体为:
直接将所述1个税收分类编码作为所述商品的税收分类编码。
优选的,当所述n>1时,所述基于预设规则从所述n个税收分类编码中获得所述商品的税收分类编码,具体为:
获得用于表征所述n个税收分类编码中每个税收分类编码的历史选择比例,共n个历史选择比例;
基于所述n个历史选择比例中的最大历史选择比例和第一阈值的比较,确定所述商品的税收分类编码。
优选的,所述基于所述n个历史选择比例中的最大历史选择比例和第一阈值的比较,确定所述商品的税收分类编码,具体为:
当所述n个历史选择比例中的最大历史选择比例大于第一阈值时,直接将所述最大历史选择比例对应的税收分类编码作为所述商品的税收分类编码。
当所述n个历史选择比例中的最大历史选择比例小于第一阈值时,生成并输出一用于提示用户从所述n个税收分类编码中选择所述商品的税收分类编码的提示信息;
获得所述用户基于所述提示信息的选择操作;
响应所述选择操作,从所述n个税收分类编码中确定所述选择操作对应的税收分类编码作为所述商品的税收分类编码。
优选的,基于所述词元组合,在商品数据库中自动进行匹配,获得与所述商品相同类别或相近类别的另一商品的商品信息;
在所述基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述商品的税收分类编码之后,所述方法还包括:
当所述另一商品不具有税收分类编码时,将所述商品的税收分类编码作为所述另一商品的税收分类编码。
本发明的另一方面提供了一种获得商品的税收分类编码的系统,包括:
第一获得单元,用于获得商品数据库中的一商品的商品信息;
第二获得单元,用于获得所述商品信息对应的词元组合;
第三获得单元,用于基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述商品的税收分类编码。
优选的,所述第三获得单元包括:
第一获得子单元,用于基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述词元组合的对应的n个税收分类编码;其中n为整数,且n≥1;
第二获得子单元,用于基于预设规则从所述n个税收分类编码中获得所述商品的税收分类编码。
优选的,在n=1时,所述第二获得子单元包括:
第一确定模块,用于直接将所述1个税收分类编码作为所述商品的税收分类编码。
优选的,当所述n>1时,所述第二获得子单元包括:
第一获得模块,用于获得用于表征所述n个税收分类编码中每个税收分类编码的历史选择比例,共n个历史选择比例;
第二确定模块,用于基于所述n个历史选择比例中的最大历史选择比例和第一阈值的比较,确定所述商品的税收分类编码。
优选的,所述第二确定模块包括:
第一确定子模块,用于当所述n个历史选择比例中的最大历史选择比例大于第一阈值时,直接将所述最大历史选择比例对应的税收分类编码作为所述商品的税收分类编码。
提示信息生成子模块,用于当所述n个历史选择比例中的最大历史选择比例小于第一阈值时,生成并输出一用于提示用户从所述n个税收分类编码中选择所述商品的税收分类编码的提示信息;
第一获得子模块,用于获得所述用户基于所述提示信息的选择操作;
第二确定子模块,用于响应所述选择操作,从所述n个税收分类编码中确定所述选择操作对应的税收分类编码作为所述商品的税收分类编码。
优选的,所述系统还包括::
第四获得单元,用于基于所述词元组合,在商品数据库中自动进行匹配,获得与所述商品相同类别或相近类别的另一商品的商品信息;
第一确定单元,用于当所述另一商品不具有税收分类编码时,将所述商品的税收分类编码作为所述另一商品的税收分类编码。
本发明提供的一个或者多个实施例至少包括如下技术效果或优点:本发明实施例中通过获得商品数据库中的一商品的商品信息;获得所述商品信息对应的词元组合;基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述商品的税收分类编码。由于对所述商品信息进行了分词,获得了所述商品对应的词元组合,根据商品分词结果也就是词元组合对商品数据进行匹配;基于匹配结果,根据显示规则展示商品归类建议数据。本发明获得商品的税收分类编码的方法和系统,通过使用、云端分词引擎,对商品和服务信息、税收分类关键词和说明等进行分词,建立商品数据库和税收分类数据库;通过模糊查询、手工选择、用户偏好云计算等方法智能匹配,为用户推荐商品和服务对应的税收分类编码,从而解决了现有技术中采用的获取商品的税收分类编码的方式,匹配准确度低,在匹配选择上,人工参与易出错且不方便,用户选择税收分类难度较大的技术问题,达到了提高商品的税收分类编码的匹配准确度,降低用户获得商品的税收分类编码的难度,从而方便用户获得税收分类编码的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本发明实施例一中一种获得商品的税收分类编码的方法的流程图;
图2所示为本发明实施例二中一种获得商品的税收分类编码的系统的示意图;
图3所示为本发明实施例三中一种获得商品的税收分类编码的方法的示意图。
具体实施方式
本发明提供了一种获得商品的税收分类编码的方法和系统,获得商品数据库中的一商品的商品信息;获得所述商品信息对应的词元组合;基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述商品的税收分类编码。通过在税收分类数据库中自动进行匹配,从而解决了现有技术中采用的获取商品的税收分类编码的方式,匹配准确度低,在匹配选择上,人工参与易出错且不方便,用户选择税收分类难度较大的技术问题,达到了提高商品的税收分类编码的匹配准确度,降低用户获得商品的税收分类编码的难度,从而方便用户获得税收分类编码的技术效果。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例只是对本发明技术方案的详细说明,而并不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
如图1所示,本发明实施例一中提供了一种获得商品的税收分类编码的方法的流程图,该方法包括:
s101,获得商品数据库中的一商品的商品信息;
s102,获得所述商品信息对应的词元组合;
s103,基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述商品的税收分类编码。
具体,例如,在步骤s101中,从商品数据库中获取一商品的商品信息为康师傅方便面。例如构建税收分类智能匹配系统,主要包括商品管理、税收分类管理功能。其中商品管理提供商品信息导入或接入、商品检测、智能匹配、保存、恢复等功能;税收分类管理提供预置国税总局最新下发的税收分类信息,提供更新、分词功能。前期环境准备过程中已对预置的税收分类编码,通过分词引擎ikanalyzer对税收分类的名称、关键词、说明等进行了分词。
具体的,s102例如为获得“康师傅方便面”对应的词元组合“康师傅、方便面”。例如,通过云端ikanalyzer分词引擎,对每一条商品信息进行分词,解析出所有可能的词元;对词元进行歧义消除,消歧逻辑:比较有效文本长度;比较尽量少词元;较大跨度路径;逆向切分概率高于正向切分,位置靠后的优先;词长尽量平均。选取最优(或接近)不相交词元的组合作为最终解,存储于云端数据库,并扩充ikanalyzer词库。随着用户量的增加,按行业维护商品库,或使用更专业的分词引擎。
以上步骤,也可以批量获取多条商品信息,基于多条商品信息,分别进行税收分类编码的匹配,并批量输出多条商品信息对应的税收分类编码。
所述步骤s103优选为:
具体的,沿用前述例子,例如基于获得的词元组合“康师傅、方便面”在税收分类数据库中自动进行匹配,获得词元组合“康师傅、方便面”对应3个的税收分类编码【103020303】、【106010503】、【109021403】,基于预设规则,从上述3个税收分类编码中选择一个作为商品“康师傅方便面”的税收分类编码。
在n=1时,所述基于预设规则从所述n个税收分类编码中获得所述商品的税收分类编码,具体为:
具体的,沿用前述例子,例如商品“西瓜”获得的词元组合为“西瓜”,所述词元组合为“西瓜”在税收分类数据库中自动进行匹配,获得词元组合“西瓜”对应1个的税收分类编码【10101150120】,则直接将1个的税收分类编码【10101150120】作为所述商品“西瓜”的税收分类编码。
当所述n>1时,所述基于预设规则从所述n个税收分类编码中获得所述商品的税收分类编码,具体为:
具体的,沿用前述例子,例如第一阈值为0.8,也就是说80%以上的用户选择n个税收分类编码中的某一个作为这一商品的税收分类编码时,选择该编码作为这一商品的税收分类编码,商品“康师傅方便面”的词元组合对应3个税收分类编码【103020303】、【106010503】、【109021403】,获得用于表征这3个税收分类编码用户的历史选择比例,例如【103020303】的历史选择比例是90%,也就是说90%的用户都选择【103020303】这一编码作为商品“康师傅方便面”的税收分类编码,【106010503】的历史选择比例是5%、【109021403】是5%,则最大历史选择比例【103020303】的历史选择比例是90%与第一阈值为0.8的比较,获得商品“康师傅方便面”的税收分类编码。
所述基于所述n个历史选择比例中的最大历史选择比例和第一阈值的比较,确定所述商品的税收分类编码,具体为:
具体的,沿用前述例子,例如,最大历史选择比例【103020303】的历史选择比例是90%%大于0.8,则将90%的用户都选择的【103020303】作为商品“康师傅方便面”的税收分类编码,也就是说,本发明的方法进行了机器学习。
基于所述词元组合,在商品数据库中自动进行匹配,获得与所述商品相同类别或相近类别的另一商品的商品信息;
具体的,沿用前述例子,例如商品“心心相印bt910卷筒卫生纸”已通过前述匹配方法匹配到税收分类编码【106010504】并在所述商品数据库中进行了更新,且商品“心心相印bt910卷筒卫生纸”同时也在商品数据库中进行了匹配,匹配到相同类别或相近类别的另一商品例如“心心相印茶语系列特柔3层卷筒卫生纸”,当用户没有对商品“心心相印茶语系列特柔3层卷筒卫生纸”选择税收分类编码分类时,则将商品“心心相印bt910卷筒卫生纸”的税收分类编码【106010504】作为相同类别或相近类别的另一商品例如“心心相印茶语系列特柔3层卷筒卫生纸”的税收分类编码。
另外,当某一商品在税收分类数据库和商品数据库都没有自动匹配到税收分类编码也没有推荐税收分类编码时,当用户手工为该商品选择了或添加了税收分类编码时,匹配系统自动对用户的选择或添加进行学习,为该商品的下次税收分类编码匹配做准备。且本发明支持批量的商品信息的税收分类编码的匹配和匹配后携带有商品税收分类编码的商品信息的批量输出。
如图2所示,本发明的实施例二提供了一种获得商品的税收分类编码的系统,包括:
第一获得单元101,用于获得商品数据库中的一商品的商品信息;
第二获得单元102,用于获得所述商品信息对应的词元组合;
第三获得单元103,用于基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述商品的税收分类编码。
具体,例如,第一获得单元101,用于从商品数据库中获取一商品的商品信息为康师傅方便面。例如所述获得商品的税收分类编码的系统为构建的税收分类智能匹配系统,主要包括商品管理、税收分类管理功能。其中商品管理提供商品信息导入或接入、商品检测、智能匹配、保存、恢复等功能;税收分类管理提供预置国税总局最新下发的税收分类信息,提供更新、分词功能。前期环境准备过程中已对预置的税收分类编码,通过分词引擎ikanalyzer对税收分类的名称、关键词、说明等进行了分词。
具体的,第二获得单元102,用于获得所述商品信息对应的词元组合,例如为获得“康师傅方便面”对应的词元组合“康师傅、方便面”。例如,第二获得单元102为云端ikanalyzer分词引擎,通过云端ikanalyzer分词引擎,对每一条商品信息进行分词,解析出所有可能的词元;对词元进行歧义消除,消歧逻辑:比较有效文本长度;比较尽量少词元;较大跨度路径;逆向切分概率高于正向切分,位置靠后的优先;词长尽量平均。选取最优(或接近)不相交词元的组合作为最终解,存储于云端数据库,并扩充ikanalyzer词库。随着用户量的增加,按行业维护商品库,或使用更专业的分词引擎。
所述第三获得单元包括:
具体的,沿用前述例子,例如第一获得子单元基于获得的词元组合“康师傅、方便面”在税收分类数据库中自动进行匹配,获得词元组合“康师傅、方便面”对应3个的税收分类编码【103020303】、【106010503】、【109021403】,第二获得子单元,用于基于预设规则,从上述3个税收分类编码中选择一个作为商品“康师傅方便面”的税收分类编码。
在n=1时,所述第二获得子单元包括:
具体的,沿用前述例子,例如商品“西瓜”获得的词元组合为“西瓜”,所述词元组合为“西瓜”在税收分类数据库中自动进行匹配,获得词元组合“西瓜”对应1个的税收分类编码【10101150120】,则第一确定模块直接将1个的税收分类编码【10101150120】作为所述商品“西瓜”的税收分类编码。
当所述n>1时,所述第二获得子单元包括:
具体的,沿用前述例子,例如第一阈值为0.8,也就是说80%以上的用户选择n个税收分类编码中的某一个作为这一商品的税收分类编码时,选择该编码作为这一商品的税收分类编码,商品“康师傅方便面”的词元组合对应3个税收分类编码【103020303】、【106010503】、【109021403】,第一获得模块,获得用于表征这3个税收分类编码用户的历史选择比例,例如【103020303】的历史选择比例是90%,也就是说90%的用户都选择【103020303】这一编码作为商品“康师傅方便面”的税收分类编码,【106010503】的历史选择比例是5%、【109021403】是5%;则第二确定模块,基于最大历史选择比例【103020303】的历史选择比例是90%与第一阈值为0.8的比较,获得商品“康师傅方便面”的税收分类编码。
所述第二确定模块包括:
具体的,沿用前述例子,例如,最大历史选择比例【103020303】的历史选择比例是90%大于0.8,则第一确定子模块将90%的用户都选择的【103020303】作为商品“康师傅方便面”的税收分类编码,也就是说,本发明的方法进行了机器学习。
具体的,沿用前述例子,例如商品“心心相印bt910卷筒卫生纸”已通过前述匹配方法匹配到税收分类编码【106010504】并在所述商品数据库中进行了更新,且第四获得单元对商品“心心相印bt910卷筒卫生纸”的词元组合在商品数据库中进行了匹配,匹配到相同类别或相近类别的另一商品例如“心心相印茶语系列特柔3层卷筒卫生纸”,当用户没有对商品“心心相印茶语系列特柔3层卷筒卫生纸”选择税收分类编码分类时,则第一确定单元将商品“心心相印bt910卷筒卫生纸”的税收分类编码【106010504】作为相同类别或相近类别的另一商品例如“心心相印茶语系列特柔3层卷筒卫生纸”的税收分类编码。
另外,当某一商品在税收分类数据库和商品数据库都没有自动匹配到税收分类编码也没有推荐税收分类编码时,当用户手工为该商品选择了或添加了税收分类编码时,匹配系统自动对用户的选择或添加(用户偏好)进行云计算,包括存储所有用户的偏好,按行业、按类型等多种维度计算分析偏好热度,为后续用户使用相同或相近商品,智能推荐匹配的税收分类。且本发明支持批量的商品信息的税收分类编码的匹配和匹配后携带有商品税收分类编码的商品信息的批量输出。
本发明的第三实施例提供了一种获得商品的税收分类编码的方法及系统,方法流程图可参见图3,包括:
构建税收分类智能匹配系统;
s201,导入或接入商品信息;提供商品信息导入功能,支持txt、excel文件导入方式,导入内容包含:编码、名称、简码、商品税目、税率等信息。
商品管理也支持已匹配税收分类编码的商品信息接入和导入,txt、excel或接口中补充税收分类编码、是否享受优惠政策、税收分类编码名称、优惠政策类型、零税率标识、编码版本号列。导入或接入后通过商品检测进行校验和纠正。
s202,商品信息检测,获得词元组合;通过云端ikanalyzer分词引擎,对每一条商品信息进行分词,解析出所有可能的词元,获得词元组合,或使用更专业的分词引擎。通过云端ikanalyzer分词引擎,对每一条商品信息进行分词。
对词元进行歧义消除,消歧逻辑:比较有效文本长度;比较尽量少词元;较大跨度路径;逆向切分概率高于正向切分,位置靠后的优先;词长尽量平均。
选取最优(或接近)不相交词元的组合作为最终解,存储于云端数据库,并扩充ikanalyzer词库。随着用户量的增加,按行业维护商品库,或使用更专业的分词引擎。
匹配逻辑:按完整匹配-正向最大匹配-反向最大匹配-关键词匹配-同义词匹配-近义词匹配的顺序逐个批量。
匹配结果:
直接显示:一对一匹配情况,直接推荐显示;
智能推荐:一对多匹配情况,云端服务根据所有用户选择税收分类的偏好,智能推荐;
热度最高:80%以上的用户选择,则直接推荐,直接显示。
热度一般:小于80%的用户选择,则多选项推荐,枚举显示。
热度较低:小于10%的用户选择,则提示用户手工选择。
以上结果,均支持手工纠错。
手工选择:无匹配结果情况,手工选择商品合适的税收分类编码。
对用户偏好(即手工选择的结果)进行云计算,包括存储所有用户的偏好,按行业、按类型等多种维度计算分析偏好热度,为后续用户使用相同或相近商品,智能推荐匹配的税收分类。
s204,结果导出或第三方回传
匹配结果通话文件导出或第三方软件接口回传到用户开票软件基础数据中,以备开票使用。
导出或回传内容:商品编码、商品名称、税收分类编码、是否享受优惠政策、税收分类编码名称、优惠政策类型、零税率标识、编码版本号等。
例如,提供一种基于云计算的商品与税收分类智能匹配方法,展示了一个完整的匹配推荐过程,具体包括:
商超企业用户给商品匹配税收分类编码,以备开票使用。例如西瓜、康师傅方便面、雪碧600ml、心心相印bt910卷筒卫生纸。
用户把商品信息导入智能匹配系统中,点击一键匹配按钮,匹配过程如表1所示:
表1
全部匹配成功后,可以导出,可以通过接口回写第三方软件。
本发明提供了一种获得商品的税收分类编码的方法和系统,获得商品数据库中的一商品的商品信息;获得所述商品信息对应的词元组合;基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述商品的税收分类编码。通过在税收分类数据库中自动进行匹配,从而解决了现有技术中采用的获取商品的税收分类编码的方式,匹配准确度低,在匹配选择上,人工参与易出错且不方便,用户选择税收分类难度较大的技术问题,达到了提高商品的税收分类编码的匹配准确度,降低用户获得商品的税收分类编码的难度,从而方便用户获得税收分类编码的技术效果。且本发明提供的一种获得商品的税收分类编码的方法和系统由于采用了上述技术方案,也达到了随着用户量的增加,手工选择的几率越来越小,准确度也越来越高的技术效果。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。