命名实体识别数据预处理西西嘛呦

背景:从提供的金融文本中识别出未出现的未知金融实体

一、简单的熟悉数据

使用数据:

importpandasaspd#原始数据集train_df=pd.read_csv('./train.csv',encoding='utf-8')test_df=pd.read_csv('./test.csv',encoding='utf-8')部分数据如下:

二、清理数据

(1)找出所有的非中文、非英文、非数字符号

#一些需要保留的符号extra_chars=set("!#$%&\()*+,-./:;<=>@[\\]^_`{|}~!#¥%&?《》{}“”,:‘’。()·、;【】")print(extra_chars){')','\\','+','>','¥','‘','=','【','#',';','^','|','{','@','}','-','/',':','%','“','、','!','',']','_','】','&','~','(',')','*','?','。','[',':',';',',',',','!','.','<','’','`','(','》','·','《','”','$'}(3)找出他们之间的差异

train_df['text']=train_df['title'].fillna('')+train_df['text'].fillna('')test_df['text']=test_df['title'].fillna('')+test_df['text'].fillna('')#清除噪声train_df['text']=train_df['text'].apply(stop_words)test_df['text']=test_df['text'].apply(stop_words)train_df=train_df.fillna('')可视化train_df:

三、探索数据

(1)原始数据中可能存在一些错误的标签我们需要将其找出来

train_df['unknownEntities']=label_listtrain_df=train_df[~train_df['unknownEntities'].isnull()]#删除空标签train_df.to_csv('new_train_df.csv')new_test_df=test_df[:]#测试集new_test_df.to_csv('new_test_df.csv',encoding='utf-8',index=False)(4)看一下句子长度的分布

重新加载初步处理好的数据:

统计一下每个区间的长度的个数:

看下总体描述:

最大长度是32212,最小长度是4,75%的数据长度在1357以下。

句子还是比较长的,我们需进分句处理:

new_train_df=new_train_df.loc[:,~new_train_df.columns.str.contains("^Unnamed")]#切分训练集,分成训练集和验证集,在这可以尝试五折切割print('TrainSetSize:',new_train_df.shape)new_dev_df=new_train_df[4000:]frames=[new_train_df[:2000],new_train_df[2001:4000]]new_train_df=pd.concat(frames)#训练集new_train_df=new_train_df.fillna('')new_test_df=new_train_df[:]#测试集同样的我们要对测试集也进行相应的划分,这里的测试集是没有标签的:

#数据切分defcut_test_set(text_list):cut_text_list=[]cut_index_list=[]fortextintext_list:temp_cut_text_list=[]text_agg=''iflen(text)

五折划分数据(可选)

fromsklearn.model_selectionimportKFoldtrain_text_list=train_df['text'].values[:,None]train_label_list=train_df['unknownEntities'].values[:,None]kf=KFold(n_splits=5)fortrain_index,dev_indexinkf.split(train_text_list):train_x,dev_x=train_text_list[train_index],train_text_list[dev_index]train_y,dev_y=train_label_list[train_index],train_label_list[dev_index]验证切分是否正确:

"""测试切分是否正确"""flag=Truefori,textinenumerate(train_cut_text_list):label_list=train_cut_label_list[i].split(';')forliinlabel_list:iflinotintext:print(i)print(li)print(text)flag=Falseprint()breakifli=='':print(li)print(text)flag=Falseprint()ifflag:print("训练集切分正确!")else:print("训练集切分错误!")flag=Truefori,textinenumerate(dev_cut_text_list):label_list=dev_cut_label_list[i].split(';')forliinlabel_list:iflinotintext:print(i)print(li)print(text)print()flag=Falseifflag:print("验证集切分正确!")else:print("验证集切分错误!")

THE END
1.广发可转债债券E(010629)最新动态投资类型:债券型 广发可转债债券E增长自成立以来,共分红 0 次 基金经理:吴敌 基金规模:8.56亿元 广发可转债债券E基金收益率排名表 一年以上 一年以内 ...企业短期融资券 0.00 0.00% 企业债 0.00 0.00% 央行票据 0.00 0.00%基金评级 评级机构星级星级占比说明 济安金信 占济安金信评级基金总数最后位置的10% ...http://basic.10jqka.com.cn/JBGB76/index.html
2.互联网:11月14日融资买入6852.65万元,融资融券余额1.76亿元证券之星消息,11月14日,互联网(159792)融资买入6852.65万元,融资偿还7421.53万元,融资净卖出568.88万元,融资余额1.76亿元。 融券方面,当日无融券交易。 融资融券余额1.76亿元,较昨日下滑3.13%。 小知识 融资融券:目前,个人投资者参与融资融券主要需要具备2个条件:1、从事证券交易至少6个月;2、账户资产满足前20个交易日...https://stock.stockstar.com/RB2024111500014708.shtml
3.大富科技获融资买入0.19亿元,近三日累计买入0.88亿元融券沪深...11月13日,沪深两融数据显示,大富科技获融资买入额0.19亿元,居两市第1834位,当日融资偿还额0.29亿元,净卖出986.68万元。 最近三个交易日,11日-13日,大富科技分别获融资买入0.44亿元、0.25亿元、0.19亿元。 融券方面,当日融券卖出1.22万股,净卖出1.14万股。 https://www.163.com/dy/article/JGUOJ6GE0519QIKK.html
4.玖富(JFU)股票价格行情新股申购新股日历资金流向AH股比价主力排名板块资金个股研报行业研报盈利预测千股千评年报季报龙虎榜单限售解禁大宗交易期指持仓融资融券 沪深港通 沪股通-资金流入-深股通-资金流入-港股通(沪)-资金流入-港股通(深)-资金流入- 最近访问:玖富 --- 全球指数美股行情美股吧国际期货 ...http://quote.eastmoney.com/us/JFU.html?Market=NYSE
5.微博正文玖富财富亏损被骗的朋友看过来,真实经历教你教你一招挽回损失!玖富财富带单老师:吴彪、客服:程经理、助理:夏琳。有在久富财富、玖富资本做股票融资融券亏损的朋友可以抓紧时间与博主沟通,挽回损失。广东的刘先生四月中旬在《玖富财富》操作股票融资融券亏损,后联系到我司法务助理,委托我司通过法律途径帮助其挽回损失,于...https://m.weibo.cn/status/Ht5CgmMzz
1.固定收益信息平台固定收益信息平台 自选债券 首页 业务介绍 信息披露 市场数据 规则指引 培训与服务 证券详情位置: 固定收益信息平台/信息披露/产品基本信息/证券详情 信息披露 项目进度信息 产品基本信息 国债 地方政府债券 政策性金融债 政府支持债券 公司债券(含企业债券) 可交换公司债券 非公开发行公司债券...https://bond.szse.cn/disclosure/productinfo/detail/index.html?catelogId=gscpxq&code=148989
2.公募基金净值信息 公告信息 主体信息 互认基金 公告信息 主体信息 基金XBRL专区 XBRL公告 XBRL分类标准框架 净值信息 股票型 货币型 债券型 混合型 QDII 短期理财债券型 基础设施基金 基金中基金(FOF) 商品基金 更多 代码简称当日净值累计净值估值日期 512050华夏中证A500ETF0.96510.96512024-11-15 ...http://eid.csrc.gov.cn/fund
3.股票模拟交易模拟盘源码PHP股票证券线上配资融资融券模拟...尚美源码教程库 ? 【股票模拟交易、模拟盘源码】PHP股票证券线上配资融资融券模拟交易、模拟盘平台系统源码 分享到: 上一篇2021子哦谢玖富PC28理财盘服务器打包完整源码/带微信登录/带支付接口 下一篇【滴滴顺风车小程序V1.1.9】功能模块+前端+后端+城市共享交通打车网约车平台 ...https://www.esmo.cn/esmo-2738.html
4.手把手教你实现命名实体识别样本数据包含文本标识号(ID)、题目(title)、正文(text)、识别出的未知实体(unknownEntity)四列,这个阶段需要做的事情就是要将数据样本处理成BIEO或BIO等格式。预处理之后的数据格式如下: (2)代码解析 导入相关库 importpandasaspdimportcodecsimportreimportjsonimportsys ...https://blog.csdn.net/chengjinpei/article/details/116665509