实体关系补全程序运行顺序记录

1.服务器上105节点   yao/entity/produce_entity_db_index.py       python produce_entity_db_index.py   参数1[no_link列表起始位置]   参数2[no_link列表结束位置]   参数3[所有词向量存入的文件标记数]          

2.mypython_Linking/CNN        bu_link.py    将bu_link中有的链接补充到DB_id_index.txt中,生成新文件DB_id_index_bu.txt     !!!!!!bu_link.py里有一个补全阈值设置。  该文件放入服务器上运行,因为补全的的过程是在服务器105节点上跑的。    生成 bu_link.txt     当前将阈值设为0.9,发现设置这个阈值的话,能满足要求的只有id自己,所以适当的把阈值放小。    补一份0.8阈值;补一份0.85阈值。从服务器上下载,分别命名为bu_link0.8.txt , bu_link0.85.txt。


然后在本地运行bu_link.py的本地代码,生成有用文件DB_id_index_bu.txt

bu_link.txt文件名,按需求自行切换


3.mypython_Linking/data_handle      merge_all_data_db_id.py    不补的时候,6年候选集id及其链接形成的ID个数为161179,则实体向量表的大小为161179。    但通过Trans模型对一些关系相对缺乏的实体进行了补全,则现在形成的ID个数为163019,则实体向量表的大小为163019。-----------这段描述是基于bu_link.py阈值设置为0.6,生成bu_link.txt得到的统计结果。

值得注意:merge_all_data_db_id.py有一块对bu_link.txt文件的merge合并。该处代码需要根据需求更改。

将bu_link.txt修改为bu_link0.8.txt

不补的时候,6年候选集id及其链接形成的ID个数为161179,则实体向量表的大小为161179。    但通过Trans模型对一些关系相对缺乏的实体进行了补全,bu_link0.8.txt,则现在形成的ID个数为161360,则实体向量表的大小为161360。-----------这段描述是基于bu_link.py阈值设置为0.8,生成bu_link0.8.txt得到的统计结果。

然后生成新文件:my_entity_vecs_bu.txt 补全得到的一份实体向量表  ; entityId_bu.txt补全得到的一份实体id表   ; min_DB_id_index_bu.txt补全得到所有实体关系表

merge_all_data_db_id.py    生成一些新文件

4.mypython_Linking/data_handle      produce_entity_index.py 知识库中的实体关系,生成实体id索引。生成一份实体向量表min_DBIndex_bu.txt



myCNN3
entityCNN2
entityCNN2

你可能感兴趣的:(实体关系补全程序运行顺序记录)