1. 吴信东,蒋婷婷,卜晨阳,李磊,刘啸剑. “一种针对家谱人物属性名称的融合方法”, 发明专利, 授权公告号:CN 109284393 B.
2. 吴信东,董丙冰,朱毅. “数据集成方法及装置”, 发明专利, 授权公告号:CN 110275919 B.
3. 吴信东,李娇,周鹏. “家谱数据的处理方法及装置,处理器“, 发明专利, 授权公告号:CN 110390024 B.
4. 李磊,刘古刘,吴共庆,吴信东. “一种基于区块链的智能合约的众包构建方法“, 发明专利, 授权公告号:CN 106843774 B.
5. 吴信东,盛绍静,卜晨阳,周鹏. “家谱打印方法及装置“, 发明专利, 授权公告号:CN 110989944 B.
家谱数据集:Genealogy-MBW
2. 文档下载
下载链接 | 描述 |
---|---|
Genealogy-MBW-数据集描述(中文版) |
Genealogy-MBW中文版数据集描述 |
Genealogy-MBW-Introduction(English) |
Genealogy-MBW英文版数据集描述 |
Genealogy-MBW-readme.txt |
Genealogy-MBW使用简介 |
Genealogy-MBW-nodes.txt |
Genealogy-MBW节点文件 |
Genealogy-MBW-edges.txt |
Genealogy-MBW边文件 |
3. Genealogy-MBW中文版数据集描述
3.1 简介
Genealogy-MBW来源于华谱系统(https://www.zhonghuapu.com/),是一份真实的家谱数据集,这份家谱以元代大德七年(1303年)徽州府婺源县出生、明朝搬迁到安庆府桐城县(现枞阳县)的一位吴姓祖宗开始(数据集里编号为0),记录了至2020年12月最近一次修谱竣工时他的所有后代数据,包括23646位有具体名字且属于这位吴姓的直系后代。为便于同家谱文化和图数据研究者共享,华谱系统提供此份仅包含单独立世人物的家谱数据,隐私信息已匿名处理。
华谱系统的家谱图数据库中,节点表示家谱人物,边表示人物之间的关系,节点的属性提供人物的描述信息。如图1所示,0、1、7323为三个节点,1、7323分别是0的儿子和隔16代的男性后代。至2022年7月,华谱系统已存储超过1855万人物节点和1130份家谱。

3.2 详细信息
表1是Genealogy-MBW数据集的详细信息,该数据集包含两个文件:Genealogy-MBW-nodes.txt文件提供关于节点全部描述信息,Genealogy-MBW-edges.txt提供关于边的信息,详细描述见图2、图3。

表2 是节点属性、属性值和特性的介绍,图2是Genealogy-MBW-nodes.txt文件中节点的介绍,其中属性值为空时表示该属性不适用。例如,“0,male,2,,1,,”表示id为0的男性人物,其家庭排行为2,世辈为1,过继家庭排行和隔代相连值不适用此人物;“8477,male,3,1,18,,”表示id为8477的男性人物,其家庭排行为3,过继家庭排行为1,世辈为18,隔代相连值不适用此人物。

图3是Genealogy-MBW-edges.txt 文件的介绍,其中的关系类型中英文对照表给在了表3中。表中隔代后代是一种特殊关系,它表示家谱中仅记录有某一人物的辈分和已知的最近直系先祖,而从这位直系先祖至该人物的中间人物均无法考证。为最大化保存家谱完整性,华谱系统中设计了这个新型关系来连接此人物和其直系先祖,在节点隔代相连值属性中保存其与直系先祖隔代值。



1. 家谱分卷源码下载
为促进家谱分卷算法研究,华谱系统现提供家谱算法TPA源码,下载链接如下:TPA_CODE。
2. 运行
2.1 在华谱系统【家谱数据集】模块下载家谱数据集:Genealogy-MBW;
2.2 修改main.py文件中文件路径,运行main.py文件即可完成分卷工作。