spark 初始化建网及图计算算法测试

初始化建网测试流程


[toc]

测试目标

原始数据100万、500万、3000万、1亿建网性能测试。

性能测试范围:
  1. 数据处理
  2. 数据初始化导入图库
  3. 社区分割算法
性能测试指标:
  • CPU使用占比
  • Memory使用量
  • 磁盘I/O读写

测试流程

1. 数据生成:

测试数据生成以之前给的100万交易数据为基础,根据行方需求复制产生3个级别(500万、3000万、1亿)的数据。

数据格式
CARD_CLASSCARD_ATTRACPT_INS_ID_CDMSG_FWD_INS_ID_CDMSG_RCV_INS_ID_CDISS_INS_ID_CDTFR_IN_CARD_NOSYS_TRA_NOACPT_RESP_CDTRANS_IDTRANS_CHNLCARD_MEDIASETTLE_DTTRANS_ATTRANS_CURR_CDCARD_BINTFR_DT_TMLOC_TRANS_TMLOC_TRANS_DTMCHNT_TPPOS_ENTRY_MD_CDRETRI_REF_NOTERM_IDMCHNT_CDTO_TSTFR_OUT_CARD_NO
01188020005499921050001105341019623668****18599298250S317220181128100015619623668147112819583619583511286761127.1916E+11100000011.9801E+122018-11-28-19.59.36.50597519623501****0687
1118802000549992144112001441120019621021****27149353220S31722018112820015619621021112819583619583511286761127.19159E+11100000011.9801E+122018-11-28-19.59.36.53596619622858****3356
2128802000549992610000006100000016625919****79708240S3172201811288791415616625919112819583619571211286761127.1916E+11100000011.9801E+122018-11-28-19.59.36.15555919621799****7045
311310102249992142934101429341019622858****33569683200S3171201811281001561962285808112819583619582811286761127.19089E+114690023.10102E+142018-11-28-19.59.36.73196519621058****9812

2. 数据处理:

对100万基础数据以及生成的数据进行数据处理,生成银行卡节点及交易关系数据,用于初始化导入。
数据量原始数据大小生成节点数据大小生成关系数据大小数据处理时间CPUMemory(G)I/O(read/write)
100万203M34M(488,156)76M(1,799,154)16秒11%1.226M/s、10M/s
500万1015M34M(488,156)380M(5,710,129)51秒13%1.826M/s、10M/s
3千万6G34M(488,156)2.6G(30,313,040)4分33秒12%2.130M/s、11M/s
1亿20G34M(488,156)7.6G(98,604,929)14分30秒14.8%832M/s、13M/s
1亿数据处理机器性能图表展示

CPU性能展示: Memory剩余: I/O读: I/O写:

3. 初始化图库:

把生成的节点数据、关系数据导入到图数据库,建立节点,关系,初始化图数据库
数据量图库数据大小数据处理时间CPUMemory(G)I/O(write)
100万203M6秒23%0.83M/s
500万1015M10秒32%330M/s
3千万6G38秒63%4.1230M/s
1亿20G1分秒58秒85%8240M/s
1亿数据导入图库日志:
IMPORT DONE in 1m 58s 261ms.
Imported:
  487865 nodes
  98604829 relationships
  2439325 properties
Peak memory usage: 1.04 GB
1亿数据处理机器性能图表展示

CPU性能展示: Memory剩余: I/O读: I/O写:

4. 社区分割算法

数据量聚类分群处理时间连通图分群处理时间CPUMemory(G)I/O(write)
100万17分2秒1分10秒23%85M/s
500万18分1分18秒32%85M/s
3千万19分15秒1分17秒63%85M/s
1亿20分1分20秒85%85M/s
1亿数据处理机器性能图表展示

CPU性能展示: Memory剩余: I/O读: I/O写:

spark计算1亿条数据处理资源消耗截图