智器云杯数据情报分析大赛
第四届”智器云杯“数据情报分析大赛决赛(模拟赛第1场)

考试倒计时

29 : 56 : 16

已完成0题共10题

答题卡

0/10

一、数据清洗(50分)
  • 第1题暂存
  • 第2题暂存
二、案例分析(150分)
  • 第3题暂存
  • 第4题暂存
  • 第5题暂存
  • 第6题暂存
  • 第7题未提交
  • 第8题未提交
  • 第9题未提交
  • 第10题未提交
一、数据清洗(50分)
数据中心(比赛中涉及的数据可在此查询)
试题说明:

第一题和第二题是数据清洗题,每题都是独立的。

第三题至第十题是案例分析题,其中第三题至第六题存在上下关联,需要从第三题开始顺序做到第六题。第七至十题存在部分关联,但每题都是独立的。

第1题 数据清洗题1(20分) 已提交

在一起诈骗案件中,警方发现嫌疑团伙成员通过微信及银行卡进行资金转移,随后调取了相关嫌疑人的微信数据和银行卡交易数据。在分析之前,首先需要对该嫌疑人的数据进行清洗,以便后续我们对其进行分析。


请对本题数据进行数据清洗,清洗后样例数据如下图(仅显示5行数据)。

微信交易数据:

用户ID交易单号借贷类型交易类型交易金额账户余额交易时间银行类型交易说明商户名称交易ip发送方发送方姓名发送金额接收方接收方姓名接收时间接收金额银行卡号网银联单号是否内部交易商户号
085e9858e00101078b9eb0d05@wx.tenpay.com1000049901010103033204305000082470864667入账快捷交易2821.62021-03-23 11:29:39-#微信转账##网联##--085e9858e701010cf4c7fbe3e@wx.tenpay.com-2085e9858e00101078b9eb0d05@wx.tenpay.com-2021-03-23 11:29:3926227000101051174478--
085e9858e00101078b9eb0d06@wx.tenpay.com1000107101010103033205298000099931761667入账支付机构内其他交易5819.62021-03-23 11:26:57-#微信转账####--085e9858e4010106a66aac1f3@wx.tenpay.com-5085e9858e00101078b9eb0d05@wx.tenpay.com-2021-03-23 11:26:575--
085e9858e00101078b9eb0d07@wx.tenpay.com1000107101010103033200635000162511367667入账快捷交易2814.62021-03-23 11:08:22-#微信转账##网联##--085e9858e101010648c3193ae@wx.tenpay.com-2085e9858e00101078b9eb0d05@wx.tenpay.com-2021-03-23 11:08:2226217250101043939500--
085e9858e00101078b9eb0d08@wx.tenpay.com1000049901010103033203301000049468109667入账支付机构内其他交易3812.62021-03-23 11:03:34-#微信转账####--085e9858e2010109b2993c001@wx.tenpay.com-3085e9858e00101078b9eb0d05@wx.tenpay.com-2021-03-23 11:03:343--
085e9858e00101078b9eb0d09@wx.tenpay.com1000107101010103033205544000158601760667入账支付机构内其他交易5809.62021-03-23 10:55:07-#微信转账####--085e9858e3010105fdab61d55@wx.tenpay.com-5085e9858e00101078b9eb0d05@wx.tenpay.com-2021-03-23 10:55:075--

银行交易流水数据:

银行客户名称客户证件号码查询账号查询卡号交易对方名称交易对方证件号码交易对方账号交易对方卡号交易类型借贷标志币种交易金额交易余额交易时间交易流水号交易对方余额交易对方账号开户行交易摘要交易网点名称交易网点代码日志号传票号凭证种类凭证号现金标志终端号交易是否成功交易发生地商户名称商户号本方IP地址本方MAC地址对方IP地址对方MAC地址交易柜员号交易渠道备注
建设银行张锰72056419900512771462170030101099624856217003010109962485李一6221885010102493619转帐3000065342021-03-26 02:06:07100219426邮储银行网银跨行支付转入总行运营作业中心其他+000.成功
建设银行张锰72056419900512771462170030101099624856217003010109962485李一6221885010102493619转帐15000451472021-03-28 22:45:26110398625邮储银行网银跨行支付转入总行运营作业中心其他+000.成功
建设银行张锰72056419900512771462170030101099624856217003010109962485张三6217002010109940242转帐13000140232021-03-28 18:52:57109226339建设银行网银跨行支付转出总行运营作业中心其他+000.
邮政储蓄银行塔娜71032119940329661862179950101055443266217995010105544326钟宗6228483010108495577转帐400010022021-04-28 20:12:441010055361619611964586675农业银行跨行转出鲁:建行山东省分行本级其他成功
邮政储蓄银行塔娜71032119940329661862179950101055443266217995010105544326李勇6217001010104501983转帐34503.062021-04-28 20:06:531010055391619611612691594建设银行电子汇出鲁:建行山东省分行本级其他成功

清洗要求有以下五点:


(1)请将《数据清洗1微信数据.xlsx》中的交易金额(分)、账户余额(分)、发送金额(分)、接收金额(分)这四列中的数据进行单位换算,将转变为,并将交易金额(分)、账户余额(分)、发送金额(分)、接收金额(分)列的内容与交易金额、账户余额、发送金额、接收金额一一对应。(4分)


(2)请将《数据清洗1银行卡数据.xlsx》交易金额列值为空的数据进行删除。(4分)


(3)请将《数据清洗1银行卡数据.xlsx》中的交易金额列数据全部取正数。(提示:在明确交易记录中的借贷关系的前提下,若交易金额仍通过正负值形式表示借贷标志,则需要将负值进行取正处理)(4分)


(4)请将《数据清洗1银行卡数据.xlsx》中的交易时间改成标准格式。(提示:交易时间的标准格式为 yyyy-MM-dd hh:mm:ss[示例:2022-10-13 19:36:45])(4分)


(5)请对《数据清洗1银行卡数据.xlsx》客户名称列为空白的数据,通过《数据清洗1账户开户信息.xlsx》对客户名称列进行数据补全。(4分)

比赛中需要的数据:
答题卡下载:
答题区域
如您已完成解题,请使用本赛题标准答题卡上传结果,预览无误后点击提交。 已提交
答题说明微信数据答案银行卡数据答案
[周菲] 在 2025-10-22 21:58:01暂存 了一次
请不要此页面填写任何内容,请将答案填写至对应小问子表的答题区域内

第2题 数据清洗题1(30分) 已提交

在一起传销案件当中,警方调取了几个主要涉案人员的资金流水数据,在分析之前,我们应当对本数据进行数据清洗使其符合标准规范,便于后面进行数据分析。


请对《数据清洗2银行卡数据-1.xlsx》《数据清洗2银行卡数据-2.xlsx》进行清洗,清洗后样例数据如下图(仅显示5行数据)。

银行客户名称客户证件号码查询账号查询卡号交易对方名称交易对方证件号码交易对方账号交易对方卡号交易类型借贷标志币种交易金额交易余额交易时间交易流水号交易对方余额交易对方账号开户行交易摘要交易网点名称交易网点代码日志号传票号凭证种类凭证号现金标志终端号交易是否成功交易发生地商户名称商户号本方IP地址本方MAC地址对方IP地址对方MAC地址交易柜员号交易渠道备注
招商银行陈氢冰6225880101061623262258801010616232余氢文6230361010104566327623036101010456632750000303642021-03-25 20:32:07108840410福建省农村信用社联合社网银跨行支付转入总行运营作业中心其他+000.成功
招商银行陈氢冰6225880101061623262258801010616232黄氢山62305200101043154766230520010104315476转帐1000198112021-03-28 18:46:171010059061619606777198023跨行转出黑:建行黑龙江省分行运行中心(本级)其他成功
农业银行王汞亿622848101010091857062284810101009185706228481010100918570%ATM机存款%ATM机存款%ATM机存款1000862.942021-03-26 22:02:53109850854农业银行ATM机存款总行运营作业中心其他+000.成功
农业银行王汞亿622848101010091857062284810101009185706228481010100918570%ATM机存款%ATM机存款%ATM机存款2000122642021-03-26 22:54:45109829687农业银行ATM机存款总行运营作业中心其他+000.成功
张罴依62305220101094916766230522010109491676张罴进621028010105622246210280101056222415002021-04-27 18:27:00浙江稠州商业银行39.75.249.247c0e2a86551b1ba9fd7e6a068a22b204d

清洗要求有以下五点:

(1)在《数据清洗2银行卡数据-1.xlsx》中部分查询卡号中含有“_xxx”样式的尾缀,请删除尾缀。(示例:查询卡号列中为“62258801010616232_001”,将其尾缀“_001”去掉,清洗成“62258801010616232”) 。(6分)


(2)银行流水数据中借贷标志如果为,则 IP 地址中的 IP 字段为本方账号的 IP;借贷标志如果为,则 IP 地址中的 IP 字段为对方账号的 IP。请根据这个规则将《数据清洗2银行卡数据-1.xlsx》中每行数据的 IP 地址分别清洗至本方 IP 地址列和对方 IP 地址列中。同理也请将 MAC 地址分别清洗至本方 MAC 地址列和对方 MAC 地址列中。(6分)


(3)在《数据清洗2银行卡数据-2.xlsx》借贷标志中,不是以“出”和“进”表达时,如为“转出”、“转入”时,需要将其替换为“出”、“进”。(6 分)


(4)在《数据清洗2银行卡数据-2.xlsx》中交易日期和时间是以交易日期和交易时间两列的形式体现的,并且有的交易时间以首个不为“0”的数字形式展示,例:原本交易时间为“00:21:31”,但在交易时间这列中以“2131”形式体现。现在需要对交易日期和交易时间列进行清洗。条件如下:(6 分)

①需要将交易时间列缺失的数字“0”进行补全,补全后保证交易时间位数为6位,即“hhmmss”形式;

②补全后,将交易日期列和发生交易时间列进行合并,合并成“交易时间”列,合并后形式为“yyyy-MM-dd hh:mm:ss”;

示例:

修改前
交易日期发生时间
2023-01-01255
修改后
交易时间
2023-01-01 00:02:55


(5)对《数据清洗2银行卡数据-1.xlsx》中为空白的交易对方卡号交易对手名称进行补全。补全规则为当交易对方卡号为空白时,先依据交易对方名称补全。如果交易对方名称为空值,则依据查询卡号、交易类型交易摘要补全,若该三列信息有空值现象,直接做空值处理,分隔符为%,标准化格式为:查询卡号%交易类型%交易摘要%。(6分)

示例:

修改前
查询卡号交易对方卡号交易类型交易摘要
1000101ATM机存款ATM机存款
修改后
查询卡号交易对方卡号交易类型交易摘要
10001011000101%ATM机存款%ATM机存款%ATM机存款ATM机存款


将清洗好的《数据清洗2银行卡数据-1.xlsx》和《数据清洗2银行卡数据-2.xlsx》合并,作为本题的答案,填写到答题卡中。


比赛中需要的数据:
答题卡下载:
答题区域
如您已完成解题,请使用本赛题标准答题卡上传结果,预览无误后点击提交。 已提交
答题说明数据清洗题2答案
[周菲] 在 2025-10-22 21:57:36暂存 了一次
暂无答题信息,请在上传提交答案后选择要查看的数据。
问题反馈