考试倒计时
29 : 56 : 16
已完成0题共10题
答题卡 0/10
一、数据清洗(50分)
- 第1题暂存
- 第2题暂存
二、案例分析(150分)
- 第3题暂存
- 第4题暂存
- 第5题暂存
- 第6题暂存
- 第7题未提交
- 第8题未提交
- 第9题未提交
- 第10题未提交
一、数据清洗(50分)
试题说明:
第一题和第二题是数据清洗题,每题都是独立的。
第三题至第十题是案例分析题,其中第三题至第六题存在上下关联,需要从第三题开始顺序做到第六题。第七至十题存在部分关联,但每题都是独立的。
第1题 数据清洗题1(20分)  已提交 
在一起诈骗案件中,警方发现嫌疑团伙成员通过微信及银行卡进行资金转移,随后调取了相关嫌疑人的微信数据和银行卡交易数据。在分析之前,首先需要对该嫌疑人的数据进行清洗,以便后续我们对其进行分析。
请对本题数据进行数据清洗,清洗后样例数据如下图(仅显示5行数据)。
微信交易数据:
| 用户ID | 交易单号 | 借贷类型 | 交易类型 | 交易金额 | 账户余额 | 交易时间 | 银行类型 | 交易说明 | 商户名称 | 交易ip | 发送方 | 发送方姓名 | 发送金额 | 接收方 | 接收方姓名 | 接收时间 | 接收金额 | 银行卡号 | 网银联单号 | 是否内部交易 | 商户号 | 
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 085e9858e00101078b9eb0d05@wx.tenpay.com | 1000049901010103033204305000082470864667 | 入账 | 快捷交易 | 2 | 821.6 | 2021-03-23 11:29:39 | - | #微信转账##网联## | - | - | 085e9858e701010cf4c7fbe3e@wx.tenpay.com | - | 2 | 085e9858e00101078b9eb0d05@wx.tenpay.com | - | 2021-03-23 11:29:39 | 2 | 6227000101051174478 | - | 否 | - | 
| 085e9858e00101078b9eb0d06@wx.tenpay.com | 1000107101010103033205298000099931761667 | 入账 | 支付机构内其他交易 | 5 | 819.6 | 2021-03-23 11:26:57 | - | #微信转账#### | - | - | 085e9858e4010106a66aac1f3@wx.tenpay.com | - | 5 | 085e9858e00101078b9eb0d05@wx.tenpay.com | - | 2021-03-23 11:26:57 | 5 | - | 否 | - | |
| 085e9858e00101078b9eb0d07@wx.tenpay.com | 1000107101010103033200635000162511367667 | 入账 | 快捷交易 | 2 | 814.6 | 2021-03-23 11:08:22 | - | #微信转账##网联## | - | - | 085e9858e101010648c3193ae@wx.tenpay.com | - | 2 | 085e9858e00101078b9eb0d05@wx.tenpay.com | - | 2021-03-23 11:08:22 | 2 | 6217250101043939500 | - | 否 | - | 
| 085e9858e00101078b9eb0d08@wx.tenpay.com | 1000049901010103033203301000049468109667 | 入账 | 支付机构内其他交易 | 3 | 812.6 | 2021-03-23 11:03:34 | - | #微信转账#### | - | - | 085e9858e2010109b2993c001@wx.tenpay.com | - | 3 | 085e9858e00101078b9eb0d05@wx.tenpay.com | - | 2021-03-23 11:03:34 | 3 | - | 否 | - | |
| 085e9858e00101078b9eb0d09@wx.tenpay.com | 1000107101010103033205544000158601760667 | 入账 | 支付机构内其他交易 | 5 | 809.6 | 2021-03-23 10:55:07 | - | #微信转账#### | - | - | 085e9858e3010105fdab61d55@wx.tenpay.com | - | 5 | 085e9858e00101078b9eb0d05@wx.tenpay.com | - | 2021-03-23 10:55:07 | 5 | - | 否 | - | 
银行交易流水数据:
| 银行 | 客户名称 | 客户证件号码 | 查询账号 | 查询卡号 | 交易对方名称 | 交易对方证件号码 | 交易对方账号 | 交易对方卡号 | 交易类型 | 借贷标志 | 币种 | 交易金额 | 交易余额 | 交易时间 | 交易流水号 | 交易对方余额 | 交易对方账号开户行 | 交易摘要 | 交易网点名称 | 交易网点代码 | 日志号 | 传票号 | 凭证种类 | 凭证号 | 现金标志 | 终端号 | 交易是否成功 | 交易发生地 | 商户名称 | 商户号 | 本方IP地址 | 本方MAC地址 | 对方IP地址 | 对方MAC地址 | 交易柜员号 | 交易渠道 | 备注 | 
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 建设银行 | 张锰 | 720564199005127714 | 6217003010109962485 | 6217003010109962485 | 李一 | 6221885010102493619 | 转帐 | 进 | 30000 | 6534 | 2021-03-26 02:06:07 | 100219426 | 邮储银行 | 网银跨行支付转入 | 总行运营作业中心 | 其他 | +000. | 成功 | |||||||||||||||||||
| 建设银行 | 张锰 | 720564199005127714 | 6217003010109962485 | 6217003010109962485 | 李一 | 6221885010102493619 | 转帐 | 进 | 15000 | 45147 | 2021-03-28 22:45:26 | 110398625 | 邮储银行 | 网银跨行支付转入 | 总行运营作业中心 | 其他 | +000. | 成功 | |||||||||||||||||||
| 建设银行 | 张锰 | 720564199005127714 | 6217003010109962485 | 6217003010109962485 | 张三 | 6217002010109940242 | 转帐 | 出 | 13000 | 14023 | 2021-03-28 18:52:57 | 109226339 | 建设银行 | 网银跨行支付转出 | 总行运营作业中心 | 其他 | +000. | ||||||||||||||||||||
| 邮政储蓄银行 | 塔娜 | 710321199403296618 | 6217995010105544326 | 6217995010105544326 | 钟宗 | 6228483010108495577 | 转帐 | 出 | 4000 | 1002 | 2021-04-28 20:12:44 | 1010055361619611964586675 | 农业银行 | 跨行转出 | 鲁:建行山东省分行本级 | 其他 | 成功 | ||||||||||||||||||||
| 邮政储蓄银行 | 塔娜 | 710321199403296618 | 6217995010105544326 | 6217995010105544326 | 李勇 | 6217001010104501983 | 转帐 | 出 | 3450 | 3.06 | 2021-04-28 20:06:53 | 1010055391619611612691594 | 建设银行 | 电子汇出 | 鲁:建行山东省分行本级 | 其他 | 成功 | 
清洗要求有以下五点:
(1)请将《数据清洗1微信数据.xlsx》中的交易金额(分)、账户余额(分)、发送金额(分)、接收金额(分)这四列中的数据进行单位换算,将分转变为元,并将交易金额(分)、账户余额(分)、发送金额(分)、接收金额(分)列的内容与交易金额、账户余额、发送金额、接收金额一一对应。(4分)
(2)请将《数据清洗1银行卡数据.xlsx》中交易金额列值为空的数据进行删除。(4分)
(3)请将《数据清洗1银行卡数据.xlsx》中的交易金额列数据全部取正数。(提示:在明确交易记录中的借贷关系的前提下,若交易金额仍通过正负值形式表示借贷标志,则需要将负值进行取正处理)(4分)
(4)请将《数据清洗1银行卡数据.xlsx》中的交易时间改成标准格式。(提示:交易时间的标准格式为 yyyy-MM-dd hh:mm:ss[示例:2022-10-13 19:36:45])(4分)
(5)请对《数据清洗1银行卡数据.xlsx》中客户名称列为空白的数据,通过《数据清洗1账户开户信息.xlsx》对客户名称列进行数据补全。(4分)
比赛中需要的数据:
答题卡下载:
答题区域 
 如您已完成解题,请使用本赛题标准答题卡上传结果,预览无误后点击提交。  已提交 
 [周菲] 在 2025-10-22 21:58:01暂存 了一次
| 请不要此页面填写任何内容,请将答案填写至对应小问子表的答题区域内 | 
|---|
第2题 数据清洗题1(30分)  已提交 
在一起传销案件当中,警方调取了几个主要涉案人员的资金流水数据,在分析之前,我们应当对本数据进行数据清洗使其符合标准规范,便于后面进行数据分析。
请对《数据清洗2银行卡数据-1.xlsx》和《数据清洗2银行卡数据-2.xlsx》进行清洗,清洗后样例数据如下图(仅显示5行数据)。
| 银行 | 客户名称 | 客户证件号码 | 查询账号 | 查询卡号 | 交易对方名称 | 交易对方证件号码 | 交易对方账号 | 交易对方卡号 | 交易类型 | 借贷标志 | 币种 | 交易金额 | 交易余额 | 交易时间 | 交易流水号 | 交易对方余额 | 交易对方账号开户行 | 交易摘要 | 交易网点名称 | 交易网点代码 | 日志号 | 传票号 | 凭证种类 | 凭证号 | 现金标志 | 终端号 | 交易是否成功 | 交易发生地 | 商户名称 | 商户号 | 本方IP地址 | 本方MAC地址 | 对方IP地址 | 对方MAC地址 | 交易柜员号 | 交易渠道 | 备注 | 
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 招商银行 | 陈氢冰 | 62258801010616232 | 62258801010616232 | 余氢文 | 6230361010104566327 | 6230361010104566327 | 进 | 50000 | 30364 | 2021-03-25 20:32:07 | 108840410 | 福建省农村信用社联合社 | 网银跨行支付转入 | 总行运营作业中心 | 其他 | +000. | 成功 | ||||||||||||||||||||
| 招商银行 | 陈氢冰 | 62258801010616232 | 62258801010616232 | 黄氢山 | 6230520010104315476 | 6230520010104315476 | 转帐 | 出 | 1000 | 19811 | 2021-03-28 18:46:17 | 1010059061619606777198023 | 跨行转出 | 黑:建行黑龙江省分行运行中心(本级) | 其他 | 成功 | |||||||||||||||||||||
| 农业银行 | 王汞亿 | 6228481010100918570 | 6228481010100918570 | 6228481010100918570%ATM机存款%ATM机存款% | ATM机存款 | 进 | 1000 | 862.94 | 2021-03-26 22:02:53 | 109850854 | 农业银行 | ATM机存款 | 总行运营作业中心 | 其他 | +000. | 成功 | |||||||||||||||||||||
| 农业银行 | 王汞亿 | 6228481010100918570 | 6228481010100918570 | 6228481010100918570%ATM机存款%ATM机存款% | ATM机存款 | 进 | 2000 | 12264 | 2021-03-26 22:54:45 | 109829687 | 农业银行 | ATM机存款 | 总行运营作业中心 | 其他 | +000. | 成功 | |||||||||||||||||||||
| 张罴依 | 6230522010109491676 | 6230522010109491676 | 张罴进 | 62102801010562224 | 62102801010562224 | 出 | 1500 | 2021-04-27 18:27:00 | 浙江稠州商业银行 | 39.75.249.247 | c0e2a86551b1ba9fd7e6a068a22b204d | 
清洗要求有以下五点:
(1)在《数据清洗2银行卡数据-1.xlsx》中部分查询卡号中含有“_xxx”样式的尾缀,请删除尾缀。(示例:查询卡号列中为“62258801010616232_001”,将其尾缀“_001”去掉,清洗成“62258801010616232”) 。(6分)
(2)银行流水数据中借贷标志如果为出,则 IP 地址中的 IP 字段为本方账号的 IP;借贷标志如果为进,则 IP 地址中的 IP 字段为对方账号的 IP。请根据这个规则将《数据清洗2银行卡数据-1.xlsx》中每行数据的 IP 地址分别清洗至本方 IP 地址列和对方 IP 地址列中。同理也请将 MAC 地址分别清洗至本方 MAC 地址列和对方 MAC 地址列中。(6分)
(3)在《数据清洗2银行卡数据-2.xlsx》的借贷标志中,不是以“出”和“进”表达时,如为“转出”、“转入”时,需要将其替换为“出”、“进”。(6 分)
(4)在《数据清洗2银行卡数据-2.xlsx》中交易日期和时间是以交易日期和交易时间两列的形式体现的,并且有的交易时间以首个不为“0”的数字形式展示,例:原本交易时间为“00:21:31”,但在交易时间这列中以“2131”形式体现。现在需要对交易日期和交易时间列进行清洗。条件如下:(6 分)
①需要将交易时间列缺失的数字“0”进行补全,补全后保证交易时间位数为6位,即“hhmmss”形式;
②补全后,将交易日期列和发生交易时间列进行合并,合并成“交易时间”列,合并后形式为“yyyy-MM-dd hh:mm:ss”;
示例:
| 修改前 | |
| 交易日期 | 发生时间 | 
| 2023-01-01 | 255 | 
| 修改后 | |
| 交易时间 | |
| 2023-01-01 00:02:55 | 
(5)对《数据清洗2银行卡数据-1.xlsx》中为空白的交易对方卡号和交易对手名称进行补全。补全规则为当交易对方卡号为空白时,先依据交易对方名称补全。如果交易对方名称为空值,则依据查询卡号、交易类型及交易摘要补全,若该三列信息有空值现象,直接做空值处理,分隔符为%,标准化格式为:查询卡号%交易类型%交易摘要%。(6分)
示例:
| 修改前 | |||
| 查询卡号 | 交易对方卡号 | 交易类型 | 交易摘要 | 
| 1000101 | ATM机存款 | ATM机存款 | |
| 修改后 | |||
| 查询卡号 | 交易对方卡号 | 交易类型 | 交易摘要 | 
| 1000101 | 1000101%ATM机存款%ATM机存款% | ATM机存款 | ATM机存款 | 
将清洗好的《数据清洗2银行卡数据-1.xlsx》和《数据清洗2银行卡数据-2.xlsx》合并,作为本题的答案,填写到答题卡中。
比赛中需要的数据:
答题卡下载:
答题区域 
 如您已完成解题,请使用本赛题标准答题卡上传结果,预览无误后点击提交。  已提交 
 [周菲] 在 2025-10-22 21:57:36暂存 了一次
暂无答题信息,请在上传提交答案后选择要查看的数据。

