国内的媒体啊,总是想弄个大新闻,,,
哎,国内的媒体总是想弄个大新闻,
各种夸大其词,博得眼球,
他们总是用巨大的数据来吓唬不懂事的小老百姓
以网易52G举例,
关键字都是 :可怕 泄露 无一幸免 裸体 中国无隐私
殊不知 52G 实际为14年 撞库合并 ,其并无实际危害 ,
登录率低于6000000/1 (2018年9月20日使用163接口测试 感谢QQ群61076**提供的接口)
数据截图 ,截图来自网络
并且此数据重复巨大,我用Python脚本去重后 大小不足 2G
以下是我合并去重方法,如果错误请指出
全部解压出后,使用haoya工具箱中的批量字符替换器 替换分割
因为原数据中 分割不统一
然后用命令合并全部TXT
type *.txt > a.txt
然后用py脚本去重复
#coding:utf-8
import shutil
readDir = "a.txt"
writeDir = "d:/d.txt"
lines_seen = set()
outfile=open(writeDir,"w")
f = open(readDir,"r")
for line in f:
if line not in lines_seen:
outfile.write(line)
lines_seen.add(line)
outfile.close()
print "success"
终止得到一个不足2G的文件,其实最开始没去重复的时候 我就发现每个文件夹内的第一个TXT的数据
和另一个文件的第一个第一行的数据是一致的,但是没有想打居然有这么大的重复量,
还有就是导入到mysql后的数据 有大量无意义数据
也可以删除
delete from users where password like "12345%"; 删除无意义密码行
delete from users where mail not like "%@%"; 删除无效邮箱行
delete FROM users where length(password)<4; 删除少于4位密码
发表评论
已有 6 条评论
哇大佬,我在你在tg群当小白,差点就信了
哇大佬,我在你在tg群当小白,差点就信了
嘿,你好,我以前搞到了数据,目录和你一样,然后最近看到了你的这篇博客开始想着整理一下。但我整理出来的是一个10G左右的大小...因为没有你电脑那种直接49G开搞的强悍性能,所以我是分批弄的最后合并,但替换什么的步骤没有落下。感觉有点奇怪...
不清楚现在怎样。当时的命中率挺高的,我在第一个 163mail1.zip 里随手抽了1条就登上去了。
为什么总感觉应该 1/6000000 这样书写更好一点。