国内的媒体啊,总是想弄个大新闻,,,

哎,国内的媒体总是想弄个大新闻,
各种夸大其词,博得眼球,
他们总是用巨大的数据来吓唬不懂事的小老百姓

以网易52G举例,
关键字都是 :可怕 泄露 无一幸免 裸体 中国无隐私
殊不知 52G 实际为14年 撞库合并 ,其并无实际危害 ,
登录率低于6000000/1 (2018年9月20日使用163接口测试 感谢QQ群61076**提供的接口)

数据截图 ,截图来自网络

QQ图片20180927204404.png

并且此数据重复巨大,我用Python脚本去重后 大小不足 2G

以下是我合并去重方法,如果错误请指出

全部解压出后,使用haoya工具箱中的批量字符替换器 替换分割
因为原数据中 分割不统一
QQ图片20180927205006.png

然后用命令合并全部TXT

type  *.txt  >  a.txt

然后用py脚本去重复

#coding:utf-8
import shutil
readDir = "a.txt"
writeDir = "d:/d.txt"
lines_seen = set()
outfile=open(writeDir,"w")
f = open(readDir,"r")
for line in f:
    if line not in lines_seen:
        outfile.write(line)
        lines_seen.add(line)
outfile.close()
print "success"

终止得到一个不足2G的文件,其实最开始没去重复的时候 我就发现每个文件夹内的第一个TXT的数据
和另一个文件的第一个第一行的数据是一致的,但是没有想打居然有这么大的重复量,
还有就是导入到mysql后的数据 有大量无意义数据
也可以删除

delete from users where password like "12345%";  删除无意义密码行

delete from users where mail not like "%@%";    删除无效邮箱行

delete FROM users where length(password)<4;    删除少于4位密码


发表评论

  • OωO
  • |´・ω・)ノ
  • ヾ(≧∇≦*)ゝ
  • (☆ω☆)
  • (╯‵□′)╯︵┴─┴
  •  ̄﹃ ̄
  • (/ω\)
  • ∠(ᐛ」∠)_
  • (๑•̀ㅁ•́ฅ)
  • →_→
  • ୧(๑•̀⌄•́๑)૭
  • ٩(ˊᗜˋ*)و
  • (ノ°ο°)ノ
  • (´இ皿இ`)
  • ⌇●﹏●⌇
  • (ฅ´ω`ฅ)
  • (╯°A°)╯︵○○○
  • φ( ̄∇ ̄o)
  • (งᵒ̌皿ᵒ̌)ง⁼³₌₃
  • (ó﹏ò。)
  • Σ(っ°Д°;)っ
  • ╮(╯▽╰)╭
  • o(*
  • >﹏<
  • (。•ˇ‸ˇ•。)
  • 泡泡
  • 颜文字

*

已有 6 条评论
  1. 嘿,你好,我以前搞到了数据,目录和你一样,然后最近看到了你的这篇博客开始想着整理一下。但我整理出来的是一个10G左右的大小...因为没有你电脑那种直接49G开搞的强悍性能,所以我是分批弄的最后合并,但替换什么的步骤没有落下。感觉有点奇怪...

  2. 不清楚现在怎样。当时的命中率挺高的,我在第一个 163mail1.zip 里随手抽了1条就登上去了。