V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
zgbgx1
V2EX  ›  Python

问个问题,要把淘宝 支付宝的登陆 完全用 requests urllib 写出来,需要多强的前端和爬虫水平

  •  
  •   zgbgx1 ·
    zgbgx · 2017-09-19 11:20:31 +08:00 · 8252 次点击
    这是一个创建于 2631 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我是从 java web 转到爬虫和数据的,以前,也要自己写前端,但是看到阿里的这些前端的各种各样的东西,有些实在找不到请求发出的文件,找不到具体哪个请求可能设置了 cookie 或 session,还有很多前端加密的东西 也不是很熟

    34 条回复    2018-10-12 21:06:51 +08:00
    hu0097
        1
    hu0097  
       2017-09-19 13:01:07 +08:00
    登录有加密的,刚入门搞不定的。用 selenium 吧
    zgbgx1
        2
    zgbgx1  
    OP
       2017-09-19 13:43:37 +08:00
    @hu0097 不是刚入门,做过前后端开发
    LukeChien
        3
    LukeChien  
       2017-09-19 14:12:36 +08:00
    用 Chrome Headless
    zgbgx1
        4
    zgbgx1  
    OP
       2017-09-19 14:16:38 +08:00
    @LukeChien 用 webdriver 就是另一种方式了
    fy
        5
    fy  
       2017-09-19 15:00:40 +08:00
    需要 selenium/chrome headless
    shingle
        6
    shingle  
       2017-09-19 18:14:58 +08:00
    完全模拟是几乎不可能的,光`ua`参数的加密就够你受的了
    102400
        7
    102400  
       2017-09-19 19:24:48 +08:00
    搞定这个登录不会少于 1k 的,建议放弃或者直接找人买
    zzNucker
        8
    zzNucker  
       2017-09-19 19:29:51 +08:00
    1k 你想多了
    起码 w 起
    Tink
        9
    Tink  
       2017-09-19 19:54:43 +08:00 via iPhone
    @102400 你确定 1k ?
    regicide
        10
    regicide  
       2017-09-19 20:10:45 +08:00 via iPhone
    去逆向网易有财的 app 包看他们怎么实现的
    neoblackcap
        11
    neoblackcap  
       2017-09-19 20:12:51 +08:00
    干爬支付宝的早死了,第频率的还可,高频率的,技术封了,触发风控系统,做爬虫很难解决的。
    binux
        12
    binux  
       2017-09-19 20:16:46 +08:00
    用 requests 写个代理,然后把浏览器设置到你代理上,这算不算「完全用 requests urllib 写出来」?
    fiht
        13
    fiht  
       2017-09-19 21:22:53 +08:00
    无法量化
    成本过高
    不如用印度云手工登录生成 cookie
    wuhau
        14
    wuhau  
       2017-09-19 22:30:10 +08:00
    taobao 用 selenium,抓 cookie2,之前做淘宝客搞过这玩意。淘宝就不清楚了。
    ob
        15
    ob  
       2017-09-19 23:13:53 +08:00 via Android
    现在稍微登录情景有点不一样,就开始手机验证,地址验证,各种验证。。
    LukeChien
        16
    LukeChien  
       2017-09-20 00:31:12 +08:00
    起台虚拟机跑 Chrome Headless,可以搞
    Luckyray
        17
    Luckyray  
       2017-09-20 00:53:29 +08:00 via iPhone
    那个 ua 就卡死我了……
    FanWall
        18
    FanWall  
       2017-09-20 03:00:55 +08:00 via Android
    来说一下~楼上 1w 也想多了,别说纯算法了,就是临时的解决方案也不是这个价格。
    加密代码混淆且经常更新的,且都是业界顶级。
    而且以支付宝的开发能力,我觉得这种前端加密在不远的未来就几乎无解:破了一个混淆?那我重新混淆下;破了混淆机制?那我换个混淆机制换个算法…
    通用解决方案也许是对底层十分精通的人才能做到的吧。。写个专用的解释器出来?猜的。。。
    daimao
        19
    daimao  
       2017-09-20 03:04:48 +08:00
    你 xx 出多少, 我阿里出两倍(
    jingniao
        20
    jingniao  
       2017-09-20 08:40:34 +08:00 via Android
    感觉不光是技术问题,淘宝支付宝现在动不动就手机验证之类的,风控麻烦
    huanglongtiankon
        21
    huanglongtiankon  
       2017-09-20 08:41:16 +08:00
    想要纯技术突破还是别想了,最现实的解决方案是手工登录后拿到 cookies,然后再爬
    zgbgx1
        22
    zgbgx1  
    OP
       2017-09-20 08:51:08 +08:00
    @huanglongtiankon webdriver 登陆,拿到 cookies,然后再爬的已经做了,还有内置浏览器拿 cookies 的方案
    Ehco1996
        23
    Ehco1996  
       2017-09-20 09:06:42 +08:00 via iPhone
    @zgbgx1

    我也用 webdirver 拿 cookie 试过

    就算你随机访问,定时刷新
    三个小时之内还是会死
    loveCoding
        24
    loveCoding  
       2017-09-20 10:04:04 +08:00
    淘宝的反爬虫不是开玩笑
    levon
        25
    levon  
       2017-09-20 10:07:47 +08:00
    如果是去爬淘宝的网页,即使登录实现了,也意义不大。反爬虫机制级别很高。
    jccg90
        26
    jccg90  
       2017-09-20 12:41:04 +08:00
    成本很高,因为要登录,所以要找一堆账号来测试,失败了账号就被标记了,整天就各种验证。。。只能换账号
    m939594960
        27
    m939594960  
       2017-09-20 13:19:45 +08:00
    @FanWall #18 别想得这么难,这么贵。实际上私下多少人流通这套技术你也不知道。。而且算法不可能变动的那么频繁的,一年变一回就不错了
    ioriwong
        28
    ioriwong  
       2017-09-20 15:02:46 +08:00 via iPhone
    我做过虚拟机自动取得 Cookies 的方案
    googlebot
        29
    googlebot  
       2017-09-20 15:53:53 +08:00 via iPad
    跟马云的余额宝都,需要勇气,
    sarices
        30
    sarices  
       2017-09-20 16:44:31 +08:00
    淘宝打开链接快一点都提示输入验证码,特别是各种电子票,旅游子类的。
    sola97
        31
    sola97  
       2017-09-20 16:50:51 +08:00
    不敢想
    a234712524
        32
    a234712524  
       2017-09-29 14:00:49 +08:00
    @hu0097 请问你的联系方式多少,我有点事情想向你咨询
    HANlalala
        33
    HANlalala  
       2018-10-12 21:06:08 +08:00
    @Luckyray 是不是没有 ua 就不能登录啊
    HANlalala
        34
    HANlalala  
       2018-10-12 21:06:51 +08:00
    @zgbgx1 用已有的账号密码要怎么用 php 爬虫进行登录呀
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5607 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:54 · PVG 14:54 · LAX 22:54 · JFK 01:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.