V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
talentliuyang
V2EX  ›  问与答

正抓取谷歌学术( not intensive),什么姿势可以躲过谷歌的封锁?在用 selenium, sys sleep 为 1s,但还是无情被封。难道需要随机的 sys sleep 时间和随机的 click 动作吗?大家有什么思路没?

  •  
  •   talentliuyang · 2016-04-26 11:33:08 +08:00 · 5497 次点击
    这是一个创建于 3144 天前的主题,其中的信息可能已经有所发展或是发生改变。
    9 条回复    2016-04-27 10:03:05 +08:00
    gamexg
        1
    gamexg  
       2016-04-26 12:18:56 +08:00
    挂代理,经常更换自己的 ip 。
    或者 扫 google ip ,循环更换对方的 ip 。
    msg7086
        2
    msg7086  
       2016-04-26 12:42:26 +08:00   ❤️ 2
    (首先,你要比 Google 的工程师更聪明。
    htfy96
        3
    htfy96  
       2016-04-26 12:48:51 +08:00 via Android
    Google scholar 太难爬了 用代理池可能会好一点
    qqmishi
        4
    qqmishi  
       2016-04-26 13:09:46 +08:00
    其实我一直想试试用 GAE 爬谷歌看会不会封自己,,,
    fengxing
        5
    fengxing  
       2016-04-26 15:40:09 +08:00
    @qqmishi 我感觉 google 不会封自己的出口 IP 吧,但是应该会封号?
    mcone
        6
    mcone  
       2016-04-26 16:16:19 +08:00
    别想了,还 1s ……真人操作+账号登陆,有时候点的快一点都会被判为机器人,更何况你本来就是机器。。。。。。

    要么想办法比 google 那群人更聪明,要么换一个爬。。。。
    Landarky
        7
    Landarky  
       2016-04-26 23:02:49 +08:00
    Google 防机器爬虫也是有点牛逼的
    yech1990
        8
    yech1990  
       2016-04-27 00:59:33 +08:00 via Android   ❤️ 1
    Google scholars 本身限制太严格,就是普通搜索稍微频繁一点都会被验证。 试过用 python 自动查询几十篇,立马就被封 IP 了。 爬虫的话,我觉得是十分不现实的。


    倒是可以爬爬百度学术的,我觉得百度学术就是完全爬的 Google 的内容。毕竟流氓的技术水平高
    talentliuyang
        9
    talentliuyang  
    OP
       2016-04-27 10:03:05 +08:00
    @yech1990 好的,我试试百度学术。

    @Landarky @fengxing @gamexg @htfy96 @mcone @msg7086 @qqmishi 感谢大家的回复,我放弃爬谷歌学术了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2172 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 00:01 · PVG 08:01 · LAX 16:01 · JFK 19:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.