V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
oceantree
V2EX  ›  分享发现

手把手爬虫教你写爬虫---电商爬虫、互联网金融爬虫

  •  
  •   oceantree · 2016-07-28 14:23:40 +08:00 · 7466 次点击
    这是一个创建于 3051 天前的主题,其中的信息可能已经有所发展或是发生改变。

    爬虫爱好者一枚,写了两个系列的爬虫教程,分享给有需要的人,后续会不定时更新

    系列一:手把手教你写电商爬虫

    系列二: 互联网金融爬虫怎么写

    大家对什么爬虫最有兴趣,想用爬虫获取什么数据,有什么反馈建议,都欢迎留言

    37 条回复    2017-05-14 22:53:41 +08:00
    oceantree
        1
    oceantree  
    OP
       2016-07-28 14:24:45 +08:00
    不是刚发的帖子,怎么变成 4 小时之前的了
    sanwenshi
        2
    sanwenshi  
       2016-07-28 14:26:03 +08:00
    支持一个
    oceantree
        3
    oceantree  
    OP
       2016-07-28 15:54:06 +08:00
    一打开消息

    165 次点击 ∙ 14 人收藏

    就没人给个意见啥的
    qiayue
        4
    qiayue  
       2016-07-28 15:59:13 +08:00
    90 分钟 16 个收藏很不错了,说明还是有人认可你的教程的
    oceantree
        5
    oceantree  
    OP
       2016-07-28 16:01:43 +08:00
    @qiayue
    哈哈 多谢支持了
    ango
        6
    ango  
       2016-07-28 16:01:56 +08:00
    收下了,有时间再看看
    Myflos
        7
    Myflos  
       2016-07-28 16:20:32 +08:00
    干货,先收了
    qiayue
        8
    qiayue  
       2016-07-28 16:25:44 +08:00
    @oceantree 上传个头像吧
    oceantree
        9
    oceantree  
    OP
       2016-07-28 16:28:14 +08:00
    @qiayue
    好了,和博客一样的
    harry890829
        10
    harry890829  
       2016-07-28 16:36:14 +08:00
    不知道评论什么,反正晚点回去看看
    kchum
        11
    kchum  
       2016-07-28 16:40:26 +08:00
    是不是还可以上一下分布式爬虫,调度之类的。
    Wy4q3489O1z996QO
        12
    Wy4q3489O1z996QO  
       2016-07-28 16:41:25 +08:00
    有什么办法使用 cacheImg 处理图片数组吗?
    aidoudou
        13
    aidoudou  
       2016-07-28 16:42:50 +08:00
    先收藏,再慢慢看
    oceantree
        14
    oceantree  
    OP
       2016-07-28 16:45:47 +08:00
    @kchum
    这个可以有
    oceantree
        15
    oceantree  
    OP
       2016-07-28 16:48:55 +08:00
    @romotc
    用 for 循环,目前只能一个一个处理
    coolair
        16
    coolair  
       2016-07-28 17:04:52 +08:00
    这些东西没什么意义吧?主要就是分析链接?
    推广你的“神箭手云爬虫 框架”?
    “神箭手云爬虫 框架”在哪?开源吗?
    abctest
        17
    abctest  
       2016-07-28 17:08:33 +08:00
    @qiayue
    @ango
    @Myflos
    @harry890829
    @kchum
    @romotc
    @aidoudou
    你们回去都不用看了,我仔细看过了,好大一个安利,全是软文。
    oceantree
        18
    oceantree  
    OP
       2016-07-28 17:09:51 +08:00
    @coolair
    你觉得没用的话,可以不看,帖子分享给有需要的人
    神箭手云爬虫框架,是一个云端运行爬虫的开发平台,用起来方便,所以才用的
    Wy4q3489O1z996QO
        19
    Wy4q3489O1z996QO  
       2016-07-28 17:18:56 +08:00
    @oceantree cacheImg 返回了奇怪的东西: shenjianshou://http://image.xx.com/showImage.aspx?t=a1&v=10000A998
    qiayue
        20
    qiayue  
       2016-07-28 17:19:12 +08:00
    文章还是有价值的,不过建议楼主(神箭手 CEO )下次来 V2EX 发帖,就正正当当的在文章开头表明身份表明利益关系更好。
    我玩 V2EX 五六年了,一般来讲真心实意来推广自己产品的,广大 V 友是欢迎的,但是如果遮遮掩掩来推广,反倒不受欢迎。
    比如前几天的 OneAPM 演了一场戏,结果被扒皮了。
    harry890829
        21
    harry890829  
       2016-07-28 17:21:25 +08:00
    @abctest 我粗略看了一眼文章,大概了解了一下,发现是软文,或者说是推广吧,不过当时没有明说……
    oceantree
        22
    oceantree  
    OP
       2016-07-28 17:22:32 +08:00
    @qiayue
    好吧,我想问下你怎么看出是神箭手 CEO 的,厉害,对这里情况不太了解
    的确是希望大家多多用下我们的平台,如果写的文章能给爬虫入门的人有帮助更好
    123s
        23
    123s  
       2016-07-28 17:25:25 +08:00 via iPhone
    已加入豪华午餐
    qiayue
        24
    qiayue  
       2016-07-28 17:26:53 +08:00
    @oceantree 你 csdn 有真名,然后一搜索就从出来了
    vtea
        25
    vtea  
       2016-07-28 17:28:50 +08:00 via iPhone
    顶楼主,最近写爬虫卡在爬 ajax 类动态网页上了
    oceantree
        26
    oceantree  
    OP
       2016-07-28 17:29:53 +08:00
    @vtea
    有帮助就好
    oceantree
        27
    oceantree  
    OP
       2016-07-28 18:57:57 +08:00
    @romotc
    是这样的,通过 cacheImg 给 url 添加标识,这样才能正常将图片云托管到神箭手服务器上
    miao
        28
    miao  
       2016-07-28 19:03:37 +08:00
    果然是软文. 好在可以防爬虫
    miao
        29
    miao  
       2016-07-28 19:03:50 +08:00
    @miao 反爬虫
    upczww
        30
    upczww  
       2016-07-28 19:31:34 +08:00
    神箭手的广告
    nikola
        31
    nikola  
       2016-07-28 19:40:11 +08:00
    mark
    oceantree
        32
    oceantree  
    OP
       2016-07-29 09:59:40 +08:00
    @miao
    恩,的确是希望大家多试用我们开发的平台写爬虫,对神箭手有什么意见建议也欢迎大家提出
    对爬虫有兴趣的,可以加入群交流, 56685526
    pheyer
        33
    pheyer  
       2016-07-29 12:40:56 +08:00
    lz 有试过把淘宝全部商品爬完要多长时间吗?
    oceantree
        34
    oceantree  
    OP
       2016-08-01 15:01:09 +08:00
    @pheyer
    这个没试过
    不过我们已经写好了淘宝的爬虫,有三种不同的。
    cangbaotu
        35
    cangbaotu  
       2016-08-15 19:41:46 +08:00
    赞作者,刚好需要,赶紧去拜读一下( ̄▽ ̄)"
    ssllff123
        36
    ssllff123  
       2016-09-09 09:17:53 +08:00
    @oceantree 能不能请教怎么处理的 js 啊
    jy00566722
        37
    jy00566722  
       2017-05-14 22:53:41 +08:00
    @oceantree 太贵了,不给人入门窥探的机会。 我还充了值,以为市场里那些爬虫可以玩一把。
    仔细一看才发现自己多天真,原来是要会员等才可以用的。随便一个有用的都是个人旗舰版。还是整 scrapy 吧。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1917 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 16:32 · PVG 00:32 · LAX 08:32 · JFK 11:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.