Giter Site home page Giter Site logo

duspider's Introduction

Duspider

Introduction

爬点小数据...IP pool + fake useragent可以满足低频获取百度搜索和百度知道的结果。

  • Baidu_search.py:定向解析百度搜索的结果。
  • Baidu_baike.py:定向解析header、tag、infobox、summary。
  • Baidu_proxy_polysemantic.py :proxy + polysemantic。
  • ip_pool.py: 实测快代理很好用。

Example

  • header example
{
    "title": "2019新型冠状病毒_百度百科",
    "description": "2019新型冠状病毒(2019-nCoV),因2019年武汉病毒性肺炎病例而被发现,2020年1月12日被世界卫生组织命名。冠状病毒是一个大型病毒家族,已知可引起感冒以及中东呼吸综合征(MERS)和严重急性呼吸综合征(SARS)等较严重疾病。新型冠状病毒是以前从未在人体中发现的冠状病毒新毒株。2019年12月以来,湖北省武汉市持续开展流感及相关疾病监测,发现多起病毒性肺炎病例,均诊断为病毒性肺炎/肺部感染。人感染了冠状病毒后常见体征有呼吸道症状、发热、咳嗽、气促和呼吸困难等。在较严重病例中,感染可导致肺炎、严重急性呼吸综合征、肾衰竭,甚至死亡。目前对于新型冠状病毒所致疾病没有特异治疗方法。但许多症状是可以处理的,因此需根据患者临床情况进行治疗。此外,对感染者的辅助护理可能非常有效。做好自我保护包括:保持基本的手部和呼吸道卫生,坚持安全饮食习惯,并尽可能避免与任何表现出有呼吸道疾病症状(如咳...",
    "keywords": "2019新型冠状病毒 新冠病毒 2019-新型冠状病毒急性呼吸道疾病 新冠SARI 武汉冠状病毒 新型冠状病毒 2019-nCoV 新型冠状病毒 2019年nCoV 2019年新型冠状病毒 2019-nCoV 2019nCoV 2019新型冠状病毒发现经过 2019新型冠状病毒主要症状 2019新型冠状病毒传播途径 2019新型冠状病毒易感人群 2019新型冠状病毒诊断标准 2019新型冠状病毒研究处置 2019新型冠状病毒命名过程 2019新型冠状病毒疫情防控 2019新型冠状病毒预防方法 2019新型冠状病毒及时就诊 2019新型冠状病毒防护指南 2019新型冠状病毒捐助情况 钟南山团队从尿液分离出新冠病毒 分区分级!各地疫情防控要这样做 病毒20℃以上会“热死”为谣言 开窗通风会把病毒带进家为谣言 新冠病毒疫苗已成功研发为谣言 新型冠状病毒已发生变异为谣言 新冠病毒是人为制造为谣言 全国已确诊几十万病例为遥言 百度上线实时疫情通报 新型冠状病毒肺炎最新辟谣 国药监局应急审批检测产品 第四版诊疗方案公布:可接触传播 国务院征集疫情缓报瞒报线索",
    "keywords_list": [
        "2019新型冠状病毒",
        "新冠病毒",
        "2019-新型冠状病毒急性呼吸道疾病",
        "新冠SARI",
        "武汉冠状病毒",
        "新型冠状病毒",
        "2019-nCoV",
        "新型冠状病毒",
        "2019年nCoV",
        "2019年新型冠状病毒",
        "2019-nCoV",
        "2019nCoV",
        "2019新型冠状病毒发现经过",
        "2019新型冠状病毒主要症状",
        "2019新型冠状病毒传播途径",
        "2019新型冠状病毒易感人群",
        "2019新型冠状病毒诊断标准",
        "2019新型冠状病毒研究处置",
        "2019新型冠状病毒命名过程",
        "2019新型冠状病毒疫情防控",
        "2019新型冠状病毒预防方法",
        "2019新型冠状病毒及时就诊",
        "2019新型冠状病毒防护指南",
        "2019新型冠状病毒捐助情况",
        "钟南山团队从尿液分离出新冠病毒",
        "分区分级!各地疫情防控要这样做",
        "病毒20℃以上会“热死”为谣言",
        "开窗通风会把病毒带进家为谣言",
        "新冠病毒疫苗已成功研发为谣言",
        "新型冠状病毒已发生变异为谣言",
        "新冠病毒是人为制造为谣言",
        "全国已确诊几十万病例为遥言",
        "百度上线实时疫情通报",
        "新型冠状病毒肺炎最新辟谣",
        "国药监局应急审批检测产品",
        "第四版诊疗方案公布:可接触传播",
        "国务院征集疫情缓报瞒报线索"
    ]
}
  • summary example
{
    "word": "清华大学",
    "passage": [
        {
            "current_semantic": "",
            "tags": [
                "学校"
            ],
            "paras": [
                "清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,**直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、松联盟、**大学校长联谊会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。",
                "清华大学的前身清华学堂始建于1911年,校名“清华”源于校址“清华园”地名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与国立北京大学、私立南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。",
                "水木清华,钟灵毓秀,清华大学秉持“自强不息、厚德载物”的校训和“行胜于言”的校风,坚持“中西融汇、古今贯通、文理渗透”的办学风格和“又红又专、全面发展”的培养特色,弘扬“爱国奉献、追求卓越”传统和“人文日新”精神。恰如清华园工字厅内对联所书——“槛外山光,历春夏秋冬、万千变幻,都非凡境;窗中云影,任东西南北、去来澹荡,洵是仙居”。[1]"
            ]
        }
    ]
}

duspider's People

Contributors

rwei1218 avatar

Stargazers

 avatar kqj avatar HuYong avatar

Watchers

James Cloos avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.