Giter Site home page Giter Site logo

access-arxiv-paperlist's Introduction

Access arXiv Paperlist 📑

为了更好地持续追踪最新的研究近况,本仓库实现了一个能够按照时间和领域类别爬取arXiv上的计算机领域论文信息并根据关键词筛选的小工具,目前实现的功能如下:

✅ Step 1. 选取细分的领域类别和指定时间(以月为单位)来进行爬取原始的html网页。

✅ Step 2. 根据对应的网页生成论文信息列表,包括: arXiv id、标题、作者、所属全部类别。

✅ Step 3. 给定关键词列表,筛选题目包含关键词的论文列表。

TODO 😉

后续会持续更新,欢迎follow🖱️和star⭐!

⬜ 调用API获取筛选后的题目的中文翻译。

⬜ 爬取摘要,获得中文翻译。

⬜ 摘要/题目的词云。

使用方法 😎

  1. 克隆本项目: git clone [email protected]:codingClaire/access-arxiv-paperlist.git

  2. 安装相关的库: pip install beautifulsoup4

  3. 根据不同的需求按月/年爬取arxiv文章。

按照月份获取arxiv文章

Step 1: 获取对应的html网页

存储在当前目录下新建的月份目录,为了分辨是哪一天的爬取的,月份目录的命名加入了爬取的时间。

例子1: 爬取类别为cs.AIcs.PLcs.SE在2022年5至7月的全部文章的原始html页面,存储在当前目录。

python "arxivMonthly.py" --operation "access" --data_dir "./" --categories cs.AI cs.PL cs.SE --months "2205" "2206" "2207"

例子2: 爬取类别为cs.AI在2022年4月的全部文章的原始html页面,并存储在paperlist目录下。

python -u "arxivMonthly.py" --operation "access" --data_dir "./paperlist" --categories cs.AI --months "2204" --keywords "code" "graph"

Step 2: 生成所选月份的完整论文列表

例子:处理cs.AIcs.PLcs.SE在2022年5至7月的全部文章的原始html页面,并存储在同一目录下。

python "arxivMonthly.py" --operation "generate" --data_dir "./" --categories cs.AI cs.PL cs.SE --months "2205" "2206" "2207"

Step 3: 根据关键字筛选论文列表

例子: 筛选2022年4月的cs.AI类别的论文中题目包含关键字codegraph的论文列表。注意,Step3必须要在进行Step2后才可以完成筛选。

python "arxivMonthly.py" --operation "filt" --data_dir "./paperlist" --categories cs.AI --months "2204" --keywords "code" "graph"

按照年获取arxiv文章

和按照月份爬取arxiv文章类似,需要经历获取网页、生成完整列表、根据关键词筛选三步。

arxiv的反爬机制基本只允许一次爬单个类别完整两年的文章,所以如果要爬取的文章较多,可以过段时间再爬。

Step 1: 获取对应的html网页

存储在当前目录下新建的月份目录,为了记录是哪一天的爬取的,年份目录的命名加入了爬取日期。

例子1: 爬取类别为cs.AI在2018年至2022年的全部文章的原始html页面,存储在pooling_count当前目录。

python "arxivYearly.py" --operation "access" --data_dir "./pooling_count/" --categories cs.AI --years "2018" "2019"

Step 2: 生成全年的完整论文列表

python "arxivYearly.py" --operation "generate" --data_dir "./pooling_count/" --categories cs.AI --years "2018" "2019"

Step 3: 根据关键字筛选论文列表

python "arxivYearly.py" --operation "filt" --data_dir "./pooling_count/" --categories cs.AI --years "2018" "2019" --keywords "graph"

access-arxiv-paperlist's People

Contributors

codingclaire avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.