Giter Site home page Giter Site logo

leisux / ipybd Goto Github PK

View Code? Open in Web Editor NEW
17.0 2.0 9.0 87.72 MB

Powerful Data Cleaner For Biodiversity

Home Page: https://github.com/leisux/ipybd

License: GNU General Public License v3.0

Python 91.36% CSS 2.42% Mustache 6.22%
darwincore biodiversity-informatics biodiversity-standards biodiversity herbarium biodiversity-data powo ipni labelmaker tropicos

ipybd's Introduction

Documentation Status social - wechat Downloads Downloads Downloads PyPI - License

ipybd 是一款由 Python 开发的中文生物多样性数据清洗、统计与分析框架。当前的 ipybd 版本实现了一个通用的生物多样性数据整合框架,它可以实现对不同来源、不同格式、不同品质、不同规范的数据集进行统一的批量化清洗转换与整合,进而大幅降低数据处理的门槛和成本,提高数据分析前的数据处理品质和效率。安装和使用说明请见文档

一、主要功能

目前 ipybd 已经具备了以下一些能力:

数据装载:目前支持从Excel/CSV/TEXT/JSON/Pandas.DataFrame 以及各类关系型数据库(比如Mysql)导入数据。

物种学名:能够对拉丁学名进行各种拆分和合并,并可以在线批量获取 POWOIPNI**生物物种名录Tropicos 上相应物种的最新分类阶元、分类处理、物种图片、发表文献、相关异名等信息。

日期与时间:可以对各类手工转录的日期和时间,进行严格的校验、清洗和转换,并可根据需要输出不同样式。

经纬度:可以对各类手工转录的经纬度,进行严格的清洗、校验和转换。

中文行政区划:可以对各种自然语言表达的中文县级及其以上的行政区划进行高品质的匹配、校正和转换。

选值:能够自定义各种字段的选值和转换关系,并根据转换关系,自动完成现有值的规范化。

数值和数值区间:可以对各类数值或数值区间,进行自动化的清洗、校正和转换。

拆分与合并ipybd 可以对数据列进行各种合并和拆分,可以将单列、多列或整个表格的数据列映射为各类 Python dict list 对象或者 JSON ObjectArray,从而为各种数据分析和互联网平台的数据交换工作提供灵活的格式转换支持。

标签打印:能够生成有条形码或者无条形码的标签文档以供打印。

数据模型ipybd 定义了一套简洁的语义,可以帮助用户快速的定制出个性化的数据转换模型。这些模型能够根据相应任务的需要,将以上各种数据处理能力(或者用自定义的功能)自由拼接和组合,以实现数据集的自动化清洗和转换。

数据输出:经过处理的数据,支持输出为Excel/CSV文件或者直接更新到数据库。

二、文献引用

徐洲锋. iPybd[CP]. 广州: **科学院华南植物园, 2023.https://github.com/leisux/ipybd

Xu Zhoufeng(2023). iPybd: A Powerful Data Cleaner For Biodiversity. South China National Botanical Garden, Guangzhou, China. https://github.com/leisux/ipybd

三、特别感谢

本框架的开发受到了**科学院华南植物园(SCBG)、**国家标本资源平台(nsii.org.cn)、**科学院昆明植物研究所(KIB)、**生物物种名录(sp2000.org.cn)、密苏里植物园 Tropicos.org 平台的支持与帮助。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.