Giter Site home page Giter Site logo

python_bot's Introduction

會計師資料爬取腳本

這個Python腳本是為了協助學校老師蒐集大量會計師的資料而開發的,用於會計師證照專班的建立。資料集包含台北市會計師公會的兩千多位會員信息,每位會計師的信息包括事務所電話、地址、傳真等。

特點

  • 自動化資料收集:使用網頁爬蟲技術從會計師公會網站自動抓取資料。
  • 資料解析:利用BeautifulSoup解析HTML並提取相關信息。
  • 資料存儲:使用Pandas將收集到的資料結構化地存入Excel文件中。

需求

  • Python 3.x
  • BeautifulSoup4
  • Pandas
  • Requests

安裝

  1. clone此倉庫:
    git clone https://github.com/yourusername/accountant-data-scraper.git
  2. 進入項目目錄:
cd accountant-data-scraper

使用方法

  1. 運行腳本:
python3 scraper.py
  1. 腳本將自動爬取資料並保存到名為accountants_data.xlsx的Excel文件中。

方法

1.	網頁爬蟲:
•	腳本使用Requests庫發送HTTP請求到會計師公會網站。
•	使用BeautifulSoup解析HTML內容並提取所需的數據字段。
2.	資料提取:
•	使用Chrome的Inspector工具,找出網頁中所需數據在HTML結構中的位置。
•	使用BeautifulSoup導航HTML並提取相關信息。
3.	資料存儲:
•	使用Pandas將資料整理成DataFrame。
•	將DataFrame寫入Excel文件中,方便訪問和分析。

##挑戰

在開發過程中遇到了多種挑戰,包括處理不同的HTML結構以及確保數據提取的準確性。儘管面臨這些困難,腳本最終成功開發並執行,提供了準確而全面的結果。

##學習成果

通過這個項目,增強了我在網頁爬蟲、資料解析和Python編程方面的技能。此外,強調了數據準確性和驗證的重要性,以確保可靠的結果。

##貢獻

歡迎Fork此倉庫並提交Pull Request。對於重大更改,請先開啟Issue討論您想做的更改。

##聯繫

如有任何問題或建議,請聯繫[email protected]

python_bot's People

Contributors

5tevelan avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.