Giter Site home page Giter Site logo

nlp's Introduction

Week 1:

Install nltk on python

Week 2:

Nội dung: Thu thập dữ liệu từ trang web, thực hiện các bước tiền xử lý (Pre-processing) và đếm tần số xuất hiện của mỗi từ.

Week 3:

Bài 1:

Thu thập dữ liệu từ 1 URL và các URL liên quan, trích rút tất cả địa chỉ email và số điện thoại có trong trang web.

  1. Tìm 1 trang web có chứa số điện thoại và email (thường có trên các diễn đàn)
  2. Lấy nội dung từ 1 URL
  3. Tìm các URL có trong trang web (Chỉ cần lấy 10 URL cùng mục) a. Ví dụ các URL cùng 1 chuyên mục b. Đối với bài viết trên Diễn đàn, lấy các trang trong topic hiện tại
  4. Truy cập vào tất cả các URL đã thu thập được a. Tìm và lấy địa chỉ email, số điện thoại b. Lưu trữ vào file

Bài 2:

Trích rút văn bản từ website theo một chủ đề đã chọn trước

  1. Chọn 1 địa điểm: Đà Nẵng, Hà Nội, Quảng Bình…
  2. Chọn 1 trang web tin tức (vnexpress, tuoitre, thanhnien, vietnamnet, dantri…)
  3. Tìm các url và thu thập 100 bài viết bất kỳ.
  4. Lấy nội dung của bài viết, tách thành các câu và lưu vào file
  5. Với dữ liệu đã có, hãy xác định các từ ghép và nối với nhau bởi ký tự “_”, xác định các danh từ riêng (tên địa điểm, tên người…) a. Sử dụng thư viện underthesea b. https://pypi.org/project/underthesea/
  6. Nếu nội dung trang web chứa các từ khóa liên quan đến địa điểm đã chọn, hãy lưu tất cả các tiêu đề và link bài viết này vào 1 file, đặt tên “danang.txt” hoặc “hanoi.txt” hoặc “quangbinh.txt

Week 4:

Tìm hiểu và thực thi mã nguồn 01_OneHotEncoding.ipynb 02_Bag_of_Words.ipynb Tại link: https://github.com/practical-nlp/practical-nlp-code/tree/master/Ch3 Từ các văn bản thu thập được ở Bài tập tuần 3, biểu diễn các văn bản thành Vecto One-hot và Bag-of-Words

Week 5:

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.