baopanda / segment Goto Github PK
View Code? Open in Web Editor NEWsddddddđ
sddddddđ
Chương trình NLP-Tools 1. Thư mục chương trình - /Command: Chương trình dòng lệnh của chương trình VietChunker. - /corpus: Chứa tập văn bản thực nghiệm - corpus/AutoSummary: Thư mục văn bản đầu ra chương trình NLP-Tools - corpus/Plaintext: Thư mục văn bản đầu vào chương trình NLP-Tools - corpus/Summary: Thư mục văn bản tóm tắt bằng tay ***Filename của 1 văn bản tương ứng: Văn bản gốc, Bằng máy, Bằng tay là giống nhau - /data: File sinh ra từ pha Tokenize, Postag, Chunker và các file để chạy VietChunker - /lib: Các thư viện sử dụng - /train-data: Folder file từ StopWords, Synomym... - idf_final.txt: idf của một từ trong corpus đầy đủ - idf_index_test.txt: idf của corpus nhỏ - /src: file mã nguồn 2. Source Code: - nlp.dict Package: - Conjunction.java: Các conjunction dùng cho bước cắt tỉa theo cấu trúc diễn ngôn - NounAnophoric: Luật Phân giải đồng tham chiếu - StopWords.java: Mảng Stop-Words - Synonym.java: Đọc danh sách từ đồng nghĩa - Idf_index.java: Tính idf của các từ trong corpus (Corpus tính idf là corpus văn bản của báo mới - khoảng hơn 20000 văn bản đã tách từ) - Idf_normalize.java: Correct tách từ sai từ corpus ***Hai file Idf chạy riêng và độc lập với chương trình Summary - nlp.display Package: Chương trình giao diện - nlp.graph: - Edge.java: Edge entity - Vertex.java: Vertex entity - Main.java: File chạy chương trình. Input: /corpus/Plaintext. Output: /corpus/AutoSummary - WordsGraph.java: Chương trình chính chạy các luật - Evaluation.java: tính độ ROUGE - nlp.sentenceExtraction: trích rút câu - Datum.java: mỗi từ sẽ coi là một Datum với các thuộc tính của nó - SentenceExtration.java: File thực hiện trích rút câu - SentenceRedundancy.java: Tính độ đo tương đồng giữa 2 câu và loại bỏ câu dư thừa - idf_score.java: đọc độ đo idf từ file idf_index_test.txt hoặc idf_final.txt - nlp.tool.vnTextPro - VNPreprocessing.java: tiền xử lý văn bản: loại bỏ các từ trong dấu ( ) ... - VNSentenceSegmenter.java: tách câu - VNTokenizer.java: tách từ - VNTagger.java: postager
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.