Giter Site home page Giter Site logo

alordash / date-parser Goto Github PK

View Code? Open in Web Editor NEW
6.0 1.0 1.0 580 KB

Extracts date from natural message.

Home Page: https://www.npmjs.com/package/@alordash/date-parser

License: MIT License

JavaScript 100.00%
date parser parsing-library natural-language-processing russian-language english-language

date-parser's Introduction

@alordash/date-parser

$ npm i @alordash/date-parser

Links

Описание

Извлекает даты о разных событиях из человеческого сообщения с точностью до секунды.
Способна возвращать описание события без слов, используемых для определения даты.
В библиотеке используется моя реализация алгоритма Дамерау-Левенштейна, чтобы верно распознавать слова, написанные с ошибками.
Поддерживает Русский и Английский языки.
Библиотека проста в использовании, а большое количество параметров позволит вам с максимальной точностью определять даты.

Документация

Чтобы правильно использовать эту библиотеку, прочтите документацию по её классам.

TimeList class:

Каждый параметер типа Number, который отражает значение определенного типа времени.
Если тип значения undefined, то это означает что в исходной строке не было дано определение для данного типа времени.

Параметры:

  • TimeList.dates {Number} — Date.setDate(TimeList.dates);
  • TimeList.hours {Number} — Date.setHours(TimeList.hours);
  • TimeList.minutes {Number} — Date.setMinutes(TimeList.minutes);
  • TimeList.months {Number} — Date.setMonth(TimeList.months);
  • TimeList.seconds {Number} — Date.setSeconds(TimeList.seconds);
  • TimeList.years {Number} — Date.setFullYear(TimeList.years);

ParsedDate class:

Каждый объект типа ParsedDate отражает определенные дату и событие, извлеченные из исходной строки.

Параметры:

  • ParsedDate.confidence {Number} — уровень верности этого ParsedDate.
  • ParsedDate.contexts {Array.<Number>} — технический параметр.
  • ParsedDate.target_date {TimeList} — содержит всю информацию о целевой дате события.
  • ParsedDate.period_time {TimeList} — содержит всю информацию о периодичности события.
  • ParsedDate.max_date {TimeList} — содержит всю информацию о максимальной дате события.
  • ParsedDate.string {String} — описание события без слов, использованных для определения даты.
  • ParsedDate.isOffset {Boolean} — является ли описанием даты с помощью слова "через".
  • ParsedDate.isFixed {Boolean} — содержит ли даты с точным определением (например "9 часов утра").

Функция parseDate(string, errorLimit, minimumPrevalence): {Array.<ParsedDates>}

Аргументы

  1. string {String} — исходная строка.
  2. errorLimit {Number} — От 0.0 до 1.0, чем меньше — тем меньше результатов. Используется для распознавания слов с ошибками.
  3. minimumPrevalence {Number} — От 0 до 100, чем меньше — тем больше результатов. Используется для фильтрации редких типов определения времени.

Использование

const { parseDate } = require('@alordash/date-parser');

let string = 'Вернуться домой в 8:30 вечера и приготовить ужин. Купить молоко и помыть машину в понедельник.';
let result = parseDate(string);

console.log('время 1 :>> ', JSON.stringify(result[0].target_date));
//=> время 1 :>>  {"minutes":30,"hours":20}

console.log('событие 1 :>> ', result[0].string);
//=> событие 1 :>> Вернуться домой и приготовить ужин

console.log('время 2 :>> ', JSON.stringify(result[1].target_date));
//=> время 2 :>>  {"dates":31} //сейчас 30.08.20., 31.08.20 это понедельник

console.log('событие 2 :>> ', result[1].string);
//=> событие 2 :>> Купить молоко и помыть машину

//————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————
string = 'Сходить к врачу с 9 утра до 11 вечера в следующую субботу и сходить в магазин в 7 вечера';
result = parseDate(string);

console.log('максимальная дата 1 :>> ', JSON.stringify(result[0].max_date));
//=> максимальная дата 1 :>>  {"dates":36,"hours":23} //сейчас 30.08.20, следующая суббота в 05.09.20, что, технически, и есть 36.08.20

console.log('целевая дата 1 :>> ', JSON.stringify(result[0].target_date));
//=> целевая дата 1 :>>  {"hours":9}

console.log('событие 1 :>> ', result[0].string);
//=> событие 1 :>> Сходить к врачу

console.log('целевая дата 2 :>> ', JSON.stringify(result[1].target_date));
//=> целевая дата 2 :>>  {"hours":19}

console.log('событие 2 :>> ', result[1].string);
//=> событие 2 :>> сходить в магазин

//————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————
string = 'На 19 Сентября с 9:00 до 20:00 вставать из-за компьютера каждые 15 минут и делать разминку';
result = parseDate(string);

console.log('целевая дата :>> ', JSON.stringify(result[0].target_date));
//=> целевая дата :>>  {"dates":19,"hours":9,"minutes":0,"months":9}

console.log('период :>> ', JSON.stringify(result[0].period_time));
//=> период :>>  {"minutes":15}

console.log('максимальная дата :>> ', JSON.stringify(result[0].maximum_date));
//=> максимальная дата :>>  {"hours":20,"minutes":0}

console.log('событие :>> ', JSON.stringify(result[0].string));
//=> событие :>> 'вставать из-за компьютера и делать разминку'

Особенности

ParsedDate.toString(): {String}

Возвращает описание события.

ParsedDate.valueOf(): {{target_date: Date, period_time: Date, max_date: Date}}

Собирает все найденные типы времен в дату и возвращает объект типа

{
    target_date: Date,  
    period_time: Date,  
    max_date: Date  
}  

Для не найденных типов времени у target_dates и max_dates используются текущие значения даты (new Date()).
Для не найденных типов времени у period_times используются значения нулевой даты (new Date(0)).

Пользовательские настройки

Можно изменить используемые для распознавания csv файлы при помощи функций SetExpressionsDirectoryPath(directoryPath: string) и SetSeparatorsDirectoryPath(directoryPath: string).

date-parser's People

Contributors

alordash avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar

Forkers

roninore

date-parser's Issues

New parse case

Example: "каждые 5 минут до 8 утра".
target_date should be undefined, max_date.hours = 8, max_date.isFixed = true

New regex

Add new regex for "today" and "сегодня".

Repeated events with every day on selected time

Hi, i don't understand this

каждый день в 23.30 текст

target_date: { ... hours: 23, minutes: 30, ... }
period_time: { ... dates: 1, ... }

it's good.

каждый 1 день в 23.30 текст

target_date: { all properties undefined }
period_time: { ... dates: 1, hours: 23, minutes: 30, ... }

i think it's not good...

Reproduce this bug on Smart Scheduler telegram bot:
image

P.S.:
image
only for joke

Period times logic rework

Time periodicity information should be contained as array of objects.

  • Each object provides information about time type and a how much this time type should be increased when event should fire.
  • Objects are arranged in a hierarchical order. Less index -> higher hierarchy. When least periodic time object reaches it's maximum, it resets and triggers higher object in hierarchy.

Articles and prepositions ignoring

"the", "of" and e.g. should be ignored when applying regular expressions to simplified string, but used when forming events description.

One description for multiple times

When there is only one reminder description given and there are more than one parsedTimes, then all these parsedTimes should use that description

New parseDate() overload

Add overload that receives array of parsed words (new type) instead of string.
Word: { original: string, converted: string }
Parser should use original words from array when forming text.

Ordinals processing

"1ый", "2ой", "3ий", "1st", "2nd", "3rd", "4th" and e.g. should be treated as "1", "2", "3", "1", "2", "3" and "4".

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.