Giter Site home page Giter Site logo

hasnep / dataskimmer.jl Goto Github PK

View Code? Open in Web Editor NEW
18.0 1.0 1.0 105 KB

๐Ÿ“Š A Julia package that summarises tabular data in the REPL

Home Page: https://ha.nnes.dev/projects/dataskimmer-jl

License: GNU General Public License v3.0

Julia 100.00%
data summary skimr

dataskimmer.jl's Introduction

DataSkimmer.jl

A Julia package that gives a summary of a tabular dataset in the REPL. Based on the skimr R package.

Installation

From the Julia REPL, type ] to enter the Pkg REPL, then run:

add DataSkimmer

Or run from the Julia REPL:

import Pkg
Pkg.add("DataSkimmer")

Example

# Load some data
using RDatasets
iris = RDatasets.dataset("datasets", "iris")

# Skim the data
using DataSkimmer
skim(iris)
โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                Type โ”‚ DataFrame โ”‚
โ”‚             N. rows โ”‚       150 โ”‚
โ”‚             N. cols โ”‚         5 โ”‚
โ”‚     N. numeric cols โ”‚         4 โ”‚
โ”‚ N. categorical cols โ”‚         1 โ”‚
โ”‚    N. datetime cols โ”‚         0 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

4 numeric columns
โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚        Name โ”‚    Type โ”‚ Missings โ”‚ Complete โ”‚ Mean โ”‚ Std. โ”‚ Min. โ”‚ Med. โ”‚ Max. โ”‚ Hist. โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚ SepalLength โ”‚ Float64 โ”‚        0 โ”‚   100.0% โ”‚ 5.84 โ”‚ 0.83 โ”‚ 4.30 โ”‚ 5.80 โ”‚ 7.90 โ”‚ โ–‚โ–ƒโ–ƒโ–‚โ– โ”‚
โ”‚  SepalWidth โ”‚ Float64 โ”‚        0 โ”‚   100.0% โ”‚ 3.06 โ”‚ 0.44 โ”‚ 2.00 โ”‚ 3.00 โ”‚ 4.40 โ”‚ โ–โ–ƒโ–„โ–‚โ– โ”‚
โ”‚ PetalLength โ”‚ Float64 โ”‚        0 โ”‚   100.0% โ”‚ 3.76 โ”‚ 1.77 โ”‚ 1.00 โ”‚ 4.35 โ”‚ 6.90 โ”‚ โ–ƒโ–โ–‚โ–ƒโ– โ”‚
โ”‚  PetalWidth โ”‚ Float64 โ”‚        0 โ”‚   100.0% โ”‚ 1.20 โ”‚ 0.76 โ”‚ 0.10 โ”‚ 1.30 โ”‚ 2.50 โ”‚ โ–ƒโ–โ–ƒโ–‚โ–‚ โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

1 categorical column
โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚    Name โ”‚                            Type โ”‚ Missings โ”‚ Complete โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚ Species โ”‚ CategoricalValue{String, UInt8} โ”‚        0 โ”‚   100.0% โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

dataskimmer.jl's People

Contributors

george9000 avatar github-actions[bot] avatar hasnep avatar pdeffebach avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar

Forkers

pdeffebach

dataskimmer.jl's Issues

Missing Data with Numerical Columns handled incorrectly

When a column is a Union with type missing and a number, skim incorrectly categorizes it as a categorical column. For example, starting with the example provided (using the iris dataset):

allowmissing!(iris, :SepalLength)
skim(iris)

makes SepalLength go to categorical instead of numeric. It seems the package is designed to keep this as a numeric column since there is "Missings" there as well.

Output:

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                Type โ”‚ DataFrame โ”‚
โ”‚             N. rows โ”‚       150 โ”‚
โ”‚             N. cols โ”‚         5 โ”‚
โ”‚     N. numeric cols โ”‚         3 โ”‚
โ”‚ N. categorical cols โ”‚         2 โ”‚
โ”‚    N. datetime cols โ”‚         0 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

3 numeric columns
โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚        Name โ”‚    Type โ”‚ Missings โ”‚ Complete โ”‚ Mean โ”‚ Std. โ”‚ Min. โ”‚ Med. โ”‚ Max. โ”‚ Hist. โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚  SepalWidth โ”‚ Float64 โ”‚        0 โ”‚   100.0% โ”‚ 3.06 โ”‚ 0.44 โ”‚  2.0 โ”‚  3.0 โ”‚  4.4 โ”‚ โ–โ–ƒโ–„โ–‚โ– โ”‚
โ”‚ PetalLength โ”‚ Float64 โ”‚        0 โ”‚   100.0% โ”‚ 3.76 โ”‚ 1.77 โ”‚  1.0 โ”‚ 4.35 โ”‚  6.9 โ”‚ โ–ƒโ–โ–‚โ–ƒโ– โ”‚
โ”‚  PetalWidth โ”‚ Float64 โ”‚        0 โ”‚   100.0% โ”‚  1.2 โ”‚ 0.76 โ”‚  0.1 โ”‚  1.3 โ”‚  2.5 โ”‚ โ–ƒโ–โ–ƒโ–‚โ–‚ โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

2 categorical columns
โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚        Name โ”‚                            Type โ”‚ Missings โ”‚ Complete โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚ SepalLength โ”‚         Union{Missing, Float64} โ”‚        0 โ”‚   100.0% โ”‚
โ”‚     Species โ”‚ CategoricalValue{String, UInt8} โ”‚        0 โ”‚   100.0% โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

The output is cut off when there are many columns

Example:

using DataSkimmer
using DataFrames
df = DataFrame(Dict([Symbol(k) => 1:10 for k in 'a':'z'])...)
skim(df)

Output:

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                Type โ”‚ DataFrame โ”‚
โ”‚             N. rows โ”‚        10 โ”‚
โ”‚             N. cols โ”‚        26 โ”‚
โ”‚     N. numeric cols โ”‚        26 โ”‚
โ”‚ N. categorical cols โ”‚         0 โ”‚
โ”‚    N. datetime cols โ”‚         0 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

26 numeric columns
โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚ Name โ”‚  Type โ”‚ Missings โ”‚ Complete โ”‚ Mean โ”‚ Std. โ”‚ Min. โ”‚ Med. โ”‚  Max. โ”‚ Hist. โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚    o โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    b โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    p โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    n โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    j โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    e โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    c โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    h โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    l โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    w โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    x โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    d โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    k โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    s โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚    v โ”‚ Int64 โ”‚        0 โ”‚   100.0% โ”‚ 5.50 โ”‚ 3.03 โ”‚ 1.00 โ”‚ 5.50 โ”‚ 10.00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚  โ‹ฎ   โ”‚   โ‹ฎ   โ”‚    โ‹ฎ     โ”‚    โ‹ฎ     โ”‚  โ‹ฎ   โ”‚  โ‹ฎ   โ”‚  โ‹ฎ   โ”‚  โ‹ฎ   โ”‚   โ‹ฎ   โ”‚   โ‹ฎ   โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
                                                                   11 rows omitted

Min and Max columns should ignore missing

Recently ran skim on a dataset with lots of missing values in DateTime columns. Perhaps these should ignore missing in reporting the Min and Max values. The number of missing is already reported in the table. Having missing in min and max doesn't add much value.

20 datetime columns
โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                      Name โ”‚                     Type โ”‚ Missings โ”‚ Complete โ”‚                Min. โ”‚                Max. โ”‚ Hist. โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚                      Time โ”‚                 DateTime โ”‚        0 โ”‚   100.0% โ”‚ 2014-05-27T05:50:00 โ”‚ 2019-05-22T01:18:00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚                      Date โ”‚                 DateTime โ”‚        0 โ”‚   100.0% โ”‚ 1990-05-14T00:00:00 โ”‚ 2019-01-04T00:00:00 โ”‚ โ–โ–ƒโ–‚โ–‚โ–ƒ โ”‚
โ”‚                      Time โ”‚                 DateTime โ”‚        0 โ”‚   100.0% โ”‚ 2014-05-19T09:08:00 โ”‚ 2019-04-18T01:23:00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚      116 โ”‚    18.9% โ”‚             missing โ”‚             missing โ”‚ โ–ƒโ–ƒโ–ƒโ–โ– โ”‚
โ”‚                      Time โ”‚                 DateTime โ”‚        0 โ”‚   100.0% โ”‚ 2014-04-12T15:31:00 โ”‚ 2019-03-09T02:10:00 โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚       64 โ”‚    55.2% โ”‚             missing โ”‚             missing โ”‚ โ–ƒโ–ƒโ–‚โ–‚โ– โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚       94 โ”‚    34.3% โ”‚             missing โ”‚             missing โ”‚ โ–ƒโ–„โ–โ–โ– โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚      118 โ”‚    17.5% โ”‚             missing โ”‚             missing โ”‚ โ–„โ–„โ–โ–โ– โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚       61 โ”‚    57.3% โ”‚             missing โ”‚             missing โ”‚ โ–‚โ–ƒโ–‚โ–ƒโ–‚ โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚       67 โ”‚    53.1% โ”‚             missing โ”‚             missing โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚      111 โ”‚    22.4% โ”‚             missing โ”‚             missing โ”‚ โ–‚โ–‚โ–‚โ–ƒโ–‚ โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚      141 โ”‚     1.4% โ”‚             missing โ”‚             missing โ”‚ โ–…   โ–… โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚      116 โ”‚    18.9% โ”‚             missing โ”‚             missing โ”‚ โ–ƒโ–‚โ–‚โ–‚โ–‚ โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚      127 โ”‚    11.2% โ”‚             missing โ”‚             missing โ”‚ โ–‚โ–‚โ–‚โ–ƒโ–‚ โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚      128 โ”‚    10.5% โ”‚             missing โ”‚             missing โ”‚ โ–„โ–โ–‚โ–‚โ–‚ โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚      137 โ”‚     4.2% โ”‚             missing โ”‚             missing โ”‚ โ–‚โ–…  โ–ƒ โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚       91 โ”‚    36.4% โ”‚             missing โ”‚             missing โ”‚ โ–‚โ–‚โ–ƒโ–‚โ–‚ โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚      121 โ”‚    15.4% โ”‚             missing โ”‚             missing โ”‚ โ–ƒโ–โ–‚โ–‚โ–‚ โ”‚
โ”‚                      Time โ”‚ Union{Missing, DateTime} โ”‚      121 โ”‚    15.4% โ”‚             missing โ”‚             missing โ”‚ โ–‚โ–ƒโ–‚โ–‚โ– โ”‚
โ”‚                      Date โ”‚ Union{Missing, DateTime} โ”‚        1 โ”‚    99.3% โ”‚             missing โ”‚             missing โ”‚ โ–‚โ–‚โ–‚โ–‚โ–‚ โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

TagBot trigger issue

This issue is used to trigger TagBot; feel free to unsubscribe.

If you haven't already, you should update your TagBot.yml to include issue comment triggers.
Please see this post on Discourse for instructions and more details.

If you'd like for me to do this for you, comment TagBot fix on this issue.
I'll open a PR within a few hours, please be patient!

Columns with data entirely missing: put into Numeric and DateTime columns

When a column has 100% of the rows missing, skim puts it in under both the Numeric and DateTime lists. I think this is because both numeric and datetime column structs have Union with Missing as part of their definition while Categorical does not and is defined as !is_numeric(x) && !is_datetime(x) in helpers.jl

There may need to be a is_missing(x) function in helpers.jl for columns with all rows missing. Additionally, a new struct in DataSkimmer.jl called AllMissingColumn. This would be similar to the Categorical Column struct.

I opened one pull request (just figuring all this out) to correct one other error with Missing in datetime. I will try to work on this more extensive change if you don't get to it.

Date and DateTime columns with missing values do not show up under 'datetime' category

Both the numeric and categorical columns buckets or categories tolerate types that are unions with missing. For example, Union{Missing, Int64} shows up under the numeric column category. Union{Missing, String} is under the categorical columns category. However, Union{Missing, Date} and Union{Missing, DateTime} continue to be listed as 'categorical' columns.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    ๐Ÿ–– Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. ๐Ÿ“Š๐Ÿ“ˆ๐ŸŽ‰

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google โค๏ธ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.