Currently working on adapting <a class="issue-link js-issue-link" data-error-text="Fai

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

This works: <div class="highlight highlight-source-r notranslate position-relative

Alternative for (grouped) `dplyr::slice_min`? about datawizard HOT 3 CLOSED

rempsyc commented on June 19, 2024

Alternative for (grouped) `dplyr::slice_min`?

from datawizard.

Comments (3)

etiennebacher commented on June 19, 2024 1

@rempsyc this works now:

library(datawizard)

df1 <- data.frame(
  id = c(1, 2, 3, 1, 3),
  item1 = c(NA, 1, NA, 2, NA),
  item2 = c(NA, 1, NA, 2, 3),
  item3 = c(NA, 1, 1, 2, 3)
)

dups <- data_duplicated(df1, "id")
dups
#>   Row id item1 item2 item3 count_na
#> 1   1  1    NA    NA    NA        3
#> 4   4  1     2     2     2        0
#> 3   3  3    NA    NA     1        2
#> 5   5  3    NA     3     3        1

good.dups <- data_group(dups, "id")

data_filter(good.dups, count_na == min(count_na))
#>   Row id item1 item2 item3 count_na
#> 4   4  1     2     2     2        0
#> 5   5  3    NA     3     3        1

^{Created on 2022-11-07 with reprex v2.0.2}

from datawizard.

etiennebacher commented on June 19, 2024

This works:

library(datawizard)

df1 <- data.frame(
  id = c(1, 2, 3, 1, 3),
  item1 = c(NA, 1, 1, 2, 3),
  item2 = c(NA, 1, 1, 2, 3),
  item3 = c(NA, 1, 1, 2, 3)
)

id <- "id"

dups <- data_duplicated(df1, id)

good.dups <- data_group(dups, id)

data_filter(good.dups, count_na == min(count_na))
#>   Row id item1 item2 item3 count_na
#> 4   4  1     2     2     2        0
#> 3   3  3     1     1     1        0
#> 5   5  3     3     3     3        0

^{Created on 2022-11-06 with reprex v2.0.2}

from datawizard.

etiennebacher commented on June 19, 2024

We don't have a data_filter.grouped_df() so the test above doesn't work if the minimum value in one group is not 0 (it should keep row 5 because it has only one NA):

library(datawizard)

df1 <- data.frame(
  id = c(1, 2, 3, 1, 3),
  item1 = c(NA, 1, NA, 2, NA),
  item2 = c(NA, 1, NA, 2, 3),
  item3 = c(NA, 1, 1, 2, 3)
)

id <- "id"

dups <- data_duplicated(df1, id)

good.dups <- data_group(dups, id)

data_filter(good.dups, count_na == min(count_na))
#>   Row id item1 item2 item3 count_na
#> 4   4  1     2     2     2        0