Теория множеств, основы

Содержание

Что такое набор?
Мощность (размер)
Перекрестки, Союзы
Пример медицинского тестирования
Визуализация наборов — диаграммы Венна

1. Что такое набор?

> A = {1,2,-3}

› E={Apple, обезьяна, Дэниел}

Комплект – это набор вещей. Множество состоит из элементов. В наборе A {1}, {2}, {-3} являются элементами.

2∈A , это означает, что 2 является элементом A

2. Мощность (размер)

Мощность множества А — это количество элементов в нем.

> |A| = 4, |E| = 3

3. Пересечения и союзы

A = {1, 2, -3, 7}, B = {2, 8, -3, 10}, D = {5, 10}

1)Перекрестки

A ∩ B = {2, -3} , здесь ∩ является пересечением.

B∩D = {10}

A∩D = ∅ , где мощность ∅ равна 0.

-› A∩B = {x: x∈A и x∈B}

2) Союз

A∪B = {1,2,-3,7,8,10} = {x: x∈A или x∈B}, здесь ∪ является объединением.

4. Теория множеств X Медицинские испытания

VBS — очень плохой симптом

Если есть набор людей, X = набор людей в клиническом испытании.

S = {x∈X: X имеет VBS} (действительно имеет VBS)

H = {x∈X: X не имеет VBS}

X=S∪H , S∩H = ∅

Р = {х∈Х | X дает положительный результат на VBS} ; врач сказал, что вы положительны

N = {x∈X | X отрицательный результат на VBS}

P∪N = все, P∩N = ∅

S∩P: Истинные положительные результаты
H∩N : Истинные негативы
S∩N : ложноотрицательные результаты
H∩P: ложные срабатывания

|С| / |Х| = доля людей в исследовании, у которых действительно есть VBS

|Ч| / |Х| = доля людей в исследовании, у которых нет VBS

|S∩P| / |С| = Истинный положительный показатель
|H∩P| / |Н| = Ложноположительный результат
|S∩N| / |С| : Ложноотрицательный показатель
|H∩P| / |Н| : Истинный отрицательный показатель

5. Диаграммы Венна

X = H∪S = N∪P

# 0. 환경설정 ----------
library(sets)
library(VennDiagram)
library(RAM)
library(eulerr)

# 1. 집합 정의 ---------
A <- LETTERS[1:10]
B <- LETTERS[5:15]

A_set <- as.set(A)
B_set <- as.set(B)

# 2. 집합 크기/기수(Cardinality) -------

length(A) ; length(B)
# 3. 기본 집합 연산 --------------------
# 합집합
A_set | B_set
# 교집합
A_set & B_set
# 두 집합의 상대 여집합의 합(Symmetric Difference)
A_set %D% B_set

# 4. 벤다이어그램 ---------------------
## 4.1. 종합

draw.pairwise.venn(
  area1 = length(A_set),
  area2 = length(B_set),
  cross.area = length(A_set & B_set),
  category = c("집합 A", "집합 B"),
  cat.pos = c(0, 180),
  euler.d = TRUE,
  sep.dist = 0.03,
  fill = c("light blue", "pink"),
  alpha = rep(0.5, 2),
  lty = rep("blank", 2)

## 4.2. 원소도 함께 표현
group.venn(list(집합A=A, 집합B=B), label=TRUE, 
           fill = c("orange", "blue"),
           cat.pos = c(0, 0),
           lab.cex=1.3)

>>        pregnant_TF
test_PN  0  1
      0 55 14
      1 24  7
pregnant_df <- data.frame(pregnant_TF, test_PN)

## 5.2. 시각화 -------------------------
pregnant_fit <- euler(pregnant_df)

plot(pregnant_fit, auto.key = TRUE, counts=TRUE, labels = c("1종 오류", "2종 오류"))

6. Сигма

В случае разработки модели прогнозирования посредством контролируемого обучения в науке о данных ее можно выразить в виде функции следующим образом. То есть функция отображения (X1, X2, ..., Xn) коллективных элементов, принадлежащих области определения, в доход R становится моделью обучения с учителем.

#library(hrbrthemes)
#library(extrafont)
#library(tidyverse)
#loadfonts()

x <- seq(from=-5, to=5, by=0.5)
y <- 2 * x -1

df <- data.frame(x, y)

ggplot(df, aes(x, y)) +
  geom_point() +
  geom_line() +
  stat_function(fun=function(x)x^2, geom="line", aes(colour="square")) +
  theme_ipsum_rc(base_family = "NanumGothic") +
  theme(legend.position = "none",
        axis.line.x=element_blank(),
        axis.ticks.x=element_blank(),
        axis.title.x=element_blank(),
        panel.grid.minor.x=element_blank(),
        panel.grid.major.x=element_blank(),
        panel.grid.minor.y=element_blank(),
        panel.grid.major.y=element_blank()) +
  geom_vline(xintercept=0) +
  geom_hline(yintercept = 0) +
  labs(x="", y="") +
  annotate("text", 3, 5, vjust = -1, label = "y=2x-1", parse = FALSE) +
  annotate("text", 4, 15, vjust = -1, label = "y=x^2", parse = FALSE)

справка.

Coursera, Data Science Math Skills Университета Дьюка

https://aispiration.com/statistics/math-for-data-science.html#fn1