Содержание
- Что такое набор?
- Мощность (размер)
- Перекрестки, Союзы
- Пример медицинского тестирования
- Визуализация наборов — диаграммы Венна
1. Что такое набор?
> A = {1,2,-3}
› E={Apple, обезьяна, Дэниел}
Комплект – это набор вещей. Множество состоит из элементов. В наборе A {1}, {2}, {-3} являются элементами.
2∈A , это означает, что 2 является элементом A
2. Мощность (размер)
Мощность множества А — это количество элементов в нем.
> |A| = 4, |E| = 3
3. Пересечения и союзы
A = {1, 2, -3, 7}, B = {2, 8, -3, 10}, D = {5, 10}
1)Перекрестки
A ∩ B = {2, -3} , здесь ∩ является пересечением.
B∩D = {10}
A∩D = ∅ , где мощность ∅ равна 0.
-› A∩B = {x: x∈A и x∈B}
2) Союз
A∪B = {1,2,-3,7,8,10} = {x: x∈A или x∈B}, здесь ∪ является объединением.
4. Теория множеств X Медицинские испытания
VBS — очень плохой симптом
Если есть набор людей, X = набор людей в клиническом испытании.
S = {x∈X: X имеет VBS} (действительно имеет VBS)
H = {x∈X: X не имеет VBS}
X=S∪H , S∩H = ∅
Р = {х∈Х | X дает положительный результат на VBS} ; врач сказал, что вы положительны
N = {x∈X | X отрицательный результат на VBS}
P∪N = все, P∩N = ∅
- S∩P: Истинные положительные результаты
- H∩N : Истинные негативы
- S∩N : ложноотрицательные результаты
- H∩P: ложные срабатывания
|С| / |Х| = доля людей в исследовании, у которых действительно есть VBS
|Ч| / |Х| = доля людей в исследовании, у которых нет VBS
- |S∩P| / |С| = Истинный положительный показатель
- |H∩P| / |Н| = Ложноположительный результат
- |S∩N| / |С| : Ложноотрицательный показатель
- |H∩P| / |Н| : Истинный отрицательный показатель
5. Диаграммы Венна
X = H∪S = N∪P
# 0. 환경설정 ---------- library(sets) library(VennDiagram) library(RAM) library(eulerr) # 1. 집합 정의 --------- A <- LETTERS[1:10] B <- LETTERS[5:15] A_set <- as.set(A) B_set <- as.set(B) # 2. 집합 크기/기수(Cardinality) ------- length(A) ; length(B)
# 3. 기본 집합 연산 -------------------- # 합집합 A_set | B_set
# 교집합 A_set & B_set
# 두 집합의 상대 여집합의 합(Symmetric Difference) A_set %D% B_set
# 4. 벤다이어그램 --------------------- ## 4.1. 종합 draw.pairwise.venn( area1 = length(A_set), area2 = length(B_set), cross.area = length(A_set & B_set), category = c("집합 A", "집합 B"), cat.pos = c(0, 180), euler.d = TRUE, sep.dist = 0.03, fill = c("light blue", "pink"), alpha = rep(0.5, 2), lty = rep("blank", 2)
## 4.2. 원소도 함께 표현 group.venn(list(집합A=A, 집합B=B), label=TRUE, fill = c("orange", "blue"), cat.pos = c(0, 0), lab.cex=1.3)
>>pregnant_TF test_PN 0 1 0 55 14 1 24 7
pregnant_df <- data.frame(pregnant_TF, test_PN) ## 5.2. 시각화 ------------------------- pregnant_fit <- euler(pregnant_df) plot(pregnant_fit, auto.key = TRUE, counts=TRUE, labels = c("1종 오류", "2종 오류"))
6. Сигма
В случае разработки модели прогнозирования посредством контролируемого обучения в науке о данных ее можно выразить в виде функции следующим образом. То есть функция отображения (X1, X2, ..., Xn) коллективных элементов, принадлежащих области определения, в доход R становится моделью обучения с учителем.
#library(hrbrthemes)
#library(extrafont)
#library(tidyverse)
#loadfonts()
x <- seq(from=-5, to=5, by=0.5)
y <- 2 * x -1
df <- data.frame(x, y)
ggplot(df, aes(x, y)) +
geom_point() +
geom_line() +
stat_function(fun=function(x)x^2, geom="line", aes(colour="square")) +
theme_ipsum_rc(base_family = "NanumGothic") +
theme(legend.position = "none",
axis.line.x=element_blank(),
axis.ticks.x=element_blank(),
axis.title.x=element_blank(),
panel.grid.minor.x=element_blank(),
panel.grid.major.x=element_blank(),
panel.grid.minor.y=element_blank(),
panel.grid.major.y=element_blank()) +
geom_vline(xintercept=0) +
geom_hline(yintercept = 0) +
labs(x="", y="") +
annotate("text", 3, 5, vjust = -1, label = "y=2x-1", parse = FALSE) +
annotate("text", 4, 15, vjust = -1, label = "y=x^2", parse = FALSE)
справка.
Coursera, Data Science Math Skills Университета Дьюка
https://aispiration.com/statistics/math-for-data-science.html#fn1