-
# 베이즈 룰 사전확률과 사후확률사이의 관계 #나이브 베이즈 분류기 #미래유추 -> 과거 사건 데이터 사용하기 # 머신러닝 # 스팸메일 분류기, IDS(침입탐지 시스템), 날씨예측 # 패턴 동작 ->비정상 행위 # 베이지안 필터기 # 결과에 대한 확률 추정(여러 속성 정보를 고려 ) #ex) 내일 비내릴 확률 ? (오늘 날씨 정보.. 환경정보..등등) # 사건에 대한 우도(likelihood)는 여러 시행(trial)에서 이용할수 있다는것을 기반으로 추정 # # 사건 시행 확률 사건발생횟수/전체시행횟수 # 앞/뒤 결과 동전던지기 # 당첨 복권구매 # 당선 선거 # 스팸/햄 결과 메일 받기 10개 메일 /50개 메일 # # 사건 A의 확률 = P(A) P(스팸)=0.2, P(비)=0.3 # =>P(햄) 1 - P(스팸) 상호 배타적 # 종속사건의 조건 #독립일 경우에는 곱함 0.2 * 0.5 의미X # P(A|B) 사건 B가 발상한 경우 , 사건 A의 확률 = 조건부확률 사건 A가 B에 종속 #P(A)*P(B|A) # # 전체 10 스팸메일 3, 햄 7, free 4개 메일 # free라고 메일왓을떄 스팸인지 구분하는 작업 # # (3/10 *2/3) / 5/10 6/ 30 / 4/10 50% # # # free coupon 단어가 포함된메일왔을떄 스팸일확률 # # 스팸 6/ 14 free coupon 1/2 # # P(20) =20% 사전확률 # 나이트 라는 단어가 스팸메세지에 사용된 확률 = 우도 # p('나이트') 주변우도 smsraw<-read.csv("sms_spam_ansi.txt",stringsAsFactors = FALSE) str(smsraw) smsraw$type<-factor(smsraw$type) str(smsraw) table(smsraw$type)