본문 바로가기

대외활동/ABC 지역주도형 청년 취업역량강화 ESG 지원산업

(59)
[ABC 220927] 비지도 학습 - DBSCAN DBSCAN (Density-based Spatial Clustering of Applications with Noise) DBSCAN 밀도 기반 클러스터링 데이터가 위치하고 있는 공간 밀집도를 기준으로 클러스터를 구분 가지를 중심으로 반지름 R의 공간에 최소 M개의 포인트가 존재하는 점을 코어 포인트(core point)라고 함 반지름 R 안에 다른 코어 포인트가 있는 경우 경계 포인트(border point)라고 함 코어 포인트, 경계 포인트도 속하지 않는 점을 Noise(or outlier)로 분류 K-Means와 같이 클러스터의 수를 정하지 않아도 됨 Noise point를 통하여 outlier 검출이 가능 클러스터의 밀도에 따라서 클러스터를 서로 연결하기 때문에 기하학적인 모양을 갖는 군집도 잘..
[ABC 220927] 비지도 학습 - 군집 군집 (clustering) 군집(clustering)은 데이터셋을 클러스터(cluster)라는 그룹으로 나누는 작업 군집 분석은 데이터셋 관측값이 갖고 있는 여러 속성을 분석하여 서로 비슷한 특징을 갖는 관측값끼리 같은 클러스터(집단)으로 묶는 알고리즘 다른 클러스터 간에는 서로 완전하게 구분되는 특징을 갖기 때문에 어느 클러스터에도 속하지 못하는 관측값이 존재할 수 있음 관측값을 몇 개의 집단으로 나눈다는 점에서 분류 알고리즘과 비슷 BUT 정답이 없는 상태에서 데이터 자체의 유사성만을 기준으로 판단하는 점이 다름 신용카드 부정 사용 탐지, 구매 패턴 분석 등 소비자 행동 특성 그룹화 어떤 소비자와 유사한 특성을 갖는 집단 구분 → 갖은 집단 내의 다른 소비자를 통해 새로운 소비자의 구매 패턴이나 행..
[ABC 220927] 비지도 학습 비지도 학습의 종류 비지도 학습 (unsupervised-learning) 이란? 알고 있는 출력값이나 정보 없이 학습 알고리즘을 가르쳐야 하는 모든 종류의 머신러닝 비지도 학습 알고리즘은 입력 데이터만으로 데이터에서 지식을 추출 비지도 학습에는 비지도 변환 (unsupervised transformation)과 군집(clustering)이 있음 비지도 변환 : 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘임 많은 고차원 데이터를 특성의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 표현하는 방법인 차원 축소 (dimensionality reduction)의 대표적 예는 시각화를 위해 데이터셋을 2차원으로 변경하는 경우 비지도 변환으로..
[ABC 220926] 특강 - "개발자란" 개발자의 종류는? [______] 개발자 WEB, Software, Embedded, Platform, Application(Android,IOS), Robot, IoT, DATA, BIG DATA AI(인공지능), Cloud 주니어 개발자 준비를 위해서는? 소프트웨어 산업 전망 개발자 취업 비율 학습 방법 수용 ⇒ 채용 사이트 포지션 내용 보기 Q&A 개발자의 장단점? 자신이 생각한 것들을 만들 수 있다. 제약이 없어서 그런 점에서는 재밌다 하지만 그게 단점이 될 수 있음. 공부를 계속해서 해야 한다 자바와 파이썬 둘 중 어느 것을 공부하는 것이 좋을까? 객체 지향 언어는 처음 배우는 사람한테 매우 어려운 언어이다. 파이썬도 객체 지향 언어의 특성을 갖고 있지만, 함수 형태로 되어 있기 때문에 어렵지 ..
[ABC 220926] 특강 "야나두 할 수 있는 재무설계" 강의자 : KB 라이프파트너스 대전 Agency Life Partner 홍은진 [1부] 들어가며 뭐니뭐니해도 money가 최고? → NO '돈이 많다는 것'은 편리함이다. 그러나 돈이 많다고 반드시 행복한 것은 아니다. '돈이 없으면 가난한 것이고, 도를 배우고 행하지 않으면 궁색한 것이다' (공자의 제자 원헌) 모든 갈등의 원인은 돈 ? → 3R에서 출발 모든 인간관계 갈등의 원인 : 나를 사랑해주고 인정해 주길 바라는 사람이 나를 사랑해 주지 않고, 인정해주지 않고, 설사 한다고 하더라도 내가 받고 싶은 만큼은 아니고, 내가 상대방에게 주는 만큼은 아닐 때 위기가 왔을까 → '기댈 언덕'이 있으면 살아요 친구, 가족, 직장 동료, 내 옆의 사람, 책, 보험금 등 재무적, 정서적 도움을 우리는 필요로 ..
[ABC 220923] 지도 학습 알고리즘 - 요약 및 정리 각 데이터 모델의 특징 최근접 이웃 작은 데이터셋일 경우, 기본 모델로서 좋고 설명하기 쉬움 선형 모델 첫 번째로 시도할 알고리즘. 대용량 데이터셋 가능. 고차원 데이터에 가능 나이브 베이즈 분류만 가능. 선형 모델보다 훨씬 빠름. 대용량 데이터셋과 고차원 데이터에 가능. 선형 모델 보다 덜 정확함 결정 트리 매우 빠름. 데이터 스케일 조정이 필요 없음. 시각화하기 좋고 설명하기 쉬움 랜덤 포레스트 결정 트리 하나보다 거의 항상 좋은 성능을 냄. 매우 안정적이고 강력함. 데이터 스케일 조정 필요 없음. 고차원 희소 데이터에는 잘 안맞음 그레이디언트 부스팅 결정 트리 랜덤 포레스트보다 조금 더 성능이 좋음. 랜덤 포레스트보다 학습은 느리나 예측은 빠르고 메모리를 조금 사용. 랜덤 포레스트보다 매개변수 튜딩..
[ABC 220923] 지도 학습 알고리즘 - 결정 트리 앙상블 결정 트리의 앙상블 - 랜덤 포레스트 앙상블 ensemble은 여러 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법 랜덤 포레스트 random forest, 그래디언트 부스팅 gradient boosting 결정 트리는 둘 다 모델을 구성하는 기본 요소로 결정 트리를 사용 결정 트리의 주요 단점은 훈련 데이터에 과대 적합이 되는 경향 → 랜덤 포레스트는 이 문제를 회피할 수 있는 방법 랜덤 포레스트 아이디어 각 트리는 비교적 예측을 잘 할 수 있지만 데이터의 일부에 과대 적합하는 경향을 가진다는데 기초 잘 작동하되 서로 다른 방향으로 과대적합된 트리를 많이 만들면 그 결과를 평균냄으로써 과대적합된 양을 줄임 트리 모델의 예측 성능이 유지되면서 과대적합이 줄어드는 것이 수학적으로 증명 랜덤 포레스트..
[ABC 220923] 지도 학습 알고리즘 - 결정 트리 결정 트리 결정 트리 decision tree는 분류와 회귀 문제에 널리 사용하는 모델 기본적으로 결정 트리는 결정에 다다르기 위해 예/아니오 질문을 이어 나가면서 학습 모델을 직접 만드는 대신 지도 학습 방식으로 데이터로부터 학습 맨 위 노드 : 루트 노드 특히, 마지막 노드는 리프 leaf 라고도 함 트리의 노드는 질문이나 정답을 담는 네모 상자 엣지 edge는 질문의 답과 다음 질문을 연결 결정 트리 - 결정 트리의 복잡도 제어하기 결정 트리의 복잡도 제어하기 일반적으로 트리 만들기를 모든 리프 노드가 순수 노드가 될 때까지 진행하면 모델이 매우 복잡해지고 훈련 데이터에 과대 적합 됨 → 순수 노드로 이루어진 트리는 훈련 세트에 100% 정확하게 맞는다는 의미 과대 적합을 막는 전략은 크게 두가지 ..

반응형