빅데이터 & 인공지능 8

인공지능 전이학습

지도학습은 학습데이터(Training data) 와 검증데이터(validation data) 그리고 테스트데이터(test data) 로 구성되어 있다. 학습데이터를 통해 특징을 추출하고 model을 만들고 검증데이터로 모델이 잘 만들어졌는지 확인할 수 있다. 그리고 최종적으로 이 모델이 잘 만들어진 모델인지 테스트 데이터를 통해 그결과를 확인할 수 있다.이때, 뉴스데이터를 예로 들자면 뉴스의 카테고리(정치,문화,경제 등등..) 가 없는 뉴스기사를 데이터로 이용하고 이를 분류한다면 예측률이 매우 안 좋다. 반면 카테고리가 있는 뉴스기사를 데이터로 이용한다면 예측률이 좋다. 이 둘(카테고리가 있는 뉴스+ 카테고리가 없는 뉴스 데이터) 을 섞으면? 더 좋다! 그렇다면 이때 카테고리가 있는 뉴스와 없는 뉴스 한..

신경망의 딥러닝의 여러가지 문제

DNN 이란 ? MLP (다층 퍼셉트론) 에서 은닉층의 개수를 증가시킨 것이다. (MLP 에서는 2-3개의 은닉층 ) deep 이라는 용어가 은닉층이 깊다는 것을 뜻한다. (여러개의 은닉층 , CPU 로는 버겁고 GPU환경에서 구동해야됨 ) 기존의 모델을 학습시킬 때는 특징 추출 과정을 거쳐서 데이터 전처리, 가공을 통해 데이터를 추출한 후, 학습데이터로 패턴분류기를 훈련했다. 그러나 딥러닝에서는 특징 추출 과정이 필요가 없다! 왜냐하면 스스로 특징을 추출하기 때문!!!! * 딥러닝에서는 특징을 추출하지 않아도 Input data에 들어간 데이터를 은닉층에서 한층 한층 가면서 필요한 정보들을 스스로 추출해 낸다. 앞쪽의 은닉층에서는 엣지처럼 저급 특징을 추출하고 뒤쪽의 은닉층은 코너와 같은 고급 특징을 ..

MLP 신경망 (Multi-Layer Perceptron)

MLP 란 여러 개의 퍼셉트론 뉴런을 여러 층으로 쌓은 다층신경망 구조입력층과 출력층 사이에 하나 이상의 은닉층을 가지고 있는 신경망이다.인접한 두 층의 뉴런간에는 완전 연결 => fully connected 된다. 다층 뉴런은 왜 필요할까? 복잡한 패턴 분류를 위해서는 입출력 간의 복잡한 변환 구조가 필요하다. 사용하는 뉴런의 수를 늘리고 층을 추가하여 복잡한 구조의 의사결정 경계를 생성할 수 있다. 단일뉴런 ( 퍼셉트론)으로는 선형분리 가능한 경계선만 생성가능함. 두개의 뉴런을 결합함으로써 XOR 과 같은 비선형 분리가 가능한 결정선을 생성할 수 있다. 뉴런을 추가함으로써 다각형 모양의 경계선을 생성할 수 있다. => 복잡한 데이터의 분류가 가능해진다! , 일반적으로 다층 신경망은 (MLP 는) 2-..

CNN 알고리즘 (컨벌루션 네트워크)

1. CNN 이란? 이미지 인식 패턴을 찾는데 유용한 알고리즘으로 데이터를 학습하고 새로운 데이터가 들어왔을 때 이미지를 분류해낼 수 있는 알고리즘이다. 자율주행차, 얼굴인식 등에 주로 쓰이는 알고리즘이기도 하다. 예를들어 영상을 인식을 통해 영상 안의 강아지와 고양이를 인식하고 분류할 것이라면,1) 먼저 카메라로 촬영한 영상의 이미지를 가져온다.2) 그다음으로 전처리 과정이 필요하다. 잡음을 없애고 단순화하기 위함이다. 3) 영상 분할 기법을 사용해서 영상에서 동물과 배경을 분리한다.4) 추출된 동물 이미지에서 동물의 특징값을 계산한다.5) 이 특징값들을 이용하여 분류기는 최종 판단을 내린다. => 강아지인지 고양이인지 위의 방법은 전통적인 영상 인식 시스템에서 특징을 추출하는 과정이다. 이렇게 하면 ..

기계학습, 머신러닝이란?

기계 학습 컴퓨터는 스스로 학습할 수 없으니까 우리가 컴퓨터한테 일을 시키려면 반드시 프로그래밍 (=코딩) 을 해서 작업지시를 해야한다. 그러나 컴퓨터가 스스로 학습할 수 있다면? 프로그래밍을 안 하더라도 컴퓨터 스스로 여러가지 일을 할 수 있다! 따라서 주어진 입력을 점차적으로 개선하는 방향으로 해석하도록 컴퓨터에게 지능을 부여하는 것 이것이 바로 기계학습이다. 기계 학습을 통해 새로운 데이터와 답을 주고 데이터의 패턴을 분석하여 규칙을 찾도록 프로그래밍하여 결과값을 예측하는 것이다. 그렇다면 이러한 기계학습은 어디에 이용될까? 예를들면, 넷플릭스에서 비디오를 추천해주는 것도 모두 기계학습을 이용한 예이다. 그외에도 자율주행 시스템, 상품 추천 시스템, 광고시스템, 안면인식, 음성인식, 영상인식 등등 ..

빅데이터란 무엇인가

빅데이터란 기존의 데이터 처리 응용에서는 다루기 어려운 크고 복잡한 데이터셋에 대하여 분석하고 정보를 찾아내는 분야 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 즉, 기존의 데이터 베이스로는 처리하기 어려울 정도로 방대한 양의 데이터를 의미한다. 빅데이터의 특징 빅데이터의 특징은 3V로 설명할 수 있다. 데이터 량 (Volume) , 생성 속도 (Velocity) , 다양성 (Variety) Volume : 생성되고 저장되는 데이터량으로 데이터량에 따라 처리가능성을 평가하여 빅데이터인지 아닌지 결정된다. Velocity : 데이터가 생산되고 처리되는 ..

파이썬을 이용한 머신러닝 ) 다중선형회귀분석

다중선형회귀분석이란?두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 방법이다. 앞서 알아본 단순회귀 분석을 확장한 개념으로 생각하면 된다. 파이썬 코드로 살펴보자! linear_model: sklearn 패키지에서 제공하는 선형회귀분석을 할 수 있게 도와주는 모듈numpy : 파이썬 언어를 위한 행렬 , 벡터 등의 수학계산을 위한 자료구조와 계산함수를 제공하는 패키지pandas : 데이터 분석, 가공,처리 등을 쉽게 하기 위한 자료구조와 처리 함수들을 제공하는 패키지matplotlib : 플롯 (그래프)를 그릴 때 주로 쓰는 패키지matplotlib.pyplot : matplotlib 의 서브패키지 X 는 x1, x2 데이터만 저장하는 독립변수 y 는 종속변수 prediction : 학습된 ..

파이썬을 이용한 머신러닝 ) 단일선형회귀분석

종속변수: 독립변수의 특정한 값에 따른 그의 값을 예측하고자 하는 변수 독립변수: 다른 변수에 영향을 주고 그 변수의 값을 예측하려는 변수 회귀 분석이란?종속변수, 독립변수 사이의 함수적 관계를 기술하는 수학적 방정식을 구하는데 사용된다.식은 독립변수의 값이 주어질 때 종속변수의 값을 추정하거나 예측하는데 사용된다.서로 영향을 주고 받는 상관관계를 갖는 두 변수 사이의 관계를 분석하는 것이다.python 에서는 대표적으로 sklearn 패키지에서 Linear regression 회귀분석을 위한 함수를 제공한다. 산포도란? 보통 X축:독립변수 / Y축: 종속변수를 설정하고 각 변수의 값을 나타내는 점을 도표로 나타낸다.회귀분석 할 때 먼저 두 변수 사이의 관계를 대략적으로 알아보기 위하여 산포도를 그린다...