AI 머신러닝
-
텍스트, 시퀀스를 위한 딥러닝AI 머신러닝 2019. 9. 17. 15:29
이번에 알아볼 것은 텍스트 데이터를 어떻게 쓸만한 형태로 만들지... 전처리하는 방법에 대해 알아보겠습니다. 단어의 시퀀스, 문자의 시퀀스, 시계열 또는 일반적인인 시퀀스 데이터를 처리 할 수 있는 딥러닝 모델을 알아보겠습니다! * 시퀀스 : 문자의 열이라고 생각하면 될것 같아요... 시퀀스(sequence)는 데이터에 순서(번호)를 붙여 나열한 것이며, 다음은 장바구니에 담을 물건을 메모한 목록이다. 아이스크림, 라면, 간장, 소금, 메론 위 목록은 시퀀스다. 시퀀스에서는 순서로 요소를 가리킬 수 있다. 첫 번째 요소는 아이스크림, 두 번째는 라면, 마지막은 메론다. “네 번째 데이터가 무엇이냐”라는 질문에 “소금”라고 답하는 것도 가능하다. 이 예처럼 시퀀스는 데이터를 하나씩 순서대로 나열한 것이다...
-
시계열 분석AI 머신러닝 2019. 9. 7. 01:56
오늘 배워 볼 내용은 시.계.열.에 대한 내용입니다. 길지만 내용은 가능한 쉽게 적도록 노력쿠 했습니다. 우선 기초개념부터 알아봅시다! 시계열(時系列, Time Series)은 일정 시간 간격으로 배치된 데이터들의 수열을 말한다. 시계열 자료란? 시간의 흐름에 따라 변하는 현상을 관찰함으로써 얻어지는 자료다! 사회, 자연과학, 현상 등 모든 분야에서 볼 수 있어요. EX) 연도별 강우량, 농업분야, 기상의 하루 최고온도, 저수량 ,의학분야에선 뇌파, 심전도 등등이 조사/관찰되고 있다. 우리가 알고 있는 주식, 주가변동 등도 있어요 그렇다면 시계열 분석은 왜 사용하나?... 시계열 분석의 목적은 Two 가지로 나눌 수 있어요. 1. 모형 수립(model building) : 관찰된 시계열의 성질을 조사, ..
-
FOREST 데이터 분석AI 머신러닝 2019. 9. 6. 01:33
이번에는 kaggle이란 예측모델 및 분석 대회 플랫폼 사이트에서 forest 데이터를 분석해보았습니다! 이번에 같이한 조원은 김영인, 김석준, 이현영, 오창민입니다. 저는 독립변수와 독립변수와의 상관관계를 ggplot이나 cor()함수를 써서 그래프와 상관관계를 시각화하는 담당을 하였습니다. kaggle 주소 : https://www.kaggle.com/c/forest-cover-type-kernels-only Forest Cover Type (Kernels Only) Use cartographic variables to classify forest categories www.kaggle.com
-
인공지능과 머신러닝, 딥러닝 (3)AI 머신러닝 2019. 9. 5. 23:31
이번엔 전에 이어서 딥러닝에 대한 설명을 해보겠습니당. 앞에서 본것과 같이 딥러닝을 간단히 인간의 뉴런과 비슷한 인공신경망 방식으로 정보를 처리한다고 했습니다. 음 나중에 나올것 같지만 MLP모형같은 느낌이 확 느껴집니다만...잘 모르겠습니다. Deep learning이란 단어를 보면 무언가 'Deep' 깊고 세분화 된 느낌이 강한데... 그냥 연속된 층으로 표현을 학습한다는 개념을 나타낸다고 합니다. 딥러닝은 머신러닝의 특정한 한 분야로써 연속된 층(layer)에서 점진적으로 의미있는 표현을 배우는 데 강점이 있어요. 또한 데이터로부터 모델을 만드는데 얼마나 많은 층을 사용했는지 그 모델의 깊이(DEEP)이 됩니다! 최근에는 딥러닝의 모델은 표현학습을 위해 수백개의 연속된 층을 가지고 있다고 하네요....
-
인공지능과 머신러닝, 딥러닝 (2)AI 머신러닝 2019. 9. 5. 20:05
저번에 적은것 이어서 적겠습니다! 딥러닝으로 들어가기전 머신러닝과 딥러닝의 차이를 알아야합니다. 우선 머신 러닝의 알고리즘 방식입니다. 머신러닝은 샘플(train data)과 기댓값(result)이 주어졌을 때 데이터의 처리작업을 위한 규칙을 찾는 것이라고 앞서 말한 적이 있습니다! ☆★☆머신러닝을 하기위한 3가지☆★☆ 1. 입력데이터 포인트 : 주어진 데이터가 음성인식이라면 데이터 포인트는 사람의 대화가 녹음된 파일입니다. 주어진 데이터가 여행 사진 태깅이라면 데이터 포인트는 사진 파일이 됩니다. 2. 기대출력 : 음성인식 작업에서는 사람이 사운드 파일을 듣고 옮긴 글입니다. 이미지 작업에서 기대출력은 '강아지', '고양이' 같은 태그입니다 3. 알고리즘의 성능을 측정하는 방법 : 현재 출력과 기대출력..
-
인공지능과 머신러닝, 딥러닝(1)AI 머신러닝 2019. 9. 5. 14:06
AI에 대한 글입니다. '케라스 창시자에게 배우는 딥러닝' 책을 참고하였습니다! 인공지능이란 컴퓨터가 생각할 수있는가? 로 질문을 하면서 시작되었다. 일반 사람이 지능적인 작업을 자동화하기 위한 연구활동입니다.. AI는 머신러닝과 딥러닝을 포함하고 있습니다. 옛날의 체스프로그램은 프로그래밍으로 규칙을 많이 만들어 지식을 다루면 인간수준의 인공지능을 만들수 있다고 생각했습니다. 이런한 접근 방법을 '심볼릭 AI'라 합니다. 하지만 이미지분류, 음성인식, 번역 같은 불분명한 문제엔 규칙이 없으므로 매우 어려운 일이었습니다. 이것을 대체하기 위한 새로운 방법이 ' 머신 러닝 ' 입니다. 머신러닝은 이러한 질문에서부터 시작되었습니다. "우리가 어떤 것을 작동시키기 위해 '어떻게 명령할지 알고 있는것' 이상을 컴..
-
로지스틱 회귀(Logistic Regression)AI 머신러닝 2019. 8. 29. 17:21
우선 읽기 전 체크 할 부분 설명 할게요. 1. 분류 분석은? - 종속변수가 다변량 자료를 통해 모형을 구축하고 이를 통해 새로운 자료에 대한 예측, 분류를 하는 것! 종속변수는 예를 들면 X값을 대입했을 경우 X로 인해 Y의 값이 바뀌는 결과를 나타낸다. 이때 Y가 종속변수! 말그대로 종속되어있다 이것은 - 종속변수가 범주형인 경우: 새로운 자료에 대한 분류 - 종속변수가 연속형인 경우: 값을 예측 이럴 때 이렇게 사용하도록 하자.... 분류 분석의 대표적인 모형 - 로지스틱회귀 (logistic regression) - SVM(Support Vector Machine) - 신경망 모형(artificial neural network) - 의사결정나무 (decision tree) - 앙상블 (ensemb..
-
서포트 벡터 머신 (SVM)AI 머신러닝 2019. 8. 29. 16:50
서포트 벡터 머신이란? N차원에서 두 개 이상의 변수를 분류할 때 가장 이상적으로 분류한 후 예측하는 모형이다.