본문 바로가기

ML , DL/etc26

인공지능 용어 정리 GAN (Generative Adversarial Network) : 두 개의 네트워크로 구성된 심층 신경망 구조 한 네트워크가 다른 네트워크와 겨루는 구조 처음에 생성자는 무작위 데이터를 만들고 구분자는 제대로 분류하지 못함 하지만 구분자는 생성자가 만든 데이터와 함께 진짜 데이터를 동시에 학습하기 때문에 조금씩 실력이 향상됨 생성자 역시 구분자를 더 잘 속이기 위해 진짜처럼 보이는 데이터를 만들어감 ​ ​ 오토인코더 (Auto enconder) : 신경망의 입력층과 출력층의 노드 개수가 같은 구조 차원 축소 또는 노이즈 제거에 널리 쓰이는 네트워크 구조 ​ ​ 이미지넷 (ImageNet) : 이미지넷 프로젝트는 비주얼 객체 인식 소프트웨어 연구에 사용되도록 설계된 대형 비주얼 데이터베이스임 프로젝트에.. 2021. 10. 30.
트위터의 AnomalyDetection 오픈 소스 패키지 4년 전 트위터는 이상치 탐지 패키지인 AnomalyDetection을 오픈 소스화했으며, ​ 지금까지도 유용하고 그 성능이 우수하다고 알려져 있음 ​ (프로젝트의 깃허브 저장소와 트위터의 공식 블로그에서 자세한 정보를 얻을 수 있음) ​ 이 패키지는 이상치 식별을 위해 일반화된 ESD보다 더 정교한 모델을 구축하는 계절적 하이브리드(seasonal hybrid) ESD(extreme studentized deviant)를 구현하여 제공함 ​ 일반화된 ESD 검정 (https://perma.cc/C7BV-4KGT) 자체는 데이터셋에 단일 특이치가 있다는 가설을 검정하는 그럽스(grubbs) 검정 (https://perma.cc/MKR5-UR3V)에 기반함 ​ 일반화된 ESD는 이 검정을 반복적으로 적용함.. 2021. 10. 30.
[autopep8] Error loading library for python ModuleNotFoundError No module named 'autopep8' autopep8 Error loading library for python ModuleNotFoundError No module named 'autopep8' 에러 발생 시 하기의 코드 입력 pip install autopep8 --user 2021. 10. 30.
머신러닝, 딥러닝 추천 도서, 사이트 "혼자 공부하는 머신러닝+딥러닝" (한빛미디어) ​ ​ "핸즈온 머신러닝 2판" (한빛미디어, 2020) "머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로" (길벗, 2019) ​ ​ "파이썬 라이브러리를 활용한 머신러닝 (번역개정판)" (한빛미디어, 2019) "파이썬을 활용한 머신러닝 쿡북" (한빛미디어, 2019) "케라스 창시자에게 배우는 딥러닝" (길벗, 2018) ​ ​ "Do it! 딥러닝 입문" (이지스퍼블리싱, 2019) "밑바닥부터 시작하는 딥러닝" (한빛미디어, 2017) ​ ​ (기존에 없는 새로운 데이터를 생성해 내는 생성 모델 분야) "GAN 인 액션" (한빛미디어, 2020) "미술관에 GAN 딥러닝 실전 프로젝트" (한빛미디어, 2019) ​ (머신러닝과 딥러닝의 비지.. 2021. 10. 30.
논문 읽는 방법 공학 박사 학위 논문을 쓰려면 연구 분야에 관한 논문을 1000개 정도 읽어야 함. ​ 논문을 한 개 읽으면 다 읽고 나서 논문 맨 앞표지에 해당 논문의 가장 핵심적인 아이디어를 간단히 몇 줄로 요약함 ​ 논문을 읽다가 이 아이디어는 정말로 요긴하게 쓸 수 있겠다 생각하는 것은 나만의 아이디어 노트에 따로 정리해 둠 ​ 인용이 많이 되었거나 해당 연구 분야에서 핵심적인 아이디어를 제안했던 논문들은 따로 워드 테이블로 정리해 둠 ​ 인용 수가 많은 논문을 읽는다. ​ 최신 경향을 익히기 위해 게재 연도가 최근인 논문 중에서 자신에게 친숙한 저널이나 어느 정도 명망 있는 저널의 논문을 읽는다. ​ 선행 연구 부분이 자세하게 나와 있는 하나의 논문을 정해서 해당 논문의 선행 연구에 있는 논문들을 찾아서 읽는다. 2021. 10. 30.
AI 빅데이터 분석 관련 기술들 ​ A/B testing Crowd-sourcing Association Rule Cluster Genetic Algorithms ​ Machine Learning Ensemble Learning Optimization fusion & intergration ​ Classification Tree Natural Networks ​ Data Mining Natural Language Processing 2021. 10. 30.
데이터 마이닝 데이터에 대한 이해 ​ - 명목 데이터 : 사물의 기호나 이름과 같은 데이터 - 이진 데이터 : 0과 1로 이루어진 데이터 - 순서 데이터 : 상중하처럼 등급이나 계급이 있는 데이터 - 숫자 데이터 : 절대영점을 가지고 있으면 비율척도 데이터, 없으면 등간척도 데이터 정수형이냐 연속형이냐에 따라 이산/연속형 데이터 ​ 데이터에 전처리 기술 ​ - 데이터 정제 : 결측치 제거 또는 대치, 노이즈 제거 - 데이터 통합 : 중복 데이터 처리, 복사, 단위 통합 - 데이터 축소 : 주성분 분석, 속성 선택법, 샘플링 - 데이터 변환 : 데이터 정규화, 비닝 ​ 데이터 분석 알고리즘 ​ - 연관관계 분석, 상관관계 분석, 빈발 패턴 분석, 클래스 분류 분석, 클러스터 분석, 회귀 분석, 아웃라이어 분석 등 ​ 클.. 2021. 10. 30.
빅데이터 관련 추천 책, 강의, 자격증, 저널 빅데이터 공부에 도움이 될 만한 책들 ​ 1. 빅데이터 기초 : 개념, 동인, 기법 (시그마프레스) ​ 2. 인공지능 시대의 비즈니스 전략 (더퀘스트) ​ ​ AI 빅데이터 분석의 다양한 활용 사례를 확인할 수 있는 책들 ​ 1. 빅데이터가 만드는 제4차 산업혁명 (북카라반) ​ 2. 빅데이터 비즈니스 이해와 활용 (위즈하임) ​ 3. 빅데이터 분석과 활용 (학지사) ​ ​ 데이터 마이닝 관련 책 ​ 1. 데이터 마이닝 개념과 기법 (에이콘출판) ​ 2. 패턴인식 (교보문고) ​ 3. 데이터 마이닝 기법과 응용 (한나래) ​ (2번과 3번 책은 알고리즘에 대한 수학적인 설명을 자세히 서술한 점이 장점) ​ ​ 데이터 분석 책 ​ 1. 파이썬 라이브러리를 활용한 데이터 분석 (한빛미디어) ​ 2. 파이썬으.. 2021. 10. 30.
4차 산업혁명 1 ~ 4차 산업혁명 ​ (1) 1차 산업 혁명 : 증기 기관 기반 기계화 혁명 (핵심기술 : 증기기관, 방적기) ​ (2) 2차 산업 혁명 : 석유, 전기 에너지 기반 대량 생산 혁명 (핵심기술 : 전기, 모터) ​ (3) 3차 산업 혁명 : 컴퓨터 기반 지식정보 혁명 (핵심기술 : 컴퓨터, 반도체, 인터넷) ​ (4) 4차 산업 혁명 : 인공지능, 바이오, CPS 기반 만물초지능혁명 (핵심기술 : 인공지능, 로봇공학 등) ​ ​ ​ 4차 산업 ​ 4차 산업 : 3차 산업혁명을 기반으로 디지털,바이오와 물리학 사이의 경계를 허무는 융합 기술 혁명 모든 것이 연결되고 보다 지능화된 사회로 변화 (사물 인터넷, 메타버스(VR, AR, XR), 로봇, 클라우드, 빅데이터, 플랫폼, 인공지능, 가상현실, 드론.. 2021. 10. 28.
데이터 과학자(데이터 사이언티스트)의 관련 분야 데이터 과학자에게 필요한 자질 : 호기심, 창의성, 실용성, 데이터 과학자, 비즈니스 마인드, 과학적 마인드 ​ 데이터 과학자의 관련 분야 : ​ 기업가 정신 - 윤리학 - 데이터 제품 디자인 - 도메인 지식 ​ 컴퓨터 과학 - 프로그래밍 - 개인정보 & 보안 - 클라우드컴퓨팅 - 분산시스템 - 기술 & 인프라 ​ 분석학 - 특성추출공학 - 자연어 처리 - 과학적 방법, 통계 - 인공지능, 그래프 분석 - 데이터 & 텍스트 마이닝 - 예측 모델링 - 기계학습 ​ 데이터베이스 - 매시업 - 정보추출 - 데이터 웨어하우스 - 데이터 관리 - 비즈니스 ​ 예술 & 디자인 - 시각화 - 의사소통 2021. 10. 28.
인공지능 관련(파이썬, 머신러닝, 딥러닝, 선형대수, 확률과 통계 등) 추천 책 및 사이트 모음 https://www.philgineer.com/2020/10/awesome-machine-learning.html [책 & 강의] 직접 보고 추천하는 머신러닝 & 딥러닝 & 관련 수학 총.정.리. (2021) 머신러닝 딥러닝 입문, 밑바닥부터 시작하는 딥러닝, 모두를 위한 딥러닝, 코세라 머신러닝, 파이썬 라이브러리를 활용한 머신러닝, 선형대수학 머신러닝, 딥러닝 선형대수학, 확률과 통계 머신러닝, 미적분 머신러닝, 머신러닝 강의, 머신러닝 책 추천, 딥러닝 책 추천 www.philgineer.com https://teddylee777.github.io/thoughts/%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D-%EC%9D%B8%EA%B3%B5%EC%A7%80%E.. 2021. 10. 28.
AI 빅데이터 전문가로서 경력을 쌓아가는 방법 (1) 전문성을 주변에 최대한 어필한다 ​ (2) SNS 프로필에 자신의 이력과 전문성을 어필하는 글을 올린다 ​ (3) 블로그 또는 홈페이지를 만들고 전문적인 글을 주기적으로 올린다 ​ (4) 자신을 전문가로 소개하는 명함을 만들고 만나는 사람마다 나눠 준다 ​ (5) 크몽, 오투잡 등 각종 프리랜서 플랫폼에 이력을 올리고 홍보한다 ​ (6) 일거리를 받으면 높은 품질로 완성하고 고객에게 추천 및 평을 써달라고 요청한다 ​ (7) 고객에게 받은 추천, 평가들을 소중히 간직하며 마케팅, 홍보용으로 사용한다 2021. 10. 28.
주성분 분석 (PCA) 비지도 학습을 사용해 데이터를 변환하는 이유 ​ (1) 시각화 (2) 데이터 압축 (3) 지도 학습에 사용하기 위해 정보가 더 잘 드러나는 표현을 찾기 위해 ​ - 주성분 분석 (principal component analysis, PCA) : 가장 간단하고 흔히 사용하는 알고리즘 ​ - 비음수 행렬 분해 (non-negative matrix factorization, NMF) : 특성 추출에 널리 사용 ​ - t-SNE (t-distributed stochastic neighbor embedding) : 2차원 산점도를 이용해 시각화 용도로 많이 사용 ​ ​ 주성분 분석 (PCA) ​ 특성들이 통계적으로 상관관계가 없도록 데이터셋을 회전시키는 기술 ​ 회전한 뒤에 데이터를 설명하는 데 얼마나 중요하냐에.. 2021. 10. 28.
사분위수, IQR, 1사분위수, 3사분위수, 중간값 2021. 10. 28.
!wget, -O ​ "!" 문자로 시작하면 ​ 파이썬 코드가 아니라 ​ 리눅스 셸(shell) 명령으로 이해함 ​ wget 명령 : 원격 주소에서 데이터를 다운로드하여 저장 ​ -O 옵션 : 저장할 파일 이름을 지정 ​ 2021. 10. 28.