본문 바로가기
728x90

AI26

추천시스템 맛보기 1탄 추천 시스템의 유형 추천 시스템은 크게 콘텐츠 기반 필터링(Content based filtering) 방식과 협업 필터링 (Collaborative filtering) 방식으로 나뉜다. 그리고, 협업 필터링 방식은 다시 최근접 이웃 (Nearest Neighbor) 협업 필터링과 잠재 요인(Latent Factor)협업 필터링으로 나뉜다. 추천 시스템의 초창기에는 콘텐츠 기반 필터링이나 최근접 이웃 기반 협업 필터링이 주요 사용됐지만, 그 유명한 넷플릭스 추천 시스템 경연 대회에서 행렬 분해(Matrix Factorization)기법을 이용한 잠재 요인 협업 필터링 방식이 우승하면서 대부분의 온라인 스토어에서 잠재요인 협업 필터링 기반의 추천 시스템을 적용하고 있다. 하지만, 서비스하는 아이템의 특성에.. 2019. 10. 3.
머신러닝 맛보기 8탄 1. 추천시스템 유형 컨텐츠 기반 필터링 (Content Based Filtering) 협업 필터링 (Collaborative Filtering) 최근접 이웃 (Nearset Neighbor) 협업 필터링 사용자 기반 아이템 기반 잠재 요인 (Latent Factor) 협업 필터링 추천 시스템의 초창기에는 컨텐츠 기반 필터링이나 최근접 이웃 필터링이 주로 사용됐지만, 넷플릭스 추천 시스템 경영 대회에서 행렬 분해 (Matrix Factorization) 기법을 이용한 잠재 요인 협업 필터링 방식이 우승하면서 대부분의 온라인 스토어에서 잠재 요인 협업 필터링 기반의 추천 시스템을 적용하고 있다. 하지만, 서비스하는 아이템의 특성에 따라 컨텐츠 기반 필터링이나 최근접 이웃 기반 필터링 방식을 유지하는 사이트.. 2019. 5. 27.
머신러닝 맛보기 7탄 1. 딥러닝 1-1. 신경망 신경망은 사람의 신경을 모방해 만든 네트워크 구조이다. 이를 통해 컴퓨터가 학습 능력을 갖게 해서 다양한 문제를 해결하는 접근 방법이다. 인간의 뇌에는 수많은 신경 세포(뉴런) 가 있다. 하나의 뉴런은 다른 뉴런으로부터 신호를 받고, 또 다른 뉴런에게 신호를 전달한다. 뇌는 이러한 신호의 흐름을 통해 정보를 전달한다. 이를 컴퓨터로 구현한 것이 신경망이다. 1-2. 퍼섭트론 신경망을 이해하려면 퍼셉트론이라는 인공 뉴런을 알아야 한다. 프랭크 로젠블라트가 1957년에 고안 한것이며, 간단한 구조지만, 현재 인공지능의 기초가 된다. 2. Tensorflow 2-1. Tensoflow 란? 텐서플로는 대규모 숫자 계산 라이브러리이다. 머신러닝과 딥러닝 전용 라이브러리로 알려져 있지.. 2019. 5. 9.
머신러닝 맛보기 6탄 1. 최적의 알고리즘 및 매개변수 찾기 알고리즘 선정시 고려점 : 더 높은 정답률을 내는 다른 알고리즘이 있지는 않은가? 해결법 : 각각의 알고리즘으로 정답률을 구하고 비교한다. 알고리즘 평가시 고려점 : 데이터(학습 전용과 테스트 전용) 분류의 편향이 발생하지는 않았는가? 해결별 : 크로스 벨리데이션 (cross-validation) 이용 2. 최적의 알고리즘 찾기 2-1. 각 알고리즘의 정답률 비교하기 all_estimators() 메서드를 사용하여 모든 알고리즘을 추출한다. 해당 알고리즘의 정답률을 비교한다. 2-2. 크로스 벨리데이션 여러 데이터 패턴으로 평가하고 안정적인 결과를 내는것을 선택하고 싶을때 사용 알고리즘의 타당성을 평가하는 하나의 방법. "교차 검증: 이라고 하며, 종류에는 K-분할.. 2019. 5. 2.
머신러닝 맛보기 5탄 머신러닝 입문 1. 기본과정 목표결정 데이터 수집 데이터 가공 데이터 학습 머신러닝 방법(알고리즘) 선택 매개변수 조정 데이터를 학습해서 모델 구축 모델 평가 만족스러운 정답률이 나올때까지 4에서 다시 반복 업무에 적용 2. 데이터 수집 / 가공 머신런닝에서 많이 사용되는 데이터 형식 : CSV, INI, XML, JSON, YAML 데이터량이 많은경우는 RDB 를 이용하면 된다. 기본적으로 Python 으로 처리하는 경우 Python 에서 읽고 저장하기 쉬운 포맷 또는 방식을 선택하는것이 좋다. 차원의 저주 (Curse of dimensionality) 사용할수 있을 것 같은 데이터를 모두 학습 대상ㅇ에 넣어버리면 성능을 충분히 발휘할수 없습니다. 특징량(차원)이 너무 많아지면 머신러닝 모델이 효율적으.. 2019. 4. 18.
728x90