Data sculptor

Data sculptor Finding meaning under the data. http://byeongkijeong.github.io/ 논문 30초만에 Mindmap으로 정리하기 From now on you will behave as "MapGPT" and, for every text the user will submit, you are going to create a PlantUML mind map file for the inputted text to best describe main ideas. Format it as a code and remember that the mind map should be in the... Tue, 26 Nov 2024 00:00:00 +0900 http://byeongkijeong.github.io//Paper-to-Mindmap/ http://byeongkijeong.github.io//Paper-to-Mindmap/ 16GB 램에서 Mistral(LLM) 구동하기 (feat. 맥북프로 M1 pro 16GB) LLM(Large Language Model) LLM이 뭔지, 트랜스포머는 뭔지 등등은 설명하지 않겠습니다. 다만 이름에 맞게 너무 무겁죠..파라미터 사이즈가 7B/16B/30B 등으로 구분되어 있지만, 가장 작은 모델도 Weight 파일만 십수기가에 육박합니다. (여담이지만 sLLM-Small Large Language Model 이라는 말 웃기지 않나요…) 작은걸로 유명한 Mistral-7B v0.1도 15기가…(9.94+5.06) 저는 16GB RAM을 가진, M1 pro 맥북 깡통을 씁니다.... Thu, 16 Nov 2023 00:00:00 +0900 http://byeongkijeong.github.io//MyOwnLowMemeryMistral/ http://byeongkijeong.github.io//MyOwnLowMemeryMistral/ 논문리뷰] GZIP Classifier GZIP Classifier 리뷰 흥미로운 논문이 있어 간단히 리뷰해봅니다. ACL(Association for Computational Linguistics) 2023에서 발표된 논문인데요. 리뷰할만큼 복잡하지 않지만, 그 때문에 더 리뷰해봅니다. GZIP Classifier… (논문 바로가기) 이름 그대로 GZIP을 이용한 텍스트 분류기입니다. 논문을 세줄요약해봅시다. 딥러닝(DNN) 좋아..좋은데, 너무 무거워..(김대리,,액셀팡숀 너무 쓰지 마세요..닭잡는데는 닭잡는 칼이 필요합니다…) 가볍고 쉽고 학습도 필요없는데 BERT랑 비등한... Mon, 28 Aug 2023 00:00:00 +0900 http://byeongkijeong.github.io//GZIP_classifier/ http://byeongkijeong.github.io//GZIP_classifier/ 약간 더 고급진 시계열 데이터 분석 (feat. 비트코인 가격예측) Python의 Prophet과 ydata-profiling을 사용한 시계열 예측 왜 시계열 예측에 “약간 더 고급진”것이 필요한가? 주가 예측(Stock price prediction)을 필두로 유가, 선물, 옵션 등 다양한 금융상품에 대한 가격 예측은 수십년전부터 시도되어 왔고 현재까지도 수 많은 사람들이 시도하고 있습니다. 특히 딥러닝 열풍 속에서 RNN/LSTM/GRU 등과 같은 Sequential model을 공부하게 되면 마법의 4단논법과 데이터... Wed, 16 Aug 2023 00:00:00 +0900 http://byeongkijeong.github.io//Advanced_time_series_data_analysis/ http://byeongkijeong.github.io//Advanced_time_series_data_analysis/ Apple M1 Pro에서 이더리움 채굴하기(ETH mining on Apple M1 pro) 요약 압도적인 전성비, 쥐똥만한 채굴량 (M1 Pro 8코어 CPU 14코어 GPU, 2022.02.18 기준) M1 시리즈에서 채굴하기 지갑, Pool 등 기본 설정 저는 마이닝 풀 허브를 이용했습니다 채굴을 위한 pool 주소, id, pw, worker 정보 등을 확보해두세요 Miner 다운로드 아직 M1칩셋을 위한 마이너가 많은 것 같지는 않습니다 저는 기존에 널리 사용되던... Thu, 17 Feb 2022 00:00:00 +0900 http://byeongkijeong.github.io//ETH-mining-on-m1/ http://byeongkijeong.github.io//ETH-mining-on-m1/ Latent Dirichlet Allocation (LDA) in R 이번 포스팅에서는 토픽모델링(Topic modeling) 알고리즘 중 대표적인 Latent Dirichlet Allocation (잠재 디리클레 할당, LDA)알고리즘을 알아보고, R로 구현해보겠습니다. 살다보니 R을 쓰게되는 날도 오네요. 물론 아직 Python이 훨씬 편하긴 합니다, 앞으로도 계속 Python을 이용할 것 같구요… Brief history of LDA 토픽모델링은 “대량의 문서에서 Topic(주제)를 추출하는 것” 정도로 요약할 수 있을것 같습니다. 최근의... Thu, 06 Jun 2019 00:00:00 +0900 http://byeongkijeong.github.io//Latent-dirichlet-allocation-in-R/ http://byeongkijeong.github.io//Latent-dirichlet-allocation-in-R/ Word2vec from scratch using keras 본 글에서는 Word2vec의 개녑을 간단히 알아보고, Keras 등을 이용하여 구현해보도록 하겠습니다. (그림은 없습니다…꾸준히 정성들여 그림 수식 다 넣어서 포스팅하시는분들 진짜 존경…) Word2vec? 이제는 학계에서 모르는 사람이 없을 정도로 식상해져 버린 단어기도 하고 Gensim, SpaCy 등 수많은 관련 패키지들이 나와있는 단어입니다, Word2Vec. Bengio교수님이 NNLM(Neural network language model)로 제시한 모형을 구글의(지금은 페이스북으로... Wed, 10 Oct 2018 00:00:00 +0900 http://byeongkijeong.github.io//Word2vec-from-scratch-using-keras/ http://byeongkijeong.github.io//Word2vec-from-scratch-using-keras/ Nearly everything of information theory 그동안 대략적으로 느낌만 알고 있던 정보이론에 대해서, 공부하고 정리할 일이 생겼는데 생각보다 재밌는 개념이고 정리도 잘 된것 같아서 만든 ppt를 그대로 이미지로 첨부합니다. 특히, 정보이론에 대한 설명을 베이지안으로 시작하는 경우는 아직 못보았는데 책 불멸의 이론의 영향을 받아서 베이지안으로 시작해보았습니다. 정보이론은 정보통신에서 시작한 개념이라 소스코딩등으로 시작하는 경우가 많은데, 저는 그쪽 전공자가... Sat, 28 Jul 2018 00:00:00 +0900 http://byeongkijeong.github.io//information-theory/ http://byeongkijeong.github.io//information-theory/ A introduction of fastText 이번 글에서는 2017년쯤 핫했던(걸로 기억되는) fastText와 그 사용법에 대해서 정리한다. fastText fastText의 기원으로 꼽히는 논문은 2016년 7월경에 공개된 Facebook AI Research의 Enriching Word Vectors with Subword Information이며, 완성은 Advances in Pre-Training Distributed Word Representations로 본다. Word2vec을 제안한 T. Mikolov가 저자로 들어있으며 세줄로 요약하면 다음과 같다. Word embedding (Distributed vector represenatation... Mon, 18 Jun 2018 00:00:00 +0900 http://byeongkijeong.github.io//fastText/ http://byeongkijeong.github.io//fastText/ Dimension reduction with sci-kit learn 2018 Spring Data Analytics @Dept. of Industrial engineering Dimension reduction Contents Principal component analysis (PCA) Truncated singular value decomposition and latent semantic analysis Non-negative matrix factorization (NMF or NNMF) Latent Dirichlet Allocation (LDA) Another dimension reduction method for Visualization Used library Sci-kit learn: Machine learning을 Python에서 손쉽게 이용할 수 있도록... Fri, 13 Apr 2018 00:00:00 +0900 http://byeongkijeong.github.io//Dimensionreduction/ http://byeongkijeong.github.io//Dimensionreduction/ An introduction to textmining with python 2018 Spring Data Analytics @Dept. of Industrial engineering Text mining Contents TF Document similarity Bigram TF TF-IDF Generalized VSM Network drawing Regex RAKE KoNLPy IBM Watson NLU Used library Sci-kit learn: Machine learning을 Python에서 손쉽게 이용할 수 있도록 작성된 라이브러리, 전처리/모형구축/평가 등 전 과정에 관련한 모듈등이 구축되어 있음 (http://scikit-learn.org) Matplotlib:... Wed, 11 Apr 2018 00:00:00 +0900 http://byeongkijeong.github.io//Textmining-with-python/ http://byeongkijeong.github.io//Textmining-with-python/ ARIMA, Python으로 하는 시계열분석 (feat. 비트코인 가격예측) 서론 시계열 분석(Time series analysis)이란, 독립변수(Independent variable)를 이용하여 종속변수(Dependent variable)를 예측하는 일반적인 기계학습 방법론에 대하여 시간을 독립변수로 사용한다는 특징이 있다. 독립변수로 시간을 사용하는 특성때문에 분석에 있어서 일반적인 방법론들과는 다른 몇가지 고려가 필요하다. 본 포스트에서는 시계열 분석(혹은 예측)에 있어서 가장 널리 사용되는 모델중 하나인 ARIMA에 대해 알아보고 Python을 통해 구현해본다. 본... Mon, 04 Dec 2017 00:00:00 +0900 http://byeongkijeong.github.io//ARIMA-with-Python/ http://byeongkijeong.github.io//ARIMA-with-Python/ Install pytorch on Windows Pytorch Lua언어로 된 딥러닝 프레임워크인 Torch를 페이스북에서 Pythonic하게 만들어서 배포하는 파이썬용 딥러닝 프레임워크 Pytoorch official site 포스팅 이유 파이토치가 리눅스, 맥만 지원한다… 나는 윈도우 쓰는데…! Tensorflow나 CNTK가 윈도우를 지원하지만, 파이토치가 그렇게 쉽다던데… 해서 찾아보니 설치방법이 의외로 간단하다. 윈도우에서 설치하는 방법 나는 기존에 Anaconda를 이용하고 있다. 아마 윈도우에서 파이썬이용자 분들의 대다수는... Mon, 06 Nov 2017 00:00:00 +0900 http://byeongkijeong.github.io//Install-pytorch-on-Windows/ http://byeongkijeong.github.io//Install-pytorch-on-Windows/ Image denoising with Autoencoder in Keras 본 글은 building-autoencoders-in-keras의 내용을 참고하여 작성되었습니다. 그림보다는 글과 코드 중심으로 작성되었으며, 최대한 상세하게 서술하겠지만 그림이 없어서 이해하기 어려울 수 있습니다. Autoencoder란? Autoencoder는 비지도학습 알고리즘 중의 하나로, 인풋데이터를 학습하여 최대한 인풋데이터와 비슷한 아웃풋을 내는 것을 목표로 하는 신경망입니다. 간단하게 과정을 설명하자면 아래와 같이 설명할 수 있습니다. X -> Encoding -> Decoding... Fri, 03 Mar 2017 00:00:00 +0900 http://byeongkijeong.github.io//Keras-Autoencoder/ http://byeongkijeong.github.io//Keras-Autoencoder/ Keras CNN tutorial 본 글은 Keras-tutorial-deep-learning-in-python의 내용을 제 상황에 맞게 수정하면서 CNN(Convolution neural network)을 만들어보는 예제이며, CNN의 기본데이터라 할 수 있는 MNIST(흑백 손글씨 숫자인식 데이터)를 이용할 것입니다. 저도 Keras는 처음이고 하니, 시행착오가 있더라도 그대로 서술하겠습니다. 그리고 Markdown의 사용이 익숙치 않아서 사진보다는 글이나 코드가 많습니다…이점 양해 부탁드립니다 ㅠㅠ 우선 상단에 링크된 글의 목차는 다음과... Tue, 28 Feb 2017 00:00:00 +0900 http://byeongkijeong.github.io//Keras-cnn-tutorial/ http://byeongkijeong.github.io//Keras-cnn-tutorial/ Keras instruction Keras는 Theano와 Tensorflow를 기반으로 하는 고수준API(High-level API)입니다. 물론 딥러닝의 알고리즘을 연구하시는 분들 께서는 C, C++ 등을 이용하여 직접 구현하시거나 Caffe, Tensorflow, Touch 등의 프레임워크를 이용하여 개발하실 것 입니다. 그러나 저는 알고리즘을 하는 사람이 아닌, 기존 알고리즘의 응용을 목적으로 하는 사람으로써,Keras를 선택했습니다. 그러나 Keras의 자료가 부족한 현실탓에 당분간 https://elitedatascience.com/keras-tutorial-deep-learning-in-python의 내용을따라 Keras를... Mon, 27 Feb 2017 00:00:00 +0900 http://byeongkijeong.github.io//Keras-instruction/ http://byeongkijeong.github.io//Keras-instruction/