반응형
직장 동료분 추천으로 자연어처리 행사에 다녀옴.
회사 생활을 하면서 ML적으로 데이터를 다루지 않아서 감이 많이 떨어졌었는데, 자극 받을 수 있는 좋은 기회였음
이하는 의식의 흐름대로 내 마음대로 정리
일단 복붙함. 나중에 읽고 정리하자!!!!
2019-02-16(토)
- 2교시, 딥러닝 기반 형태소 분석기
- 도메인 중요성 이야기 하심. 역시 자연어…
- 인벤 볼 때 쓰는 언어 달랐던 경험 있지 역시…
- 특정 문서에서 topic clustering
- 인식 정의(인텐트/엔티티) ??
- 몇 개의 주제가 있난가? K?(군집)
- 결과 군집 결과 검증 사람이…
- Word2vec / bi-gram
- 오타정리는 힘들지 않나?! - 노가다
- 딱히 뭘 말하는 건지 모르겠네…
- 3교시, khaiii - 딥러닝 기반 형태소 분석기 - 임재수님 - 이거 발표자료 링크 넣어
- https://github.com/kakao/khaiii
- 형태소, 어절 뜻을 보고 영어 케이스, 한글 케이스 보심
- 기존 방법들은
- 규칙기반, 사전이나 하드코딩 했었음
- 통계기반(데이터기반)
- Hidden Markov Model
- Conditional Random Fields
- khaiii 도 데이터 기반이다. 세종 코퍼스 사용함
- 세종 코퍼스 오류 좀 있다.
- khaiii 어떻게 문제 해결 했나 ?!
- Rnn 사용 seq2seq 사용 하지만, 병렬처리 불가능, 파레미터 많은 문제 있었음..
- 그래서, “음절 기반 방법 사용함 - 심광섭, “음절 단위의 한국어 품사 태깅에서 원형 복원” 참고하심! 2013년
- 위 참고해서 분류문제가 되는 것이다. Then 원형 복원도 가능해 지고.
- cnn도 텍스트에 그대로 사용하심
- 이부분은 soon Kim, “convolutional neural networks for sentence classification” 2014 참고하심
- 정확도와 속도
- 윈도우, 임베딩 사이즈에 따라서 속도가…
- 성능을 f-score 쓰심
- 속도를 고려해서 모델을 2개 만드심 케이스에 따라서 사용하는 거지
- 기분석 사전 - github에 있음
- 오분석 패치
- 설치방법 참여 방법
- Github 참고 import 해서 사용할 수 있네!!
- Libaray 어떻게 만들었는지 풀어 해치는 게 중요한데…
- 오픈소스 개발 참여자도 모집하시네..
- 4교시, kakao 스마트 스피커
- 오타교정 개발과정
- 토이 개발해서 가능성을 보시네.
- 괜찮다 싶으면 서비스개발
- 출시 Docker 서버로
- 문제를 인식하고 출발하시네..
- 오류 유형을 다양하게 재정의 하심
- 여러 유사도 계산 방법이 있네, 편집 거리 유사도, jaro-winkler 유사도 …
- 사전 운영 하시네, (정답 후보 사전 )
- 실험 데이터 역시 알바 써서 만듦
- 5교시,뉴스 및 커뮤니티 데이터를 이용한 주식시장 예측모델
- kaggle 주제임
- 부동산 시세예측 하고 계심
- 자료 받음, “랑콘_서범석”
- Reddit이라는 외국 뉴스기사를 up down 평가하는 사이트 자료 있음 kaggle에
- kaggle보다 upgrade 버젼 two-sigma 있음
- 영어로 번역해서 영어 library 가져다 쓰는 경우도 있음 - 감성분석
- Arima 보다 xgboost가 더 결과가 좋더라
- AWS의 Sage Maker 사용하심
- 6교시 잠 땡땡이 ㅋㅋㅋ
- 7교시
- DIY 챗봇, 스스로 만드심
- NLG , NLU / Generation, understanding
- dm에서 state를 파악함
- dm과 nlu 부분을 발표하심
- 시나리오 베이스로 하는 이유가 기획자들의 customize를 맞추기 위해서는 직접 만드는게 편함
- xmind로 흐르 정리하심
- Preprocessing -> tokenization -> intent classification -> string to pattern
- Tokenization
- Elastic search 검색엔진 사용하시네…Elastic search 노리 라는 기술도 있음 형태소 분석기임
- intent classification
- 가장 유사한 문서의 결과를 찾는다.
- String to pattern
- 조사나 어미가 있기 때문에 앞부분만 매치해서 파악하기도 함
- One more thing
- 사용자 오타를 어떻게 커버 할 것 인가?!
- 자소 즉, 자음 모음으로 나눠서 남기면 랜,렌 오타를 파악 할 수 있을 것이다.
- “Character based” vs “alphabet based”
- 이 두 방법 모두 정규식 사용
- 결론 자소 단위로 나눠서 정규식 매칭 하면 정확도가 올라가더라.
- 키보드 기준으로 키보드 오타 케이스를 커버 할 수 있지 않을까?!
- 8교시 튜토리얼
- Https://bit.ly/2SCILZH
- colab내용 내 드라이브로 복사함
- Wifi : MSFTGUEST
- PW : msevent327w
- 내 드라이브에 사본 가져와서 그거 돌림 (https://drive.google.com/drive/folders/1N6PMqWGQqYO3sKQuPlxo_Jdv3PAyayVD)
- 자연어 처리 - 텐서플로우로 텍스트 분류 튜토리얼의 by 실습_김지혁
- Colab에 다 작성함 이후부터 (사본 만들고 링크 걸고)
위 과정을 다 블로그에 붙여넣을까?!?!
반응형
'일상' 카테고리의 다른 글
코로나 확진 후기 (2022.03.10) (0) | 2022.03.12 |
---|