본문 바로가기

일상

자연어 처리 행사 다녀와서~~

반응형

직장 동료분 추천으로 자연어처리 행사에 다녀옴. 

회사 생활을 하면서 ML적으로 데이터를 다루지 않아서 감이 많이 떨어졌었는데, 자극 받을 수 있는 좋은 기회였음 

이하는 의식의 흐름대로 내 마음대로 정리 


일단 복붙함. 나중에 읽고 정리하자!!!! 



2019-02-16()


  • 2교시, 딥러닝 기반 형태소 분석기 
    • 도메인 중요성 이야기 하심. 역시 자연어 
    • 인벤 쓰는 언어 달랐던 경험 있지 역시 
    • 특정 문서에서 topic clustering 
    • 인식 정의(인텐트/엔티티) ?? 
      • 개의 주제가 있난가? K?(군집)
      • 결과 군집 결과 검증 사람이 
      • Word2vec / bi-gram 
      • 오타정리는 힘들지 않나?! - 노가다 
    • 딱히 말하는 건지 모르겠네 
  • 3교시, khaiii - 딥러닝 기반 형태소 분석기 - 임재수님 - 이거 발표자료 링크 넣어 
  • https://github.com/kakao/khaiii
    • 형태소, 어절 뜻을 보고 영어 케이스, 한글 케이스 보심 
    • 기존 방법들은 
      • 규칙기반, 사전이나 하드코딩 했었음  
      • 통계기반(데이터기반) 
        • Hidden Markov Model 
        • Conditional Random Fields
    • khaiii 데이터 기반이다. 세종 코퍼스 사용함 
      • 세종 코퍼스 오류 있다. 
    • khaiii 어떻게 문제 해결 했나 ?! 
      • Rnn 사용 seq2seq 사용 하지만, 병렬처리 불가능, 파레미터 많은 문제 있었음.. 
      • 그래서, “음절 기반 방법 사용함 - 심광섭, “음절 단위의 한국어 품사 태깅에서 원형 복원참고하심! 2013
      • 참고해서 분류문제가 되는 것이다. Then 원형 복원도 가능해 지고. 
      • cnn 텍스트에 그대로 사용하심 
        • 이부분은 soon Kim, “convolutional neural networks for sentence classification” 2014 참고하심 
    • 정확도와 속도 
      • 윈도우, 임베딩 사이즈에 따라서 속도가 
      • 성능을 f-score 쓰심 
      • 속도를 고려해서 모델을 2 만드심 케이스에 따라서 사용하는 거지 
      • 기분석 사전 - github 있음 
      • 오분석 패치 


    • 설치방법 참여 방법 
      • Github 참고 import 해서 사용할 있네!! 
      • Libaray 어떻게 만들었는지 풀어 해치는 중요한데
      • 오픈소스 개발 참여자도 모집하시네.. 
  • 4교시, kakao 스마트 스피커 
    • 오타교정 개발과정
      • 토이 개발해서 가능성을 보시네. 
      • 괜찮다 싶으면 서비스개발
      • 출시 Docker 서버로 
    • 문제를 인식하고 출발하시네.. 
      • 오류 유형을 다양하게 재정의 하심 
      •  
    • 여러 유사도 계산 방법이 있네, 편집 거리 유사도, jaro-winkler 유사도
    • 사전 운영 하시네, (정답 후보 사전 )
    • 실험 데이터 역시 알바 써서 만듦


  • 5교시,뉴스 커뮤니티 데이터를 이용한 주식시장 예측모델
    • kaggle 주제임 
    • 부동산 시세예측 하고 계심
    • 자료 받음, “랑콘_서범석
    • Reddit이라는 외국 뉴스기사를 up down 평가하는 사이트 자료 있음 kaggle 
    • kaggle보다 upgrade 버젼 two-sigma 있음 
    • 영어로 번역해서 영어 library 가져다 쓰는 경우도 있음 - 감성분석 
    • Arima 보다 xgboost 결과가 좋더라 
    • AWS Sage Maker 사용하심 
  • 6교시 땡땡이 ㅋㅋㅋ 


  • 7교시 
    • DIY 챗봇, 스스로 만드심 
    • NLG , NLU / Generation, understanding 
    • dm에서 state 파악함 


    • dm nlu 부분을 발표하심 
    • 시나리오 베이스로 하는 이유가 기획자들의 customize 맞추기 위해서는 직접 만드는게 편함 
    • xmind 흐르 정리하심 
    •  
    • Preprocessing -> tokenization -> intent classification -> string to pattern 
      • Tokenization 
        • Elastic search 검색엔진 사용하시네…Elastic search 노리 라는 기술도 있음 형태소 분석기임 
      • intent classification 
        • 가장 유사한 문서의 결과를 찾는다. 
      • String to pattern 
        • 조사나 어미가 있기 때문에 앞부분만 매치해서 파악하기도


    • One more thing
      • 사용자 오타를 어떻게 커버 인가?! 
        • 자소 , 자음 모음으로 나눠서 남기면 , 오타를 파악 있을 것이다. 
          • “Character based” vs “alphabet based”
          • 방법 모두 정규식 사용 
        • 결론 자소 단위로 나눠서 정규식 매칭 하면 정확도가 올라가더라. 
      • 키보드 기준으로 키보드 오타 케이스를 커버 있지 않을까?! 


  • 8교시 튜토리얼 



과정을 블로그에 붙여넣을까?!?! 



























반응형

'일상' 카테고리의 다른 글

코로나 확진 후기 (2022.03.10)  (0) 2022.03.12