지난 글 확인 : https://sso-y.tistory.com/39

 

[NLP] CounVectorizer

문장 from sklearn.feature_extraction.text import CountVectorizer sent = ['도미노 멀티 플렉스 극장 관람료 인상', '관계자 영화산업 생존', '경쟁업계 극장 가격 인상 동참', '직장인 주말 영화 예매 인기 매진 상

sso-y.tistory.com

CountVectorizer에 넘길 문장에 한 글자, 빈 문자열로만 이루어진 리스트를 넘기면 오류가 발생했었다.

 

한 글자, 빈 문자열로만 이루어진 리스트를 무시하기 위해 아래와 같은 코드를 사용했다.

# 빈 문장 제외, 한자리 문자열만 있는 문장 제외
if len(sent) != 0 or ' ' in sent.strip():
    sent = sent.strip()
    temp = sent.replace(' ', '')
    if len(sent) != len(temp)*2-1:
        # CountVectorizer에 sent 전달

CountVectorizer에 넘길 문자열 리스트인 sent의 왼쪽과 오른쪽의 공백을 strip()으로 지워준 후,

모든 띄어쓰기를 제거한 문자열을 temp에 저장했다.

 

예를 들어

['가 나 다 라 마 ']라는 데이터가 들어왔을 경우

  1. '가 나 다 라 마' = sent (9 len)
  2. '가나다라마' = temp (5 len)
  3. len(temp)*2-1이 len(sent)와 같으면 한 글자로만 이루어진 문자열이다.

 

 

더 좋은 방법이 있을 것 같지만..