[Python] 문자열이 한 글자들로 이루어졌는지 확인하기

2022. 12. 29. 09:29

[NLP] CounVectorizer

문장 from sklearn.feature_extraction.text import CountVectorizer sent = ['도미노 멀티 플렉스 극장 관람료 인상', '관계자 영화산업 생존', '경쟁업계 극장 가격 인상 동참', '직장인 주말 영화 예매 인기 매진 상

sso-y.tistory.com

CountVectorizer에 넘길 문장에 한 글자, 빈 문자열로만 이루어진 리스트를 넘기면 오류가 발생했었다.

한 글자, 빈 문자열로만 이루어진 리스트를 무시하기 위해 아래와 같은 코드를 사용했다.

# 빈 문장 제외, 한자리 문자열만 있는 문장 제외
if len(sent) != 0 or ' ' in sent.strip():
    sent = sent.strip()
    temp = sent.replace(' ', '')
    if len(sent) != len(temp)*2-1:
        # CountVectorizer에 sent 전달

CountVectorizer에 넘길 문자열 리스트인 sent의 왼쪽과 오른쪽의 공백을 strip()으로 지워준 후,

모든 띄어쓰기를 제거한 문자열을 temp에 저장했다.

예를 들어

['가 나 다 라 마 ']라는 데이터가 들어왔을 경우

'가 나 다 라 마' = sent (9 len)
'가나다라마' = temp (5 len)
len(temp)*2-1이 len(sent)와 같으면 한 글자로만 이루어진 문자열이다.

~~더 좋은 방법이 있을 것 같지만..~~

'업무 > 메모' 카테고리의 다른 글

[Python] 리스트 안 딕셔너리 다루기 (0)	2023.01.05
[Python] 날짜에서 요일 가져오기 (0)	2023.01.04
[Python] 튜플을 문자열로 변환하기 (0)	2022.12.27
[Python] 변수 타입 조건문 (0)	2022.12.22
[Python] XlsxWriter 모듈 (0)	2022.12.12

Sso

[Python] 문자열이 한 글자들로 이루어졌는지 확인하기

'업무 > 메모' 카테고리의 다른 글

티스토리툴바