[Python] 문자열이 한 글자들로 이루어졌는지 확인하기
2022. 12. 29. 09:29
지난 글 확인 : https://sso-y.tistory.com/39
[NLP] CounVectorizer
문장 from sklearn.feature_extraction.text import CountVectorizer sent = ['도미노 멀티 플렉스 극장 관람료 인상', '관계자 영화산업 생존', '경쟁업계 극장 가격 인상 동참', '직장인 주말 영화 예매 인기 매진 상
sso-y.tistory.com
CountVectorizer에 넘길 문장에 한 글자, 빈 문자열로만 이루어진 리스트를 넘기면 오류가 발생했었다.
한 글자, 빈 문자열로만 이루어진 리스트를 무시하기 위해 아래와 같은 코드를 사용했다.
# 빈 문장 제외, 한자리 문자열만 있는 문장 제외
if len(sent) != 0 or ' ' in sent.strip():
sent = sent.strip()
temp = sent.replace(' ', '')
if len(sent) != len(temp)*2-1:
# CountVectorizer에 sent 전달
CountVectorizer에 넘길 문자열 리스트인 sent의 왼쪽과 오른쪽의 공백을 strip()으로 지워준 후,
모든 띄어쓰기를 제거한 문자열을 temp에 저장했다.
예를 들어
['가 나 다 라 마 ']라는 데이터가 들어왔을 경우
- '가 나 다 라 마' = sent (9 len)
- '가나다라마' = temp (5 len)
- len(temp)*2-1이 len(sent)와 같으면 한 글자로만 이루어진 문자열이다.
더 좋은 방법이 있을 것 같지만..
'업무 > 메모' 카테고리의 다른 글
| [Python] 리스트 안 딕셔너리 다루기 (0) | 2023.01.05 |
|---|---|
| [Python] 날짜에서 요일 가져오기 (0) | 2023.01.04 |
| [Python] 튜플을 문자열로 변환하기 (0) | 2022.12.27 |
| [Python] 변수 타입 조건문 (0) | 2022.12.22 |
| [Python] XlsxWriter 모듈 (0) | 2022.12.12 |