DP-100 야무지게 죽쑤고 화나서 신청한 AI-900.
DP-100의 초급 버전이다 ㅎㅎ...
DP-100 해 보고 느낀 건
공식 Learn 채널 공부보단 예제 풀이가 중요하다는것.
좀 더 찾아 보니 다들 예제 위주로 보라더이다.
그리고 DP-100의 경우 기대완 달리
데이터 분석 그 자체보단 데이터 분석 환경 구축과 서비스 배포 위주의 문제가 나왔다.
쿠버네티스나 컴퓨팅 자원 문제들 와장창 틀리면서 700점 컷에 590점대로 떨어졌다. 흑흑.
무튼 그래서 이번에는 AI-900을 준비해 보자. 무려 내일 시험이다.
일단 아무 것도 안 본 상태로 예제를 풀어 보니 턱걸이 불합격이 나왔다.
아는 건데도 번역 문제로 틀리는게 너무 많더라...
다행히 본 시험에선 영문 보기를 지원한다만...
그래도 확실히 예제 위주로 풀어보는 게 맞는듯.
그래서 이번 포스팅에선 개념은 좀 헷갈린 거 위주로 간략히 정리하고
오답 풀이식으로 진행해보려 한다.
실습할 때마다 문제의 순서도 바뀌고, 문제 풀도 딱 50문제만 있는 건 아니니 여러번 해 보자.
- 자연어 분석(NLP, Natural Language Processing )
에이블스쿨에서 지나가듯이 배운 적 있다.
관심 있는 도메인이기도 하니 이참에 제대로 정리.
이전에 다룬 NLP와 LLM 관련 포스팅도 걸어 둔다.
(https://guoyee94.tistory.com/58)
<토큰화>
언어를 쪼개서(주로 형태소로 나눈다.) 숫자화하는것.
각 형태소들은 특정 숫자가 되어 모델에 입력되는데 이 각각을 토큰이라 한다.
토큰화 과정에서는 몇가지 고려 사항이 있는데,
(1) 텍스트 정규화 : 문장 부호 제거, 소문자 변화 등. 다만 이 과정에서 정보 소실이 있을 수 있다.
(2) 불용어 제거 : '중지 단어'라고 해서, 영어의 관사나 지시어처럼 맥락 형성에 방해되는 것들은 제거한다.
(3) n-gram : 토큰들을 어구 단위로 묶어서 인식하는것. 학창시절 영어 문장 끊듯이 보는 것이다.
(4) 형태소 분석 : 영어의 경우, 어근이 동일하고 품사만 다른 단어는 동일한 토큰으로 해석하는게 성능상 좋다.
<빈도 분석>
토큰 횟수를 세는 것.
<ML>
NLP 모델은 기본적으로 분류 모델이다.
보통 감정 분석 또는 의견 분석에 쓰이는데, 각 토큰을 긍정/부정으로 분류하여 문장 정체의 긍정/부정을 나타낸다.
물론 위 그림처럼 번역, 텍스트 분석, 요약, 대화 생성 등 다양한 기능에 쓸 수 있다.
<의미 체계 언어 모델>
에이블스쿨에서 transformer의 self-attention이라는 이름으로 배웠던 것.
각 토큰을 세 좌표의 조합(벡터)으로 나타내어 글 안에서 각 토큰들 간의 관계성을 파악하고,
이를 바탕으로 문맥을 생성한다.
- Azure AI Language
텍스트에 대한 정보를 처리하기 위한 NLP 모델과 그 부대 기능들이다.
<주요 기능>
1. 명명된 엔터티 인식 (Named Entity Recognition, NER)
텍스트에서 사람, 장소, 조직, 날짜, 시간 등의 엔터티 식별
2. 텍스트 요약 (Text Summarization)
긴 텍스트에서 주요 내용을 추출하는 요약 기능
3. 감정 분석 (Sentiment Analysis)
텍스트의 긍정, 부정, 중립적 감정을 평가
4. 키워드 추출 (Key Phrase Extraction)
텍스트에서 핵심 구나 단어를 추출
5. 언어 감지 (Language Detection)
텍스트의 언어를 자동으로 식별
6. 문서 분류 (Document Classification)
텍스트를 사전에 정의된 카테고리로 분류
7. 대화 언어 이해 (Conversational Language Understanding)
대화에서 사용자의 의도와 관련된 엔터티를 파악
8. 텍스트 번역 (Translation)
텍스트를 다른 언어로 실시간 번역
9. 맞춤형 언어 모델
사용자 데이터에 맞춘 언어 모델 학습
10. 질문-답변 (Question Answering)
문서나 텍스트에서 질문에 대한 답변 제공
- Azure AI Speech
음성에서 텍스트, 텍스트에서 음성으로의 전환을 해 주는 기능이다.
미리 학습된 Universal Language Model(범용 언어 모델)을 이용해 음성을 인식, 텍스트로 만들어 준다.
이 모델이 최적화된 작업은 받아쓰기와 대화이다.
실시간 대화 내용 기록 기능과, 일괄 대화 내용 기록 옵션을 제공한다.
텍스트에서 음성으로 만드는거야 뭐.... 흔한 TTF이다.
다만 MS인만큼 자연스러운 퀄리티를 제공하는 듯하고, 사용자 지정 음성을 개발할 수도 있다.
- Azure AI Face Service
얼굴 인식 객체탐지 모델을 제공한다.
주요 기능은 다음과 같다.
(1). 얼굴 특성: 얼굴에서 나이, 성별, 감정 등 다양한 특성을 분석. <- 안경이나 마스크도 감지한다.
(2). 얼굴 사각형: 이미지에서 얼굴이 위치한 사각형 영역 감지.
(3). 얼굴 ID: 얼굴을 고유하게 식별할 수 있는 ID 생성., 동일 인물인지 인식할 때 쓴다.
(4). 얼굴 랜드마크: 얼굴의 주요 위치(눈, 코, 입 등)를 세부적으로 감지.
- Copilot
뭐.... 시리, 빅스비, 프라이데이, 자비스 같은 거다. 얘가 앱 구동 권한을 얻으면 울트론이 된다.-
생성형 AI 기반의 모델을 빌드할 때, 애플리케이션에 통합되어 엔진같은 역할을 수행하는거지.
- 책임 있는 AI 원칙
원칙 | 영어명 | 내용 | 사례 |
공정성 | Fairness | 모든 사람을 공평하게 대한다. 얼굴 인식 기능을 최대한 안 쓴다. |
은행의 대출 승인 |
신뢰성 안정성 |
Reliability & Safety |
안정적이고 안전하게 작동해야 한다. | 자율 주행 차량 의료 시스템 |
보안 개인정보 |
Security & Privacy |
개인 정보를 보호한다. | 데이터 마이닝 모델 예측 |
포용성 | Inclusiveness | 보다 많은 사람에게 혜택을 준다. | |
투명성 | Transparency | 이해하기 쉬워야 한다. 시스템의 목적, 작동방식, 제한사항이 드러나야 한다. |
|
책임성 | Accountability | 사람이 AI를 책임진다. 명확한 윤리적 법적 표준 충족을 보장한다. |
◆ 오답노트
1. 연령과 체지방률을 기준으로 사람이 당뇨병에 걸릴 확률을 나타내는 수치를 파악해야 합니다.
어떤 유형의 기계 학습 모델을 사용해야 하나요?
<풀이>
수치를 파악한다는 것만 보고 선형 회귀 때려버린 나자신...
'당뇨병에 걸릴 확률'이르모 0.5 기준으로 0이나 1에 얼마큼 가까운지를 나타내는 문제다.
당연히 로지스틱 회귀.
9. 자동화된 ML(자동화된 기계 학습) 모델을 만들어야 합니다.
Azure Machine Learning 스튜디오에서 먼저 만들어야 하는 리소스는 무엇인가요?
<풀이>
이런 문제가 좀 억울한데,
뭐가 됐든 Azure Machine Learning 스튜디오를 쓰려면 작업 영역을 먼저 만들어야 한다.
하지만 풀이 왈,
'작업 영역은 스튜디오에 액세스할 때 만드는거지, 스튜디오에서 ML 하려면 데이터 세트가 필요하다.'그러니까 작업 영역을 만들어야 데이터 세트를 마련할 거 아니냐고
11. Azure Machine Learning 디자이너를 사용하여 새로 학습된 모델로부터 예측 서비스를 배포해야 합니다.
Machine Learning 디자이너에서 무엇을 먼저 해야 하나요?
유추 클러스터를 만듭니다.
<풀이>
맞추긴 했는데 반정도 찍었다.
Azure의 머신러닝 flow는 파이프라인 만들기에서 출발한다.
(학습 시) 학습 파이프라인 - 데이터 추가 - 학습(+검증) - 배포
(배포 시) 유추 파이프라인 - 유추 클러스터(쿠버네티스) - 엔드포인트 배포 - 서비스 테스트
유추 파이프라인이라는건 예측 모델을 가동하는,
즉 서비스에서의 동작을 실행하는 파이프라인을 말한다.
16. 지원 센터 질문 데이터에서 문제를 식별하고 언급된 사람과 제품을 식별할 수 있는 Azure AI 서비스의 두 가지 기능은 무엇인가요?
<풀이>
Azure AI Language라는 서비스에 대한 문제다.
이 서비스는 텍스트에서 정보를 추출하는 모델을 기반으로 작동한다.
기능으로는
(1) 언어 감지 : 어느 나라 말인지 감지하여 ISO 6391 코드, 언어 이름, 점수를 반환한다.
(2) 핵심 구 추출 : 맥락상 핵심인 단어/구 식별
(3) 감정 분석
(4) 명명된 엔터티 인식 : 등장한 객체들에 대한 정보를 텍스트 내에서 찾아, 그 객체에 대한 사전을 만든다.
(5) 엔터티 연결(엔터티 링크 설정이라고 뜨기도 한다.) : 위키피디아 문서 참조를 통해 특정 객체를 식별한다. 엔터티 인식에 포함되는 개념이다.
Azure AI Bot Service는 챗봇 개발 플랫폼이다.
19. 음성 텍스트 변환 API에서 사용하는 유니버설 언어 모델은 어떤 두 가지 시나리오에 최적화되어 있나요? 각 정답은 완전한 해답을 나타냅니다.
해당하는 답변을 모두 선택하세요.
<풀이>
억울한 문제 2.
애초에 학습 페이지에도 이 기능이 Azure AI '음성' 이라고 돼 있길래
Voice인가보다 했는데, 영문 페이지 가 보니까 Speech더라...
무튼 Azure AI Speech에 대한 문제다.
'유니버설 언어 모델'이라는건 'Universal Language Model'을 직역한건데,
음성과 텍스트를 상호 전환할 때 쓰는 MS의 Pre-trained model을 의미한다.
이 모델이 최적화된 시나리오(업무)는 받아쓰기와 대화인데, 번역이 왜 저러냐....
대화(conversational) = '환경을 토대로 봇을'?
원문이 상상도 안 간다
24. 이미지를 분류할 때 Azure AI 비전에서 지원되는 두 가지 특수 도메인 모델은 무엇인가요? 각 정답은 완전한 해답을 나타냅니다.
<풀이>
Azure AI Vision의 pre-trained model로 제공되는 두 모델이
하나는 유명인 분류 특화, 하나는 랜드마크 분류 특화 모델이다.
한편 이미지 분류를 할 때 우선적으로 제공되는 Class가 있는데, 그중에 people_과 people_group이 있다.
29. Azure AI 문서 인텔리전스 서비스를 사용하여 국가별 여권 및 판매 계정에서 정보를 검사할 수 있도록 해주는 미리 빌드된 두 가지 모델은 무엇인가요? 각 정답은 해답의 일부를 나타냅니다.
명함 모델
ID 문서 모델
청구서 모델
언어 모델영수증 모델
<풀이>
Azure의 문서 해석 AI 서비스인
Azure AI Document Intelligence 서비스에는
pre-train medel이 여럿 제공된다. 엄청 많다.
근데 문제에서 '국가별 여권'과 '판매 계정'에서 정보를 검색한다고 했으니
하나는 ID 문서(신분증 등), 다른 하나는 청구서가 되는거지.
근데 영수증은 왜 안되지....? 이건 구매 계정에 있는건가보다.
'자격증 공부 > Azure' 카테고리의 다른 글
MS Azure 자격증 알아보기 + [DP-100]자격증 준비 1페이지 정리 (0) | 2025.01.25 |
---|