2023 ETRI 주관 오픈소스 R&D 생태계 강화
1011 ETRI 주관 오픈소스 R&D 생태계 강화에 다녀왔다.
지속가능하고 국내 SW 생태계 강화를 위한 전문가의 강연을 들어보는 시간이었다.
[국민대교수 이민석]
개발자 수입원; 60% unpaid.
> 계약을 통한 professional의 비즈니스를 선호한다.
Cloud Era
Aws, Microsoft, google 주도의 규모 있는 생태계 형성> Data쪽으로 확산
open source 철학에 도전 - 철학과 기업의 충돌
기업의 오픈 소스 상업적 이용 > 수익 배분의 문제가 license 문제로 번졌다.
> SSPL, BUSL, RSAL
- SSPL; managing service 소스 공개 요구
- BUSL; 상업적 서비스 제한 기간 설정
국내 오픈 소스 인식
단순 활용이 많음 > 프로젝트에 대한 리뷰와 수정 등의 피드백을 70%까지 늘릴 예정이다.
요약;
저작권 중심의 거버넌스보다 보안이 더 중요해지고 있다. 저작권에 대한 인식이 제고된 듯하다.
Cloud 시대로 들어오면서 Open Source의 기존 철학이 도전을 받고 있다. 산수가 복잡해졌다.
Open Source를 대하던 문제적 태도들;
비즈니스 모델로 인식했고 SW 산업의 역사가 짧아 - 가치 평가 기준이 빈곤하다는 한계
자연스럽게 '오픈 소스가 개발자의 성장을 도모하는 개발 프로세스로 자리매김되어야 한다.'는 생각으로 이어진다. 이를 위한 자유로운 Communication 환경이 필요하다.
오픈 소스의 성공;
Quick release, feedback, distribution
+ 사용자가 개발자라면 코드를 보고 싶어 한다.
결론적으로, 오픈 소스가 필요하고 사용량도 높다.
자본의 논리가 오픈 소스를 움직이는 것은 사실이나 오픈 소스의 중심에는 개발자가 있으므로 사용자와 개발자를 설득해야 한다.
[Lablup Inc. 신정규] AI와 오픈소스
선순환 구조를 기대했으나 cloud가 소스를 상업적으로 이용하면서 오픈 소스의 선순환 구조가 사라지고 오픈 소스 개발자의 수입 창출이 어려워졌다. Cloud 회사는 Open을 접두사로 붙여가면서 기업의 입장에서 오픈 소스를 적극적으로 이용한다.
+ AI는 인간의 지속적인 명령 행위를 생략가능하도록 했다.
[튜터러스랩스 CTO, 임준호]
LLM; Large Language Model
의미; LLM > LM > word prediction > memorization; 데이터로 문장을 암기하는 형태이다.
초기 언어모델에서 언어의 크기 별로 상식, 지식의 학습을 조사한다.
- 기존에는 내가 알려주고 꺼내온다는 개념이었는데
저장된 지식을 적절히 꺼내온다는 것의 의미는 LLM을 통하여 ^추론^이 가능해졌다는 것이다.
결국, 추론 !
추론의 의미;
자료구조, 알고리즘을 이용해서 sorting - 정렬 알고리즘(오름차순, 내림차순)을 AI가 스스로 가능해졌다.
근데 그걸 LLM(데이터랑 돈 쏟아부어서)으로 프롬프트(글 형식)로 명령할 수 있다는 것!!
오픈 모델은 2가지가 있다.
1. pre-trained ; 양으로 때려 넣어서 암기 학습. 따라서 데이터 양이 중요하다.
2. lecturction tuned ;
오픈 소스(모델)의 관점에서; 지금 춘추전국의 시대다. 쏟아져 나온다.
- Llama(meta), Falcon - 최근 180B까지 공개될 정도로 활성화됨, Mistral(창업 6개월 만에 7B)
Keyword는 효율성(워낙 비싸)
알고리즘; LoRA; 적은 gpu에서 학습할 수 있게 되었다.
고품질 Data의 경우, 데이터 양이 증가할수록 성능이 향상된다.
대기업만이 LLM을 사용할 수 있었으나, 최근에는 라마의 출시로 개인이 이용가능하게 됐다.
ChatGPT 발전방향
1. Multi-agent
single mode; 바로 물어보는 거
Multi- AI가 서로의 답변을 읽고 피드백하는 과정을 통해 성능 향상이 가능하다.
LLM이 서로 조직으로 활동하면 성능이 향상될 것이다.
예를 들어, 코드 생성하는 Q를 주고 여러 agent를 두고 피드백하면 성능이 향상되었다.
2. personalization
LLM이 프롬프트를 가지고 실행되므로, 개인 맞춤형 - 애기처럼 얘기해 줘, 뭐해줘를 해주면 좋을 듯 하다.
3. robotic control
오픈소스 LLM의 과제
1. 한국어 LLM 공개 모델
2. LLM 평가 기술
3. 학습데이터 저작권 및 AI 신뢰성
점심을 먹고 2부에서는 인공지능 실습을 해봤다.
1. colab에서 원하는 LLAMA 2를 이용해 AI와 대화를 했다.
심심이가 3D 애니메이션 얼굴 달고 영어로 대화하는 느낌이었다. 한국어로 하면 정확도가 많이 떨어진다.
2. AI 이미지 생성;
키워드를 입력해 AI 생성 이미지를 받는 실습이었다. runtime 에러 때문에 직접 실습보다는 구현한 화면을 보는 게 많았다. bing에서도 지원해 주는 것 같았는데 역시나 너무 오래 걸려서 기다릴 수 없다. 맥북 사면 하는 것으로..