월요일, 6월 17, 2024
Home자동화오픈소스가 인공지능의 요람인 이유 - ZDNet korea

오픈소스가 인공지능의 요람인 이유 – ZDNet korea


치열한 인공지능(AI) 경쟁 속에서 오픈소스는 새로운 도전에 직면해 있다. 주요 AI 기업이 개발한 대규모 언어모델(LLM)은 독점 소프트웨어로 남겨져 있고, 오픈소스 진영은 기존의 대규모 후원자를 많이 잃은 채 스스로 생존 방법을 찾아야 하는 상황에 처해 있다.

최근 GDNet USA의 오픈소스 소프트웨어 기자인 스티븐 보건-니콜스(Stephen Bogan-Nichols)는 ‘오픈소스가 인공지능의 요람인 이유’라는 제목의 칼럼을 게재했다.

본 칼럼은 “치열한 AI 사업에서 오픈소스는 언제나 신부 들러리 역할을 하게 되어 있는가, 아니면 결코 신부 역할을 할 수 없는가?”라는 주제로 작성되었습니다.

(사진설명: DALL-E 2 생성 이미지)

스티븐 보건-니콜스(Stephen Bogan-Nichols)는 “어떤 면에서 오픈소스와 AI는 함께 탄생했습니다.

“만약 1971년에 대중에게 AI를 언급했다면 그들은 아이작 아시모프의 로봇공학 3원칙을 떠올렸을 것입니다.” “하지만 AI는 이미 그 해 MIT에서 진짜 화두였고, Richard Stallman(RMS)이 MIT AI Lab에 합류했습니다. “그는 말했다.

그는 이어 “몇 년 후 독점 소프트웨어의 출현과 함께 RMS는 자유 소프트웨어라는 급진적인 아이디어를 발전시켰고, 수십 년 후 이 개념은 오픈 소스로 변형되어 현대 AI의 탄생지가 됐다”고 말했다.

현대 AI 운동을 시작한 사람은 컴퓨터 과학자 앨런 튜링(Alan Turing)이었습니다. 튜링은 1950년 자신의 논문 ‘컴퓨터와 지능(Computing Machines and Intelligence)’을 통해 튜링 테스트를 시작했습니다. 테스트는 기계가 인간과 대화하고 있다고 생각하도록 인간을 속일 수 있으면 지능이 있다고 말하는 것입니다.

또한 최근에는 오늘날의 AI 중 일부가 이미 튜링 테스트를 통과할 수 있다는 주장도 있었습니다.

1960년 컴퓨터 과학자 존 매카시(John McCarthy)는 ‘인공지능(AI)’이라는 용어를 만들었습니다. 그 과정에서 만들어진 언어가 ‘Lisp’이다. 컴퓨터 과학자 Paul Graham은 McCarthy의 업적을 “Euclid의 기하학적 업적과 동일”하다고 설명했으며 “그는 몇 가지 간단한 연산자와 함수 표기법을 사용하여 전체 프로그래밍 언어를 구축하는 방법을 보여주었습니다.”

Lisp는 데이터와 코드를 혼합한 언어로 AI의 첫 번째 언어였습니다. Richard Stallman은 Lisp를 좋아했습니다.

1980년대에는 자유 소프트웨어를 기반으로 GNU-ChatGPT라고 부를 수 있는 여러 이론이 등장했습니다. 많은 훌륭한 아이디어에도 불구하고 하드웨어는 그 도전에 부응하지 못했습니다.

2010년대 빅데이터 기술은 오늘날의 AI를 만드는 길을 열었습니다. 오늘날과 같은 최신 AI 기술을 만드는 데 직접적인 역할을 한 것은 아니다.

Hadoop, Spark, Cassandra와 같은 오픈 소스 프로젝트는 하드웨어 클러스터에 대량의 데이터를 저장하고 처리하는 데 필요한 AI 및 기계 학습 도구를 제공했습니다. 대규모 언어 모델(LLM)은 빅데이터와 이에 대한 빠른 액세스 없이는 작동할 수 없습니다.

오픈소스를 좋아하지 않았던 빌 게이츠도 1980년 그래픽사용자인터페이스(GUI) 아이디어 이후 가장 큰 놀라움으로 오픈소스 기반 AI를 선택했다.

빌 게이츠는 “2016년부터 OpenAI팀과 만나왔는데 그들의 꾸준한 발전에 깊은 인상을 받았다”며 “2022년 중반 그들의 작업이 너무 흥미로워서 AI를 훈련시켜 새로운 분야에 도전할 것을 제안했다”고 말했다. AP 생물학 시험.” .

Bill Gates가 Open AI에 제시한 과제는 특별히 훈련되지 않은 질문에 대답할 수 있는 AI를 만드는 것이었습니다. Bill Gates는 “나는 그 도전이 OpenAI를 2~3년 동안 바쁘게 만들 것이라고 생각했습니다.”라고 말했습니다. “그들은 단 몇 달 만에 그것을 완료했습니다.”

그는 “물에 젖은 몸을 경험하는 것은 놀라웠고 GUI 이후 가장 중요한 기술 발전을 목격했다는 것을 알았습니다”라고 덧붙였습니다. “AI가 향후 5~10년 안에 달성할 수 있는 모든 것에 대해 생각하게 했습니다.”

ChatGPT, Llama2 등 인기 있는 생성 AI 모델은 오픈 소스에서 탄생했습니다. 물론 ChatGPT, Rama2, Dali 등의 AI 모델은 오픈소스가 아닙니다.

OpenAI 초기 투자자였던 일론 머스크는 “OpenAI는 구글에 맞서기 위해 오픈소스이자 비영리 기업으로 만들어졌다”며 “민간 소스로 만들 생각은 없었고, Microsoft가 효과적으로 통제하는 영리 회사입니다.” 공개되기도 했습니다.

그럼에도 불구하고 OpenAI 및 기타 모든 생성 AI 프로그램은 오픈 소스를 기반으로 구축되었습니다. Hugging Face의 Transformer는 ML 모델 구축을 위한 탁월한 오픈 소스 라이브러리입니다. 이 라이브러리는 자연어 처리 작업을 위한 사전 학습된 모델, 아키텍처 및 도구를 제공합니다. 개발자는 기존 모델을 기반으로 특정 사례에 맞게 미세 조정할 수 있습니다.

ChatGPT는 특히 GPT 언어 모델을 위해 Hugging Face의 라이브러리를 사용합니다. Transformers가 없으면 ChatGPT도 없습니다.

Google과 Facebook이 각각 개발한 ‘TensorFlow’와 ‘PyTorch’가 ChatGPT의 등장을 촉진했습니다. Python 프레임워크는 딥 러닝 모델을 구축하고 훈련하는 데 필수적인 도구와 라이브러리를 제공합니다. 오픈 소스 AI 및 ML 프로그램은 이러한 도구를 기반으로 구축됩니다. 고급 TensorFlow API인 ‘Keras’는 딥러닝 배경 지식이 없는 개발자가 신경망을 구축하는 데 사용됩니다.

TensorFlow와 PyTorch의 우수성을 판단하는 것은 어렵습니다. 확실한 것은 두 프레임 작업 모두 많은 프로젝트에서 사용되는 기반이 된다는 것입니다. 많은 AI 챗봇의 백엔드는 다양한 오픈 소스 프로젝트가 혼합되어 있습니다.

Meta는 Rama 2가 오픈 소스라고 주장합니다. 많은 오픈소스 개발자들이 오픈소스 친화적인 성격 때문에 Llama를 선택했지만, 자세히 살펴보면 Llama 2는 오픈소스가 아닙니다.

Lamar2는 무료로 다운로드하여 사용할 수 있으므로 사전 훈련된 모델, 모델 가중치 및 대화형 미세 조정 버전용 시작 코드를 사용하여 애플리케이션을 쉽게 구축할 수 있습니다.

다만, 라마2의 월실사용자(MAU)가 7억 명이 넘는 경우 별도의 라이선스 비용을 메타에서 지불해야 한다. Meta는 단독 재량에 따라 유료 라이선스를 부여하기로 결정할 수 있습니다.

월간 사용자 7억 명도 달성하기 어려운 조건이지만, 라마 2로 페이스북이나 ChatGPT 같은 대성공을 이뤄 억만장자가 되는 것을 포기해야 한다는 뜻이다.

진정한 오픈 소스 LLM은 ‘Falcon 180B’입니다. 그러나 대부분의 주요 상용 LLM은 오픈 소스가 아닙니다. 모든 주요 LLM은 공개 데이터에 대한 교육을 받았습니다. 예를 들어, GPT-4를 포함한 대부분의 LLM은 웹에서 크롤링되는 페타바이트 규모의 텍스트 아카이브인 CommonCrawl에서 일부 데이터를 가져옵니다. 이 아카이브에는 Facebook의 생일 축하 메시지, Linux의 Reddit 댓글, Wikipedia 언급, Archive.org의 도서 등 공개 사이트에서 작성된 HTML 문서가 포함되어 있습니다.

스티브 보건-니콜스(Steve Bogan-Nichols)는 “그렇다면 오픈소스는 언제나 AI 비즈니스의 신부 들러리가 될 운명인가?”라고 자문했습니다. 그리 빠르지는 않아요.”라고 대답했습니다.

구글 AI 엔지니어는 유출된 구글 내부 문서에서 “불편한 사실은 우리가 이 생성적 AI 군비 경쟁에서 승리할 수 있는 위치에 있지 않으며 OpenAI도 마찬가지라는 것”이라고 말했다. “나는 점심을 먹고 있어요”라고 그는 썼습니다.

여기서 세 번째 힘은 오픈 소스 커뮤니티입니다.

생성 AI에서 유용한 답변을 얻는 데 반드시 하이퍼스케일 클라우드나 수천 개의 값비싼 GPU가 필요한 것은 아닙니다. 스마트폰에서도 LLM을 실행할 수 있습니다. 초당 5개의 LLM 토큰을 사용하여 Google Pixel 6에서 기초 모델을 실행하는 예도 있습니다. 개인화된 AI를 노트북으로 미세 조정하는 것도 가능하다.

Hugging Face의 오픈소스 LoRA와 같은 미세 조정 메커니즘 덕분에 훨씬 적은 비용과 시간으로 LLM의 미세 조정이 가능해졌습니다.

한 Google AI 엔지니어는 “소비자 하드웨어에서 몇 시간 만에 언어 모델을 개인화할 수 있다면 정말 놀라운 일이 될 것입니다.”라고 썼습니다. “LoRA를 매우 효과적으로 만드는 것 중 하나는 다른 형태의 미세 조정처럼 쌓을 수 있다는 것입니다.”

“지침을 조정하는 등의 개선 작업을 수행한 다음 다른 기여자가 대화, 추론 또는 도구를 추가할 때 이를 활용할 수 있습니다.”라고 그는 말했습니다. 그는 “전체 순위 업데이트는 누적될 수 있다”고 말했다.

“새롭고 더 나은 데이터 세트와 작업을 사용할 수 있게 되면 모델을 전혀 사용하지 않고도 저렴하게 최신 모델을 유지할 수 있습니다.”라고 그는 덧붙였습니다.

그는 우리가 오픈 소스와 경쟁해서는 안 된다고 결론지었습니다. “오픈소스와 직접 경쟁하는 것은 지는 제안입니다.”라고 그는 말했습니다. “우리는 따라잡을 수 있을 것이라고 기대해서는 안 됩니다.”

관련 기사

“현대 인터넷은 오픈 소스를 기반으로 운영됩니다.”라고 그는 결론을 내렸습니다. “오픈소스에는 복제할 수 없는 몇 가지 중요한 이점이 있습니다.”

Steve Bogan-Nichols는 “30년 전에는 누구도 오픈 소스 운영 체제가 Unix나 Windows와 같은 독점 시스템을 능가할 것이라고는 꿈도 꾸지 못했습니다.”라고 말했습니다. “아마도 진정한 개방형 AI 프로그램은 오늘날 우리가 사용하는 반독점 프로그램을 능가할 것입니다.” 그는 “30년도 채 안 걸릴 것”이라고 내다봤다.

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisment -
Google search engine

Most Popular

Recent Comments