우리의 AI 타이틀 실험은 계속됩니다: 우리가 기계를 망가뜨렸습니까?

오리크 로손 | 게티 이미지

우리는 이제 기계 학습 프로젝트의 세 번째 단계에 있습니다. 저는 5년 간의 헤드라인 테스트에서 얻은 Ars Technica 데이터 세트를 사용하는 임무를 받았습니다. A/B 테스트 독자가 기사에 사용할 것을 선택할 수 있습니다. 목표는 주어진 헤드라인의 성공을 예측할 수 있는 기계 학습 알고리즘을 구축하는 것입니다. 그리고 마지막 체크인 기준으로그것은…계획대로 되지 않았습니다.

또한 Amazon Web Services 계정 시간에 몇 달러를 지출하여 알아냈습니다. 경험은 약간 비쌀 수 있습니다. (힌트: 예산이 빠듯하다면 Autopilot 모드를 사용하지 마십시오.)

우리는 5,500개의 타이틀 테스트(반은 승자와 반은 패자)에서 11,000개의 헤드라인 풀을 분석하기 위해 몇 가지 방법을 시도했습니다. 먼저 전체 집합을 쉼표로 구분된 값의 형태로 가져와 “Hail Mary”(또는 나중에 보듯이 “젠킨스 르로이‘) AWS의 SageMaker Studio에서 autopilot 도구를 사용합니다. 이것은 53%의 검증 정확도 결과를 반환했습니다. 나중에 자연어 처리를 위해 특별히 구축된 모델인 AWS를 사용했을 때 이것이 그렇게 나쁘지 않은 것으로 밝혀졌습니다. 블레이징텍스트—결과는 정확도가 49%였으며 동전 던지기보다 더 나빴습니다. (그런데 많은 것들이 말도 안되는 소리처럼 들리면, 나는 추천합니다. 2부 재방문, 여기에서 이러한 도구를 더 자세히 검토합니다.)

AWS 기술 전도사 Julien Simon이 우리 데이터에 대해 운이 좋지 않았다는 사실은 조금 위안이 되기도 하고 약간 실망스럽기도 했습니다. 시도 대체 모델 이진 분류 모드에서 데이터 세트를 사용하여 53~54%의 정확도를 얻었습니다. 이제 무슨 일이 일어나고 있는지 살펴보고 학습 모델을 약간 수정하여 수정할 수 있는지 확인할 때입니다. 그렇지 않으면 완전히 다른 접근 방식을 취해야 할 때입니다.