КОМБІНОВАНИЙ ІЄРАРХІЧНИЙ ПІДХІД ДО КЛАСТЕРИЗАЦІЇ ДОКУМЕНТІВ
Ключові слова:
техt mіnіng, dаtа mіnіng, дендрограма, к-середніх, ієрархічна кластеризація, векторна модель, соsіnе mеаsurеАнотація
Запропоновано інтегрований ієрархічний підхід до класифікації тексту, заснований на дендрограмі та k-середніх кластеризаціях. Цей підхід дозволяє нам подати інтегрований новий метод ієрархічної кластеризації, який може класифікувати дані без попереднього задавання кількості класів, що дозволяє структуровано зберігати документи на комп'ютері. Цей підхід засновано на двох методах, які відносяться до області text і data mining. Першим етапом є попереднє оброблення документів, внаслідок чого скорочується час і якісно обчислюється результат. Другим етапом є використання векторної моделі, яка дозволяє чітко визначити значущість слів у документі. Використано ієрархічну кластеризацію, в яку входять два методи дендрограма і k-середніх. Метод дендрограми дозволяє заздалегідь визначити кількість кластерів (тек), метод k-середніх відносить документи до певних кластерів. Завершальним етапом є використання методу дендрограми для створення ієрархічної послідовності документів усередині кожного кластера (теки).Посилання
1. Ліфшиц Ю. Автоматична класифікація текстів [Електронний ресурс] : [лекція з Data Mining] / Ю. Ліфшиц // Алго-ритми для Інтернету : (лекція №6). — Осінь, 2006. — Режим доступу до лк.: http://logic.pdmi.ras.ru/~yura/internet/06ia.pdf — Назва з екрану.
2. Bellot P. Query Length, Number of Classes and Routes through Clusters :Experiments with a Clustering Method for Information. [Електронний ресурс] : (In Proceedings of IEEE ICSC’99) / P. Bellot, M. El-Beze // Springer-Verlag — Berlin, Heidelberg, 1999. — Р. 196–205. — Режим доступу до статті: http://wotan.liu.edu/docis/dbl/icscic/1999__196_QLNOCA.htm
3. Zoubin Ghahramani. Unsupervised Learning [Електронний ресурс] : [Data Mining vs Machine learning]: (Machine Learning, Proceedings of the Twenty-Fourth International Conference) / Zoubin Ghahramani // ICML — Corvalis, Oregon, USA — 2007.— Режим доступу до статті:http://www.gatsby.ucl.ac.uk/~zoubin/course05/ul.pdf
4. Lewisand D. Acomparison of two learning algorithms for text categorization [Електронний ресурс] : (In Third Annual Symposium on Document Analysis and Information Retrieval)/ David D. Lewisand, M. Ringuette // 1994. — Р. 81—93. — Режим доступу до статті : http://www.research.att.com/~lewis/papers/lewis94b.ps.
5. Porter M. F. An algorithm for suffix stripping [Електронний ресурс] : [Text retrieval] / M. F. Porter // Program – 1980. — №4(3). — Р. 130—137. — Режим доступу до статті: http://tartarus.org/~martin/PorterStemmer/def.txt . — Назва з екрану.
6. Everitt B. Cluster Analysis [english] / B. Everitt. — NewYork : Wiley,1993. — 283 p. — Heinemann Educational Books LTD. — Бібліогр. в підрядк. Прим. — ISBN 034057237X / 9780340572375 / 0-340-57237-X
7. Чубукова І. А. Методи кластерного аналіза. Ієрархічні методи [Електронний ресурс]: (INTUIT.ru::Інтернет-Університет Інформаційних Технологій. Дистанційна освіта. — 2003-2008)/ І. А. Чубукова // Data Mining : (лекція № 13). — 2006. — Режим доступу до лк.:http://www.intuit.ru/department/database/datamining/13/2.html
8. Bradley, P. S. Constrained k-means clustering [Електронний ресурс] / Bradley, P. S., Bennett, K. P. Demiriz, A. // Microsoft Research. MSR-TR-2000-65. 2000. — Redmond, W. A. — Режим доступу до статті.: http://www.litech.org/~wkiri/Papers/wkiri.html
2. Bellot P. Query Length, Number of Classes and Routes through Clusters :Experiments with a Clustering Method for Information. [Електронний ресурс] : (In Proceedings of IEEE ICSC’99) / P. Bellot, M. El-Beze // Springer-Verlag — Berlin, Heidelberg, 1999. — Р. 196–205. — Режим доступу до статті: http://wotan.liu.edu/docis/dbl/icscic/1999__196_QLNOCA.htm
3. Zoubin Ghahramani. Unsupervised Learning [Електронний ресурс] : [Data Mining vs Machine learning]: (Machine Learning, Proceedings of the Twenty-Fourth International Conference) / Zoubin Ghahramani // ICML — Corvalis, Oregon, USA — 2007.— Режим доступу до статті:http://www.gatsby.ucl.ac.uk/~zoubin/course05/ul.pdf
4. Lewisand D. Acomparison of two learning algorithms for text categorization [Електронний ресурс] : (In Third Annual Symposium on Document Analysis and Information Retrieval)/ David D. Lewisand, M. Ringuette // 1994. — Р. 81—93. — Режим доступу до статті : http://www.research.att.com/~lewis/papers/lewis94b.ps.
5. Porter M. F. An algorithm for suffix stripping [Електронний ресурс] : [Text retrieval] / M. F. Porter // Program – 1980. — №4(3). — Р. 130—137. — Режим доступу до статті: http://tartarus.org/~martin/PorterStemmer/def.txt . — Назва з екрану.
6. Everitt B. Cluster Analysis [english] / B. Everitt. — NewYork : Wiley,1993. — 283 p. — Heinemann Educational Books LTD. — Бібліогр. в підрядк. Прим. — ISBN 034057237X / 9780340572375 / 0-340-57237-X
7. Чубукова І. А. Методи кластерного аналіза. Ієрархічні методи [Електронний ресурс]: (INTUIT.ru::Інтернет-Університет Інформаційних Технологій. Дистанційна освіта. — 2003-2008)/ І. А. Чубукова // Data Mining : (лекція № 13). — 2006. — Режим доступу до лк.:http://www.intuit.ru/department/database/datamining/13/2.html
8. Bradley, P. S. Constrained k-means clustering [Електронний ресурс] / Bradley, P. S., Bennett, K. P. Demiriz, A. // Microsoft Research. MSR-TR-2000-65. 2000. — Redmond, W. A. — Режим доступу до статті.: http://www.litech.org/~wkiri/Papers/wkiri.html
##submission.downloads##
-
PDF
Завантажень: 355
Переглядів анотації: 294
Опубліковано
2010-11-12
Як цитувати
[1]
Т. Б. Шатовська і І. В. Каменєва, «КОМБІНОВАНИЙ ІЄРАРХІЧНИЙ ПІДХІД ДО КЛАСТЕРИЗАЦІЇ ДОКУМЕНТІВ», Вісник ВПІ, вип. 1, с. 47–50, Листоп. 2010.
Номер
Розділ
Інформаційні технології та комп'ютерна техніка
Ліцензія
Автори, які публікуються у цьому журналі, згодні з такими умовами:
- Автори зберігають авторське право і надають журналу право першої публікації.
- Автори можуть укладати окремі, додаткові договірні угоди з неексклюзивного поширення опублікованої журналом версії статті (наприклад, розмістити її в інститутському репозиторії або опублікувати її в книзі), з визнанням її первісної публікації в цьому журналі.
- Авторам дозволяється і рекомендується розміщувати їхню роботу в Інтернеті (наприклад, в інституційних сховищах або на їхньому сайті) до і під час процесу подачі, оскільки це сприяє продуктивним обмінам, а також швидшому і ширшому цитуванню опублікованих робіт (див. вплив відкритого доступу).