ವಿಷಯಕ್ಕೆ ಹೋಗು

ಸದಸ್ಯ:Rakesh r raki/sandbox

ವಿಕಿಪೀಡಿಯದಿಂದ, ಇದು ಮುಕ್ತ ಹಾಗೂ ಸ್ವತಂತ್ರ ವಿಶ್ವಕೋಶ

ಸಹ ಪಠ್ಯ ಅನಾಲಿಟಿಕ್ಸ್ ಸಮನಾಗಿರುತ್ತದೆ ಪಠ್ಯ ದಶಮಾಂಶ ಗಣಿಗಾರಿಕೆ , ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ , ಪಠ್ಯದಿಂದ ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಮಾಹಿತಿ ವ್ಯುತ್ಪತ್ತಿ ಪ್ರಕ್ರಿಯೆಯಾಗಿದೆ . ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಮಾಹಿತಿ ವಿಶಿಷ್ಟವಾಗಿ ಉದಾಹರಣೆಗೆ ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ಮಾದರಿ ಕಲಿಕೆಯ ಸಾಧನವಾಗಿ ಮೂಲಕ ಮಾದರಿಗಳನ್ನು ಮತ್ತು ಪ್ರವೃತ್ತಿಗಳ ರೂಪಿಸುವಲ್ಲಿ ಮೂಲಕ ಪಡೆಯಲಾಗಿದೆ . ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಸಾಮಾನ್ಯವಾಗಿ ಇನ್ಪುಟ್ ಪಠ್ಯ , ( ಸಾಮಾನ್ಯವಾಗಿ ಕೆಲವು ಪಡೆದ ಭಾಷಾ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಮತ್ತು ಡೇಟಾಬೇಸ್ ಒಳಗೆ ಇತರರು ತೆಗೆಯುವುದು , ಮತ್ತು ನಂತರದ ಅಳವಡಿಕೆ ಜೊತೆಗೆ ಜೊತೆಗೆ , ಪಾರ್ಸಿಂಗ್ ) ರಚನಾತ್ಮಕ ದಶಮಾಂಶ ಒಳಗೆ ಮಾದರಿಗಳನ್ನು ವ್ಯುತ್ಪತ್ತಿ ಮತ್ತು ಅಂತಿಮವಾಗಿ ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ವ್ಯಾಖ್ಯಾನ ರೂಪಿಸುವುದಕ್ಕೆ ಪ್ರಕ್ರಿಯೆಯಾಗಿದೆ ಉತ್ಪಾದನೆಯ . ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯಲ್ಲಿ ' ಗುಣಮಟ್ಟದ ' ಸಾಮಾನ್ಯವಾಗಿ ಪ್ರಸ್ತುತತೆ , ನವೀನ , ಮತ್ತು ಆಸಕ್ತಿಯು ಕೆಲವು ಸಂಯೋಜನೆ ಸೂಚಿಸುತ್ತದೆ . ಸಾಮಾನ್ಯ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಕಾರ್ಯಗಳನ್ನು ( ಹೆಸರಿನ ಭಾಗಗಳ ನಡುವಿನ ಸಂಬಂಧಗಳು ಕಲಿಕೆ , ಅಂದರೆ ) ಪಠ್ಯ ವಿಂಗಡಣೆಯು ಪಠ್ಯ ಕ್ಲಸ್ಟರಿಂಗ್ , ಪರಿಕಲ್ಪನೆ / ಘಟಕದ ಹೊರತೆಗೆಯುವಿಕೆ , ಹರಳಿನ ಜೀವಿವರ್ಗೀಕರಣ ಉತ್ಪಾದನೆ , ಭಾವದ ವಿಶ್ಲೇಷಣೆ , ಡಾಕ್ಯುಮೆಂಟ್ ಸಂಗ್ರಹ ಮಾಡುವಿಕೆ , ಮತ್ತು ಘಟಕದ ಸಂಬಂಧಿಸಿದಂತೆ ಮಾಡೆಲಿಂಗ್ ಸೇರಿವೆ .

ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆ ಮಾಹಿತಿಯನ್ನು ಪುನಃ, ಪದ ಆವರ್ತನ ಹಂಚಿಕೆ , ಮಾದರಿ ಗುರುತಿಸುವಿಕೆ, ಟ್ಯಾಗಿಂಗ್ / ಟಿಪ್ಪಣಿ , ಮಾಹಿತಿ ಹೊರತೆಗೆಯುವಿಕೆ ಲಿಂಕ್ ಮತ್ತು ಅಸೋಸಿಯೇಷನ್ ವಿಶ್ಲೇಷಣೆ , ದೃಶ್ಯೀಕರಣ , ಮತ್ತು ಭವಿಷ್ಯದ ವಿಶ್ಲೇಷಕಗಳು ಸೇರಿದಂತೆ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ತಂತ್ರಗಳು ಅಧ್ಯಯನ ನಿಘಂಟಿನ ವಿಶ್ಲೇಷಣೆ ಒಳಗೊಂಡಿದೆ. ದ್ಯೇಯಗಳು ಮೂಲಭೂತವಾಗಿ , ಸ್ವಾಭಾವಿಕ ಭಾಷೆ ಸಂಸ್ಕರಣೆಯ ಅಪ್ಲಿಕೇಶನ್ (NLP) ಮತ್ತು ವಿಶ್ಲೇಷಣಾತ್ಮಕ ವಿಧಾನಗಳ ಮೂಲಕ , ವಿಶ್ಲೇಷಣೆಗೆ ದಶಮಾಂಶ ಪಠ್ಯ ಮಾಡಲು , ಆಗಿದೆ .

ವಿಶಿಷ್ಟ ಅಪ್ಲಿಕೇಶನ್ ನೈಸರ್ಗಿಕ ಭಾಷೆಯಲ್ಲಿ ಮತ್ತು ಊಹಾ ವರ್ಗೀಕರಣ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಡಾಕ್ಯುಮೆಂಟ್ ಸೆಟ್ ಮಾದರಿ ಅಥವಾ ಒಂದು ಡೇಟಾಬೇಸ್ ಜನಪ್ರಿಯಗೊಳಿಸುವುದಕ್ಕೆ ಅಥವಾ ಪಡೆಯಲಾಗದ ಮಾಹಿತಿಯನ್ನು ಸೂಚ್ಯಂಕ ಹುಡುಕಲು ಎರಡೂ ದಸ್ತಾವೇಜುಗಳ ಒಂದು ಸ್ಕ್ಯಾನ್ ಮಾಡುವುದು .

ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಮತ್ತು ಪಠ್ಯ ಅನಾಲಿಟಿಕ್ಸ್

[ಬದಲಾಯಿಸಿ]

ಪದ ಪಠ್ಯ ಅನಾಲಿಟಿಕ್ಸ್ ಮಾದರಿ ಮತ್ತು ವ್ಯಾಪಾರ ಗುಪ್ತಚರ ಪಠ್ಯ ಮೂಲಗಳನ್ನು ಮಾಹಿತಿಯನ್ನು ವಿಷಯವನ್ನು ರಚಿಸುವುದು , ಪರಿಶೋಧನಾತ್ಮಕ ಮಾಹಿತಿ ವಿಶ್ಲೇಷಣೆ, ಸಂಶೋಧನೆ, ಅಥವಾ ತನಿಖೆ. ಪದವನ್ನು ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಸರಿಸುಮಾರಾಗಿ ಸಮಾನಾರ್ಥಕ ಎಂದು , ಭಾಷಾ ಅಂಕಿಅಂಶಗಳ , ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆ ತಂತ್ರಗಳನ್ನು ಸೆಟ್ ವಿವರಿಸುತ್ತದೆ ; " . ಪಠ್ಯ ಅನಾಲಿಟಿಕ್ಸ್ " ವಾಸ್ತವವಾಗಿ , ರೋನನ್ ಫೆಲ್ಡ್ಮನ್ " ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ " ಒಂದು 2000 ವಿವರಣೆ 2004 ರಲ್ಲಿ ವಿವರಿಸಲು ಬದಲಾಯಿಸಲಾಗಿತ್ತು " ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ " ಕೆಲವು ಬಳಸಲಾಗುತ್ತದೆ [3] ನಂತರದ ಶಬ್ದವು ಈಗ ವ್ಯಾಪಾರ ಸೆಟ್ಟಿಂಗ್ಗಳನ್ನು ಹೆಚ್ಚು ಬಳಸಲಾಗುತ್ತಿದೆ 1980 ರವರೆಗಿನ ಆರಂಭಿಕ ಅಪ್ಲಿಕೇಶನ್ ಪ್ರದೇಶಗಳಲ್ಲಿ , [4] ಮುಖ್ಯವಾಗಿ ಜೀವ ವಿಜ್ಞಾನಗಳ ಅಧ್ಯಯನ ಮತ್ತು ಸರ್ಕಾರದ ಗುಪ್ತಚರ .

ಪದ ಪಠ್ಯ ಅನಾಲಿಟಿಕ್ಸ್ ಸಹ ಪಠ್ಯ ಅನಾಲಿಟಿಕ್ಸ್ ಅಪ್ಲಿಕೇಶನ್ ಸ್ವತಂತ್ರವಾಗಿ ಅಥವಾ ಪ್ರಶ್ನೆ ಮತ್ತು ಫೀಲ್ಡ್ , ಸಂಖ್ಯಾತ್ಮಕ ಮಾಹಿತಿಗಳ ವಿಶ್ಲೇಷಣೆಯು ಸಂಯೋಗದೊಂದಿಗೆ , ವ್ಯಾಪಾರ ಸಮಸ್ಯೆಗಳಿಗೆ ಪ್ರತಿಕ್ರಿಯಿಸಲು ಎಂದು ವಿವರಿಸುತ್ತದೆ . ಇದು ವ್ಯಾಪಾರ ಸಂಬಂಧಿತ ಮಾಹಿತಿ 80 ರಷ್ಟು ವಿನ್ಯಾಸಗೊಂಡಿರದ ರೂಪ , ಪ್ರಾಥಮಿಕವಾಗಿ ಪಠ್ಯ ಹುಟ್ಟಿರುವ truism [5] ಈ ತಂತ್ರಗಳು ಮತ್ತು ಪ್ರಕ್ರಿಯೆಗಳಲ್ಲಿ ಅನ್ವೇಷಿಸಲು ಮತ್ತು ಪ್ರಸ್ತುತ ಜ್ಞಾನ - . ಸತ್ಯ , ವ್ಯಾಪಾರ ನಿಯಮಗಳನ್ನು , ಮತ್ತು ಸಂಬಂಧಗಳು - ಎಂದು ಇಲ್ಲವಾಗಿದ್ದರೆ ತೂರಲಾಗದ , ಗ್ರಾಂಥಿಕ ರೂಪ ಲಾಕ್ ಸ್ವಯಂಚಾಲಿತ ಪ್ರಕ್ರಿಯೆಗೆ .

ಇತಿಹಾಸ

[ಬದಲಾಯಿಸಿ]

ಶ್ರಮಿಕ ಕೈಪಿಡಿ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ವಿಧಾನಗಳು ಮೊದಲ [6] ಆದರೆ ತಾಂತ್ರಿಕ ಕಳೆದ ದಶಕದಲ್ಲಿ ಮುನ್ನಡೆ ಕ್ಷೇತ್ರದಲ್ಲಿ ಶಕ್ತಗೊಳಿಸಿದೆ , 1980 ವ್ಯಾಪಿಸಿತು . ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಮಾಹಿತಿ ಮರುಗಳಿಕೆ , ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ, ಯಂತ್ರ ಕಲಿಕೆ , ಅಂಕಿಅಂಶ , ಮತ್ತು ಎಣಿಕೆಯ ಭಾಷಾಶಾಸ್ತ್ರಗಳು ಸೆಳೆಯುವ ಅಂತರ ಶಾಸ್ತ್ರೀಯ ಕ್ಷೇತ್ರವಾಗಿದೆ . ಅತ್ಯಂತ ಮಾಹಿತಿಯನ್ನು ( ಸಾಮಾನ್ಯ ಅಂದಾಜಿನ 80% ಹೇಳುತ್ತಾರೆ ) [5] ಪ್ರಸ್ತುತ ಪಠ್ಯ ಶೇಖರಿಸಲಾಗುತ್ತದೆ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಉನ್ನತ ವಾಣಿಜ್ಯ ಸಾಮರ್ಥ್ಯವನ್ನು ಮೌಲ್ಯ ನಂಬಲಾಗಿದೆ. ಹೆಚ್ಚುತ್ತಿರುವ ಆಸಕ್ತಿಯನ್ನು ಬಹುಭಾಷಾ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಹಣ ಮಾಡಲಾಗುತ್ತಿದೆ : ಭಾಷೆಗಳಲ್ಲಿ ಮಾಹಿತಿ ಪಡೆಯಲು ಮತ್ತು ಅವುಗಳ ಅರ್ಥವನ್ನು ಪ್ರಕಾರ ವಿವಿಧ ಭಾಷಾ ಮೂಲಗಳಿಂದ ಅಂತಹುದೇ ವಸ್ತುಗಳು ಕ್ಲಸ್ಟರ್ ಸಾಮರ್ಥ್ಯವನ್ನು .

"ವಿನ್ಯಾಸಗೊಂಡಿರದ" ರೂಪದಲ್ಲಿ ಹುಟ್ಟಿ ಉದ್ಯಮ ಮಾಹಿತಿಯನ್ನು ಪ್ರಮಾಣದ ದುರ್ಬಳಕೆ ಸವಾಲು ದಶಕಗಳಿಂದ ಗುರುತಿಸಲಾಗಿದೆ. [7] ಇದು HP ಅಕ್ಟೋಬರ್ನಲ್ಲಿ 1958 ಐಬಿಎಂ ದಿನಪತ್ರಿಕೆಯ ಲೇಖನದಲ್ಲಿ ವ್ಯಾಪಾರ ಗುಪ್ತಚರ ( ಬಿಐ ) ಮೊಟ್ಟಮೊದಲ ವ್ಯಾಖ್ಯಾನ ಮಾನ್ಯತೆ ಎಂದು ತಿನ್ನುವೆ ವ್ಯವಸ್ಥೆಯನ್ನು ವಿವರಿಸುವ ಒಂದು ಉದ್ಯಮ ಇಂಟೆಲಿಜೆನ್ಸ್ ವ್ಯವಸ್ಥೆ , :

" ... ಸ್ವಯಂ ಬೇರ್ಪಡಿಸುವ ಮತ್ತು ದಾಖಲೆಗಳ ಸ್ವಯಂ ಎನ್ಕೋಡಿಂಗ್ ಮತ್ತು ಸಂಸ್ಥೆಯಲ್ಲಿ ' ಕ್ರಮ ಅಂಕಗಳನ್ನು ' ಪ್ರತಿಯೊಂದು ಆಸಕ್ತಿ ಪ್ರೊಫೈಲ್ಗಳು ರಚಿಸಲು ಡೇಟಾ ಸಂಸ್ಕರಣೆ ಯಂತ್ರಗಳ ಬಳಸಿಕೊಳ್ಳುತ್ತವೆ . ಎರಡೂ ಒಳಬರುವ ಮತ್ತು ಆಂತರಿಕವಾಗಿ ದಾಖಲೆಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಒಂದು ಪದ ಸ್ವಂತಿಕೆ ಬೇರ್ಪಡಿಸಿದರೆ ಮಾಡಲಾಗುತ್ತದೆ ಮಾದರಿ , ಸೂಕ್ತ ಕ್ರಮ ಅಂಕಗಳನ್ನು ಕಳುಹಿಸಿದ . "

ಇನ್ನೂ ನಿರ್ವಹಣೆ ಮಾಹಿತಿ ವ್ಯವಸ್ಥೆಗಳ 1960 ರಲ್ಲಿ ಆರಂಭಿಸಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಿದರು ಮತ್ತು ಬಿಐ ಅಭ್ಯಾಸದ ತಂತ್ರಾಂಶ ವರ್ಗದಲ್ಲಿ ಮತ್ತು ಕ್ಷೇತ್ರ ಎಂದು 80 ಮತ್ತು 90 ರಲ್ಲಿ ಹೊರಹೊಮ್ಮಿತು , ಒತ್ತು ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್ ಸಂಗ್ರಹಿಸಲಾಗಿದೆ ಸಂಖ್ಯಾತ್ಮಕ ದತ್ತಾಂಶದ ಮೇಲೆ ಎಂದು . ಈ ಅಚ್ಚರಿ ಇಲ್ಲ : "ವಿನ್ಯಾಸಗೊಂಡಿರದ" ದಾಖಲೆಗಳನ್ನು ಪಠ್ಯ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಕಷ್ಟ. ಕಾಗದದ ಅನ್ಟ್ಯಾಂಗಲಿಂಗ್ ಪಠ್ಯ ಡಾಟಾ ಮೈನಿಂಗ್ ಪ್ರೊ ಮಾರ್ಟಿ ಎ ಹರ್ಸ್ಟ್ ಬಣ್ಣಿಸಿರುವ ಅದರ ಪ್ರಸ್ತುತ ರೂಪದಲ್ಲಿ ಪಠ್ಯ ಅನಾಲಿಟಿಕ್ಸ್ ಹುಟ್ಟು , ಕ್ರಮಾವಳಿ ಅಭಿವೃದ್ಧಿ ಅಪ್ಲಿಕೇಶನ್ 1990 ರಲ್ಲಿ ಸಂಶೋಧನೆ ಮಾಡುವ ಉದ್ಭವಿಸಿದೆ : [8]

ಸುಮಾರು ಒಂದು ದಶಕದ ಕಾಲ ಎಣಿಕೆಯ ಭಾಷಾಶಾಸ್ತ್ರಗಳು ಸಮುದಾಯ ಉತ್ತಮ ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆ ಕ್ರಮಾವಳಿಗಳು ಉತ್ಪಾದಿಸುವ ಸಲುವಾಗಿ ಕೊಳಾಯಿ ಒಂದು ಸಂಪನ್ಮೂಲ ದೊಡ್ಡ ಪಠ್ಯ ಸಂಗ್ರಹ ವೀಕ್ಷಿಸಿದ ಮಾಡಿದೆ . ವಿಶ್ವದ ಸ್ವತಃ ಬಗ್ಗೆ ಹೊಸ ಸತ್ಯ ಮತ್ತು ಪ್ರವೃತ್ತಿಗಳು ಕಂಡುಹಿಡಿಯಲು ದೊಡ್ಡ ಆನ್ಲೈನ್ ಪಠ್ಯ ಸಂಗ್ರಹ ಬಳಕೆ : ಈ ಪತ್ರಿಕೆಯಲ್ಲಿ, ನಾನು ಹೊಸ ಒತ್ತು ಸೂಚಿಸುತ್ತದೆ ಪ್ರಯತ್ನಿಸಿದ್ದಾರೆ. ನಾವು ಸಂಪೂರ್ಣವಾಗಿ ಕೃತಕ ಬುದ್ಧಿವಂತ ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆ ಅಗತ್ಯವಿಲ್ಲ ಪ್ರಗತಿ ಮಾಡಲು ಸೂಚಿಸುತ್ತವೆ ; ಬದಲಿಗೆ , ಗಣಕೀಕರಣಕ್ಕೆ ಚಾಲಿತ ಮತ್ತು ಬಳಕೆದಾರ ಮಾರ್ಗದರ್ಶನ ವಿಶ್ಲೇಷಣೆ ಮಿಶ್ರಣವನ್ನು ಅತ್ಯಾಕರ್ಷಕ ಹೊಸ ಫಲಿತಾಂಶಗಳು ಬಾಗಿಲು ತೆರೆಯಬಹುದು .

ಅಗತ್ಯ ಹರ್ಸ್ಟ್ ಅವರ 1999 ಹೇಳಿಕೆಯನ್ನು ಚೆನ್ನಾಗಿ ಪಠ್ಯ ಅನಾಲಿಟಿಕ್ಸ್ ತಂತ್ರಜ್ಞಾನದ ರಾಜ್ಯದ ವಿವರಿಸುತ್ತದೆ ಮತ್ತು ನಂತರ ಒಂದು ದಶಕದ ಅಭ್ಯಾಸ .